5本自然语言处理书单-附pdf
文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。
自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言。自然语言处理研究的内容包括但不限于如下分支领域:文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法)、语音识别与合成等。以下自然语言处理书籍由数智物语根据公开资料、豆瓣评分综合整理。
01书单
01Speech and Language Processing (3rd ed. draft)
作者:Daniel Jurafsky / James H. Martin
书籍简介:2018年9月23日自然语言处理领域经典综述教材《Speech and Language Processing 》,中文名《自然语言处理综述》第三版发布。该书由 NLP 领域的大牛,斯坦福大学 Daniel Jurafsky 教授和科罗拉多大学的 James H. Martin 教授等人共同编写。Daniel Jurafsky 是斯坦福大学计算机科学教授,主要研究方向是计算语言学和自然语言处理。 James H. Martin 是科罗拉多大学博尔德分校计算机科学系一名教授,两位教授都是 NLP 领域知名学者。
推荐理由:经典的 NLP 教科书,涵盖了所有 NLP 的基础知识,也被国外许多著名大学选为自然语言处理和计算语言学课程的主要教材。本书写作风格引人入胜,深入技术细节而又不让人感觉枯燥,不仅可以作为高等学校自然语言处理和计算语言学等课程的本科生和研究生教材,对于自然语言处理相关领域的研究人员和技术人员也是不可或缺的权威参考书。
阅读链接:https://web.stanford.edu/~jurafsky/slp3/
02Foundations of Statistical Natural Language Processing
作者:Christopher Manning and Hinrich Schütze
书籍简介:本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,《统计自然语言处理基础:国外计算机科学教材系列》将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。
推荐理由:经典的统计自然语言处理入门教材。内容涉及统计自然语言处理用到的数学基础,词法到语法分析,以及自然语言处理的基本任务(比如文本分类、聚类,统计机器翻译,以及信息检索)。本教材成书较早(1999年),但是自然语言处理领域的基本概念和任务没有太大的变化,仍然适用于初学者快速了解自然语言处理相关的概念和任务,中文版本为《统计自然语言处理基础:国外计算机科学教材系列》(电子工业出版社出版)。
阅读链接:https://nlp.stanford.edu/fsnlp/
03Neural Network Methods in Natural Language Processing (Synthesis Lectures on Human Language Technologies)
作者:Yoav Goldberg
书籍简介:本书着重介绍神经网络模型在自然语言数据中的应用。书的前半部分介绍了有监督的机器学习和前馈神经网络的基础知识,基于语言数据的机器学习的基础知识。它还涵盖了可以定义和训练任意神经网络的计算图形抽象方面的知识,是当代神经网络软件库设计的基础。本书的第二部分介绍了更多专门的神经网络体系结构,包括一维卷积神经网络、递归神经网络、条件生成模型和基于注意力的模型。这些体系结构和技术是机器翻译、句法分析和许多其他应用程序的最先进算法的推动力量。最后,本书还讨论了树形网络,结构化预测和多任务学习的前景。
推荐理由:最近几年由于深度学习的兴起,使得图像识别、语音识别等多个方面都发生了很大的变革。深度学习在自然语言处理方面也是非常普遍了,一些经典的自然语言模式也都是基于神经网络的,这本书是目前市面上唯一一本介绍神经网络在自然语言处理的应用,而且书中的大量参考文献非常有价值。本书的作者在这个领域非常知名,并且对待学术态度极其严谨。
阅读链接:http://library1.org/_ads/7ECBFA717EC2AAF7E2F20AA3597D1C8C
04Natural Language Processing with Python
作者:Steven Bird / Ewan Klein / Edward Loper
书籍简介:本书教你如何用 Python 和 NLTK 库来做 NLP。提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
推荐理由:这本书的实用性较强。如果你对 Python 与 NLTK 感兴趣,就看这本书,可以当做入门读物来看,整本书即涉及到了语料库的操作,也对传统的基于规则的方法有所涉及。全书包括了分词(tokenization)、词性标注(POS)、语块(Chunk)标注、句法剖析与语义剖析等方面,是 NLP 中不错的一本实用教程。
阅读链接:http://www.nltk.org/book/
05Introduction to Information Retrieval
作者:Christopher D.Manning / Prabhakar Raghavan /Hinrich Schütze
书籍简介:本书从计算机科学领域的角度出发,介绍了信息检索的基础知识,并对当前信息检索的发展做了回顾,重点介绍了搜索引擎的核心技术,如文档分类和文档聚类问题,以及机器学习和数值计算方法。书中所有重要的思想都用示例进行了解释,生动形象,引人入胜。
推荐理由: 关于排名/搜索的优秀参考书,作者从最简单的布尔检索到一个完整的搜索引擎,逐步深入,逐步引导读者思考,对建造一个大型搜索引擎需要用到的架构和算法都有所涉猎,搜索引擎并不仅仅是检索信息,它还有一个更重要的用处是对返回的结果进行排序,而这往往是非常重要的。
阅读链接:https://nlp.stanford.edu/IR-book/html/htmledition/irbook.html
02推荐课程
01CS224d: Deep Learning for Natural Language Processing
课程导师:Richard Socher
课程链接:http://cs224d.stanford.edu/syllabus.html
主要内容:斯坦福大学自然语言小组基于深度学习的自然语言处理课程。介绍了自然语言处理领域广泛应用的网络结构(例如循环神经网络、卷积神经网络以及递归神经网络等)及其在自然语言处理的经典任务,例如分类任务(情感分类),序列标注任务(实体识别),序列到序列的生成任务(机器翻译)等实际应用。
推荐理由:自然语言处理是信息时代最重要的技术之一。理解复杂的语言也是人工智能的重要组成部分。自然语言处理的应用无处不在,因为人们用语言沟通了大部分内容:网络搜索、广告、电子邮件、客户服务、语言翻译、放射学报告等等。本课程比较适合对这个领域感兴趣的初学者。
02Oxford Deep Learning for NLP class
课程导师:Phil Blunsom. Class by Deep Mind NLP Group.
适合人群:中级到高级学者
课程链接:https://machinelearningmastery.com/oxford-course-deep-learning-natural-language-processing/
主要内容:DeepMind 团队成员在牛津大学教授基于深度学习的自然语言处理的课程。内容涉及到词嵌入,基于循环神经网络的语言模型,基于循环神经网络和卷积神经网络的文本分类,基于循环神经网络的条件语言模型(广泛应用于机器翻译、文本摘要等)及其中的注意力机制,以及基于深度学习模型的自动问答等主要自然语言处理的任务。
推荐理由:深度学习方法在自然语言处理问题上达到了一定的效果。本课程的大部分材料都可以在线免费获取,比较适合对这个领域有一定的基础,希望了解最新进展和进一步学习和研究的同学。
03其他在线课程
Coursera:自然语言处理简介(由密西根大学提供的NLP课程)
https://www.coursera.org/learn/natural-language-processing
Dan Jurafsky 和 Chris Manning:自然语言处理(非常棒的视频介绍系列)
https://www.youtube.com/watch?v=QIdB6M5WdkI&list=PLl3AijnqmcEhr0fQqPfaC_6PbyVNBLJTE&index=3
03数据集
数据集:见 Nicolas Iderhoff 在 GitHub 上发布的 NlP 资源汇总:
https://github.com/niderhoff/nlp-datasets
* 文中图片来自豆瓣
参考文献
书单 | NLP秘笈,从入门到进阶,微软研究院AI头条,2017-12-20
独家 | 自然语言处理(NLP)入门学习资源清单,清华大学数据科学研究院,2017-09-29
数据挖掘、机器学习、自然语言处理这三者是什么关系?这几个怎么入门,量子位,2019-01-21
星标我,每天多一点智慧
5本自然语言处理书单-附pdf的更多相关文章
- HTML与CSS入门经典(第9版)试读 附随书源码 pdf扫描版
HTML与CSS入门经典(第9版)是经典畅销图书<HTML与CSS入门经典>的最新版本,与过去的版本相同,本书采用直观.循序渐进的方法,为读者讲解使用HTML5与CSS3设计.创建并维护世 ...
- 2019Android阿里&腾讯&百度&字节面试汇总(附面试题总结、Android书单)
1.基本情况 先简单说说我今年的面试经历吧,本人2018届211软件工程硕士生,Android开发岗.此文主要是2019年年初春招的面试和秋招面试经验汇总,最终拿到了阿里,腾讯,字节跳动,百度等off ...
- 最强 Java 书单推荐,附学习方法
技术大佬用1w+字来告诉你该读什么书,循序渐进,并提供百度云盘下载地址.重要的是还有学习方法. 请肆无忌惮地点赞吧,微信搜索[沉默王二]关注这个在九朝古都洛阳苟且偷生的程序员.本文 GitHub gi ...
- 100本Python精品书籍(附pdf电子书下载)
51本Python精品书籍(附下载)链接: https://pan.baidu.com/s/19ydAKCFxM0plkepXMlqQLg 提取码: nnpe 400集python视频教程下载:链接: ...
- C语言和数据结构的书单-再次推荐
一.推荐专业书单: 1) C语言方面: n 明解C语言——适合初学者 豆瓣链接:https://book.douban.com/subject/23779374/ 推荐理由:< ...
- Java工程师书单(初级、中级、高级)
简介 怎样学习才能从一名Java初级程序员成长为一名合格的架构师,或者说一名合格的架构师应该有怎样的技术知识体系,这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序员经常会问到的问题 ...
- 提升机器学习数学基础,这7本书一定要读-附pdf资源
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | KDnuggets 作者 | Ajit Jaokar 转自 | 新智元 编辑 | 大明 [编 ...
- AI 经典书单 | 人工智能学习该读哪些书
转载 2018年01月16日 00:00:00 人工智能相关岗位中,涉及到的内容包含: 算法.深度学习.机器学习.自然语言处理.数据结构.Tensorflow.Python .数据挖掘.搜索开发. ...
- [Z]修炼成C++高手必看的C++书单
增添于网上的一些书单: C++/OPP/OOD系列: 层级一:语法/语意(C++) [Lippman2000] Essential C++ Essential C++,by Stanley B. Li ...
随机推荐
- 使用酷Q SDK开发QQ机器人
酷Q SDK下载地址:https://github.com/CoolQ/cqsdk-vc 打开工程,编辑appmain.cpp 将“私聊消息”处的代码 更改为 CQEVENT(int32_t, __e ...
- 关于indexOf的使用
今天项目中出现一个bug,在筛选数据的时候出现了冗余数据,查找发现在indexOf方法判断的时候找到了问题的所在. package demo; public class test { public s ...
- PO 审批及生成xml文件
*********************************************************************** * Report : YTST_RAINY_MM2 * ...
- CSU - 1551 Longest Increasing Subsequence Again —— 线段树/树状数组 + 前缀和&后缀和
题目链接:http://acm.csu.edu.cn/csuoj/problemset/problem?pid=1551 题意: 给出一段序列, 删除其中一段连续的子序列(或者不删), 使得剩下的序列 ...
- Codeforces Round #373 (Div. 2) C. Efim and Strange Grade —— 贪心 + 字符串处理
题目链接:http://codeforces.com/problemset/problem/719/C C. Efim and Strange Grade time limit per test 1 ...
- socket技术与负载均衡
网络编程 Nginx1.9之前使用 Lvs Haproxy 实现四层反向和负载均衡 Lvs可以i应用到所有负载均衡的功能 数据库 web服务等 四层负载均衡,根据连接进行保存. 断开,连接.进行轮训 ...
- ios 使用json
1.从https://github.com/stig/json-framework/中下载json框架:json-framework 2.解压下载的包,将class文件夹下的所有文件导入到当前工程下. ...
- codeforces 466C. Number of Ways 解题报告
题目链接:http://codeforces.com/problemset/problem/466/C 题目意思:给出一个 n 个数的序列你,问通过将序列分成三段,使得每段的和都相等的分法有多少种. ...
- codeforces B. Convex Shape 解题报告
题目链接:http://codeforces.com/problemset/problem/275/B 题目内容:给出一个n * m 大小的grid,上面只有 black 和 white 两种颜色填充 ...
- nginx + ffmpeg
第一种方案:ffmpeg+nginx 新的ffmpeg已经支持HLS.(本人也参与了代码供献,给自己做个广告:)) 点播: 生成hls分片: ffmpeg -i <媒体文件> -c:v l ...