学习笔记CB001:NLTK库、语料库、词概率、双连词、词典

聊天机器人知识主要是自然语言处理。包括语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评测。

NLTK库安装，pip install nltk 。执行python。下载书籍，import nltk，nltk.download()，选择book，点Download。下载完，加载书籍，from nltk.book import * 。输入text*书籍节点，输出书籍标题。搜索文本，text1.concordance("former”) 。搜索相关词，text1.similar("ship") 。查看词在文章的位置，text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"]) ，可以按Ctr+Z退出。继续尝试其他函数需要重新执行python，重新加载书籍。词统计，总字数 len(text1)，文本所有词集合 set(text1)，文本总词数 len(set(text4))，单词出现总次数 text4.count("is") ，统计文章词频从大到小排序到列表 FreqDist(text1)，统计词频输出累计图 fdist1 = FreqDist(text1);fdist1.plot(50, cumulative=True)，只出现一次的词 fdist1.hapaxes()，频繁双联词 text4.collocations() 。

自然语言处理关键点，词意理解、自动生成语言，机器翻译、人机对话(图灵测试，5分钟内回答提出问题的30%)。基于规则，完全从语法句法出发，照语言规则分析、理解。基于统计，收集大量语料数据，统计学习理解语言，得益于硬件(GPU)、大数据、深度学习的发展。

NLTK语料库，Gutenberg，nltk.corpus.gutenberg.fileids()。Gutenberg语料库文件标识符，import nltk，nltk.corpus.gutenberg.fileids()。Gutenberg语料库阅读器 nltk.corpus.gutenberg。输出文章原始内容 nltk.corpus.gutenberg.raw('chesterton-brown.txt') 。输出文章单词列表 nltk.corpus.gutenberg.words('chesterton-brown.txt') 。输出文章句子列表 nltk.corpus.gutenberg.sents('chesterton-brown.txt') 。网络文本语料库，网络和聊天文本，from nltk.corpus import webtext 。布朗语料库，按照文本分类好500个不同来源文本，from nltk.corpus import brown 。路透社语料库，1万多个新闻文档，from nltk.corpus import reuters 。就职演说语料库，55个总统的演说，from nltk.corpus import inaugural 。

语料库组织结构，散养式(孤立多篇文章)、分类式(按照类别组织，但没有交集)、交叉式(文章属多个类)、渐变式(语法随时间发生变化)。

语料库通用接口，文件 fileids()，分类 categories()，原始内容 raw()，词汇 words()，句子 sents()，指定文件磁盘位置 abspath()，文件流 open()。

加载自定义语料库，from nltk.corpus import PlaintextCorpusReader ，corpus_root = '/Users/libinggen/Documents/workspace/Python/robot/txt' ，wordlists = PlaintextCorpusReader(corpus_root, '.*') ，wordlists.fileids() 。

格式转换GBK2UTF8，iconv -f GBK -t UTF-8 安娜·卡列尼娜.txt > 安娜·卡列尼娜utf8.txt 。

条件分布，在一定条件下事件概率颁上。条件频率分布，指定条件下事件频率分布。

输出布朗语料库每个类别条件每个词概率：

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk
from nltk.corpus import brown

# 链表推导式，genre是brown语料库里的所有类别列表，word是这个类别中的词汇列表
# (genre, word)就是类别加词汇对
genre_word = [(genre, word)
for genre in brown.categories()
for word in brown.words(categories=genre)
]

# 创建条件频率分布
cfd = nltk.ConditionalFreqDist(genre_word)

# 指定条件和样本作图
# cfd.tabulate(conditions=['news','adventure'], samples=[u'stock', u'sunbonnet', u'Elevated', u'narcotic', u'four', u'woods', u'railing', u'Until', u'aggression', u'marching', u'looking', u'eligible', u'electricity', u'$25-a-plate', u'consulate', u'Casey', u'all-county', u'Belgians', u'Western', u'1959-60', u'Duhagon', u'sinking', u'1,119', u'co-operation', u'Famed', u'regional', u'Charitable', u'appropriation', u'yellow', u'uncertain', u'Heights', u'bringing', u'prize', u'Loen', u'Publique', u'wooden', u'Loeb', u'963', u'specialties', u'Sands', u'succession', u'Paul', u'Phyfe'])

cfd.plot(conditions=['news','adventure'], samples=[u'stock', u'sunbonnet', u'Elevated', u'narcotic', u'four', u'woods', u'railing', u'Until', u'aggression', u'marching', u'looking', u'eligible', u'electricity', u'$25-a-plate', u'consulate', u'Casey', u'all-county', u'Belgians', u'Western', u'1959-60', u'Duhagon', u'sinking', u'1,119', u'co-operation', u'Famed', u'regional', u'Charitable', u'appropriation', u'yellow', u'uncertain', u'Heights', u'bringing', u'prize', u'Loen', u'Publique', u'wooden', u'Loeb', u'963', u'specialties', u'Sands', u'succession', u'Paul', u'Phyfe'])

利用条件频率分布，按照最大条件概率生成双连词，生成随机文本：

# coding:utf-8

import sys
import importlib
importlib.reload(sys)

import nltk

# 循环10次，从cfdist中取当前单词最大概率的连词,并打印出来
def generate_model(cfdist, word, num=10):
for i in range(num):
print(word),
word = cfdist[word].max()

# 加载语料库
text = nltk.corpus.genesis.words('english-kjv.txt')

# 生成双连词
bigrams = nltk.bigrams(text)

# 生成条件频率分布
cfd = nltk.ConditionalFreqDist(bigrams)

# 以the开头，生成随机串
generate_model(cfd, 'the')

词典资源，词或短语集合：
词汇列表语料库，所有英文单词，识别语法错误 nltk.corpus.words.words 。
停用词语料库，识别最频繁出现没有意义词 nltk.corpus.stopwords.words 。
发音词典，输出英文单词发音 nltk.corpus.cmudict.dict 。比较词表，多种语言核心200多个词对照，语言翻译基础 nltk.corpus.swadesh 。同义词集，面向语义英语词典，同义词集网络 WordNet 。

参考资料：

http://www.shareditor.com/blogshow/?blogId=63

http://www.shareditor.com/blogshow?blogId=64

http://www.shareditor.com/blogshow?blogId=65

欢迎推荐上海机器学习工作机会，我的微信：qingxingfengzi

学习笔记CB001:NLTK库、语料库、词概率、双连词、词典的更多相关文章

iOS学习笔记16-数据库SQLite
一.数据库在项目开发中,通常都需要对数据进行离线缓存的处理,如新闻数据的离线缓存等.离线缓存一般都是把数据保存到项目的沙盒中.有以下几种方式: 归档:NSKeyedArchiver 偏好设置:NSU ...
NLTK学习笔记(三):NLTK的一些工具
主要总结一下简单的工具:条件频率分布.正则表达式.词干提取器和归并器. 条件分布频率 <自然语言学习>很多地方都用到了条件分布频率,nltk提供了两种常用的接口:FreqDist 和 Co ...
[No000094]SVN学习笔记4-版本库概念与部分日常操作
基本概念版本库 Subversion 使用集中的数据库,它包含了所有的版本控制文件及其完整历史.这个数据库就是版本库.版本库通常位于运行 Subversion 服务器的文件服务器上,向 Subver ...
重温JSP学习笔记--JSTL标签库
以前写jsp的时候对jstl标签库是有些抵触的,因为我觉得嵌入java代码的方式几乎无往不利,没有必要使用标签库,不过这次复习还是好好地学习了一下,发现这个还是很有用处的,用得好能省不少事,JSTL是 ...
OpenGL学习笔记0——安装库
最近需要做一个基于Zigbee室内无线定位的系统,受到TI公司ZigBee Sensor Monitor软件的启发,打算用OpenGL来做一个3D显示空间内物体位置的程序.学习阶段选择VS2010+O ...
学习笔记_Java_day13_JSTL标签库（1、2、3、4、5、6、7、8）
1.一种标签语言 day13 l JSTL标签库(重点) l 自定义标签(理解) l MVC设计模式(重点中的重点) l Java三层框架(重点中的重点) JSTL标签库 1 什么是JSTL ...
C++ Primer学习笔记2--c++标准库中的 vector、string 和 bitset 类型
一.string #include <string> using std::string 初始化函数: string s1; 默认构造函数 s1 为空串 ...
MySQL学习笔记三：库和表的管理
1.MySQL数据库服务配置好后,系统会有4个默认的数据库. information_schema:虚拟对象,其对象都保存在内存中 performance_schema:服务器性能指标库 mysql: ...
重温JSP学习笔记--El函数库
EL函数库(由JSTL提供的) * 导入标签库:<%@ tablib prefix="fn" uri="http://java.sun.com/jsp/jstl/f ...

随机推荐

python之路-数据运算
位运算: 运算符描述实例 + 加-两个对象相加 ...
使用spring：aop中修改增强方法中的参数
大家都知道,在增强方法中,使用jp.getArgs()[index]可以获取传进来的参数,但是参数传进来之后,怎么改变它的值呢? 因为jp.getArgs()[index]获取到的只是数据的备份,所以 ...
C++ 之sizeof运算符
sizeof运算符用来计算某个对象在内存中占用的字节数. 此运算符的使用形式为:sizeof(类型名)或sizeof(表达式). 计算结果是这个类型或者这个表达式结果在内存中占的字节数.
dom编程艺术笔记2--第三章
DOM 1.dom:简单理解为文档对象模型<==>节点树 2.宿主对象:浏览器提供的对象—>document对象 3. html标签为树顶点元素 head body为html子元素以 ...
vim学习纪要
普通模式根据屏幕行上下移动. gj gk g0 g^ g$ 移动到行首第一个非空字符 ^ 反向移动到上一单词的词尾 ge 插入模式粘贴寄存器中内容 <C-r> 可视模式移动光标的起始 ...
js中级
闭包:函数在调用的时候,会形成一个私有作用域,内部的变量不会被访问, 这种保护机制叫闭包.这就意味着函数调用完毕,这个函数形成的栈内存会被销毁. 重点函数归属谁跟他在哪调用没有关系,跟在哪定义有关. ...
ubuntu16.04运行ros的时候编译工作空间catkin_make出现的一个问题Could not find a package configuration file provided by
最近在进行ros里面的gazebo仿真之前需要对自己创建的工作空间进行编译,但是进行编译的时候输入catkin_make出现如下错误提示查阅ROS问答社区之后发现两个比较有用的链接,如下 https ...
linux install ftp server
first yum install vsftpd 第二部:vi /etc/vsftpd/vsftpd.conf 添上下面一段话 anonymous_enable=YESlocal_enable=YE ...
AOP异常报错1
Error creating bean with name 'org.springframework.aop.support.DefaultBeanFactoryPointcutAdvisor#0' ...
Aforge.net识别简易数字验证码问题
参考:https://www.bbsmax.com/A/rV57LjWGdP/ https://blog.csdn.net/louislong007/article/details/47683035 ...

学习笔记CB001:NLTK库、语料库、词概率、双连词、词典

学习笔记CB001:NLTK库、语料库、词概率、双连词、词典的更多相关文章

随机推荐

热门专题