python自然语言处理学习笔记2

【python自然语言处理学习笔记2】的更多相关文章

python自然语言处理学习笔记1

1.搭建环境下载anaconda并安装,(其自带python2.7和一些常用包,NumPy,Matplotlib),第一次启动使用spyder 2.下载nltk import nltk nltk.download() 在打开的界面上选择book并下载(注意存储路径,我设的 C:\nltk_data )我下载的大概370M 3.测试 from nltk.book import * text1 出现text1的文本即表示成功 4.现在可以开始学习python自然语言处理了…

Python自然语言处理学习笔记之性别识别

从今天起开始写自然语言处理的实践用法,今天学了文本分类,并没用什么创新的东西,只是把学到的知识点复习一下性别识别(根据给定的名字确定性别) 第一步是创建一个特征提取函数(feature extractor):该函数建立了一个字典,包含给定姓名的有关特征信息. >>> def gender_features(word): ... return {'last_letter': word[-1]} >>> gender_features('Shrek') {'last_le…

python自然语言处理——学习笔记：Chapter3纠错

2017-12-06更新:很多代码执行结果与书中不一致,是因为python的版本不一致.如果发现有问题,可以参考英文版: http://www.nltk.org/book/ 第三章,P87有一段处理html的代码: >>>raw = nltk.clean_html(html) >>>tokens = nltk.word_tokenize(raw) >>>tokens 可是我们执行会有如下错误: >>> raw = nltk.clean…

python自然语言处理学习笔记2

基础语法搜索文本----词语索引使我们看到词的上下 text1.concordance("monstrous") 词出现在相似的上下文中 text1.similar("monstrous") 函数common_contexts允许我们研究两个或两个以上的词共同的上下文 text2.common_contexts(["monstrous", "very"]) 以判断词在文本中的位置,用离散图表示 ,每一个竖线代表一个单词,每…

Python自然语言处理学习笔记(69)

http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8 Analyzing Sentence Structure 分析句子结构 Earlier chapters focused on words: how to identify them, analyze their structure, assign them to lexical categories, and access their meaning…

Python自然语言处理学习笔记之信息提取步骤&分块（chunking）

一.信息提取模型信息提取的步骤共分为五步,原始数据为未经处理的字符串, 第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings 第二步:分词,[nltk.word_tokenize(sent) for sent in sentences]实现,得到list of lists of strings 第三步:标记词性,[nltk.pos_tag(sent) for sent in sentences]实现得到一个list of lists of…

Python自然语言处理学习笔记之评价（evaluationd）

对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法. 一.测试集的选择 1.首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于新案例. 2.如果分类的类别比较少,比如只有两个,而且每类的样本数大致相等,那100个样本大小的测试集也是够用的:但如果类别数比较多,且分布十分不均,那测试集的大小要保证最稀少的种类的样本数不少于50:此外,如果测试集的样本相互之间比较相似,就要适当的扩大测试集来弥补多样性的缺乏对评价的影响.当样本…

Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）

选择合适的特征(features)对机器学习的效率非常重要.特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的. 一种做法是把你能想到的所有特征都加进去,然后再检查哪个特征是重要的(参考资料上说这叫"kitchen sink" approach,然而并不明白这是什么意思,请大神指点!),但是包含的特征太多往往会出现过度拟合的现象(即算法会过度依赖于训练集的特征而对新的数据拟合不佳,当训练集较小时,这个问题会更明显.) 正确方法…

Requests:Python HTTP Module学习笔记（一）（转）

Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标准库urllib2.在学习的同时把我的学习笔记记录下来,资料基本上都是从Requests官网翻译过来的,欢迎指出有错误或者有表述的不准确的地方. 1.介绍Requests: HTTP for Humans一句话:为地球人准备的网络库 python的标准库urllib2已经提供了大部分你所需要的HTT…

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 1…