Python自然语言处理学习笔记(69)】的更多相关文章

http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8    Analyzing Sentence Structure  分析句子结构 Earlier chapters focused on words: how to identify them, analyze their structure, assign them to lexical categories, and access their meaning…
1.搭建环境 下载anaconda并安装,(其自带python2.7和一些常用包,NumPy,Matplotlib),第一次启动使用spyder 2.下载nltk import nltk nltk.download() 在打开的界面上选择book并下载(注意存储路径,我设的   C:\nltk_data   )我下载的大概370M 3.测试 from nltk.book import * text1 出现text1的文本即表示成功 4.现在可以开始学习python自然语言处理了…
从今天起开始写自然语言处理的实践用法,今天学了文本分类,并没用什么创新的东西,只是把学到的知识点复习一下 性别识别(根据给定的名字确定性别) 第一步是创建一个特征提取函数(feature extractor):该函数建立了一个字典,包含给定姓名的有关特征信息. >>> def gender_features(word): ... return {'last_letter': word[-1]} >>> gender_features('Shrek') {'last_le…
2017-12-06更新:很多代码执行结果与书中不一致,是因为python的版本不一致.如果发现有问题,可以参考英文版: http://www.nltk.org/book/ 第三章,P87有一段处理html的代码: >>>raw = nltk.clean_html(html) >>>tokens = nltk.word_tokenize(raw) >>>tokens 可是我们执行会有如下错误: >>> raw = nltk.clean…
基础语法 搜索文本----词语索引使我们看到词的上下 text1.concordance("monstrous") 词出现在相似的上下文中 text1.similar("monstrous") 函数common_contexts允许我们研究两个或两个以上的词共同的上下文 text2.common_contexts(["monstrous", "very"]) 以判断词在文本中的位置,用离散图表示  ,每一个竖线代表一个单词,每…
一.信息提取模型 信息提取的步骤共分为五步,原始数据为未经处理的字符串, 第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings 第二步:分词,[nltk.word_tokenize(sent) for sent in sentences]实现,得到list of lists of strings 第三步:标记词性,[nltk.pos_tag(sent) for sent in sentences]实现得到一个list of lists of…
对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法. 一.测试集的选择 1.首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于新案例. 2.如果分类的类别比较少,比如只有两个,而且每类的样本数大致相等,那100个样本大小的测试集也是够用的:但如果类别数比较多,且分布十分不均,那测试集的大小要保证最稀少的种类的样本数不少于50:此外,如果测试集的样本相互之间比较相似,就要适当的扩大测试集来弥补多样性的缺乏对评价的影响.当样本…
选择合适的特征(features)对机器学习的效率非常重要.特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的. 一种做法是把你能想到的所有特征都加进去,然后再检查哪个特征是重要的(参考资料上说这叫"kitchen sink" approach,然而并不明白这是什么意思,请大神指点!),但是包含的特征太多往往会出现过度拟合的现象(即算法会过度依赖于训练集的特征而对新的数据拟合不佳,当训练集较小时,这个问题会更明显.) 正确方法…
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标准库urllib2.在学习的同时把我的学习笔记记录下来,资料基本上都是从Requests官网翻译过来的,欢迎指出有错误或者有表述的不准确的地方. 1.介绍Requests: HTTP for Humans一句话:为地球人准备的网络库 python的标准库urllib2已经提供了大部分你所需要的HTT…
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 1…
Python Built-in Function 学习笔记 1. 匿名函数 1.1 什么是匿名函数 python允许使用lambda来创建一个匿名函数,匿名是因为他不需要以标准的方式来声明,比如def语句 1.2 匿名函数优点 节省内存:如果不把它赋值给一个变量的话,由于是匿名的,不用分配栈空间 不会重名 可以嵌在推导式中,代码更简练 1.3 举例 lambda 参数列表:返回值 a = lambda x,y=2:x+y a(5) ==> 7 a(2,3)==> 5 2. 内置函数 2.1 a…
学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分析相关python库的介绍(前言1~4摘抄自<利用python进行数据分析>) 1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 (3)用于读写硬盘上…
XML处理模块 xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单,至今很多传统公司如金融行业的很多系统的接口还主要是xml. xml的格式如下,就是通过<>节点来区别数据结构的: <?xml version="1.0"?> <data> <country name="Liechtenstein"> <rank updated="yes">2&l…
学习利用python进行数据分析的笔记儿&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分析相关python库的介绍(前言1~4摘抄自<利用python进行数据分析>) 1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 (3)用于读写硬盘…
注:本学习笔记参考了廖雪峰老师的Python学习教程,教程地址为:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000 使用dict和set dict dict(字典)是Python的内置类型,在其他高级语言中称为map,使用键-值(key-value)存储,具有极快的查找速度. dict的实现原理和查字典是一样的.假设字典包含了1万个汉字,我们要查某一个字,一个办法是把字典从第一页往…
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说,Beautiful Soup库是可以解析.遍历.维护HTML/XML文件的“标签树”的功能库.本文总结了BeautifulSoup的基本使用方法. 一.Beautiful Soup库基本元素 库的比较常见的引用方式如下 from bs4 import BeautifulSoup #从Beautifu…
一.Requests库的基本说明 引入Rquests库的代码如下 import requests 库中支持REQUEST, GET, HEAD, POST, PUT, PATCH, DELETE共7个方法.其中REQUEST方法为基础方法,其它六种方法均通过调用REQUEST方法实现.为了编写程序的便利性,提供了这额外6个方法.我们首先看一下这6个方法的含义,及其在库中对应的函数: GET:请求指定的页面信息,对应requests.get() HEAD:只请求页面的头部,对应requests.h…
Python基础教程 第二版 学习笔记 1.python的每一个语句的后面可以添加分号也可以不添加分号:在一行有多条语句的时候,必须使用分号加以区分 2.查看Python版本号,在Dos窗口中输入“python -V”查看版本号,注意V是大写字母,这条命令是Windows命令,而不是python shell的命令 3.让解释器只执行普通的除法运算:from __feture__ import division 4.执行整除运算的运算符:// 5.取幂运算符:2**4 相当于2的4次方,-2**4…
本博客采用思维导图式笔记,所有思维导图均为本人亲手所画.因为本人也是初次学习Python语言所以有些知识点可能不太全. 基础班第一天学习笔记:链接 基础班第二天学习笔记:链接 基础班第三天学习笔记:链接 基础班第四天学习笔记:链接 基础班第五天学习笔记:链接 基础班第六天学习笔记:链接 基础班第七天学习笔记:链接 基础班第八天学习笔记:链接 基础班第九天学习笔记:链接 基础班第十天学习笔记:链接 字符串思维导图 列表思维导图 元组思维导图 集合思维导图 字典思维导图 容器类型的公共方法 函数的思…
本博客的目的:①总结自己的学习过程,相当于学习笔记 ②将自己的经验分享给大家,相互学习,互相交流,不可商用 内容难免出现问题,欢迎指正,交流,探讨,可以留言,也可以通过以下方式联系. 本人互联网技术爱好者,互联网技术发烧友 微博:伊直都在0221 QQ:951226918 -----------------------------------------------------------------------------------------------------------------…
Numpy学习笔记 ndarray多维数组 创建 import numpy as np np.array([1,2,3,4]) np.array([1,2,3,4,],[5,6,7,8]) np.zeros(8) np.zeros(3,4) np.ones(4) np.one_like([1,2,3,4]) np.empty((2,2,2)) np.arange(10) 数组创建函数 arange ones/ones_like zeros/zeros_like empty/empty_like…
前言: 我们在做自然语言学习的过程中使用Python进行编程.是用解析器的方式确实有些麻烦.在这里给大家推荐一款集成开发环境IDE可以很方便的对Python进行项目管理,代码自动提示,运行调试等. 简介: 这里不做其它IDE的推荐,直接推荐pycharm.它是大名顶顶的JetBrains公司出品的基于IntelliJ引擎.这里有很多童鞋应该很熟悉了吧.IntelliJ引擎的IDE产品很多,例如PHP的PhpStorm,玩H5开发的WebStorm等.并且pycharm现在有完全免费的社区提供同学…
前言: 用Python对自然语言处理有很好的库.它叫NLTK.下面就是对NLTK的第一尝试. 安装: 1.安装Pip 比较简单,得益于CentOS7自带的easy_install.执行一行命令就可以搞定. *在终端控制台->easy_install pip   2.检验Pip是否可用   Pip是Python的包管理工具.我们运行Pip确定CentOS下可用. *在终端控制台->pip -V 注意参数大小写 3.使用Pip安装NLTK *在终端控制台->pip install -U nl…
第一次写博客笔记,讲一下近来学习的接口自动化测试.网上查阅了相关资料,最后决定使用python语言写接口测试,使用的是python的第三方库requests.虽然python本身标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能.但requests更好用简单.果断入门学习. 新手入门,代码比较简单 import requests import unittest class apiTest(unittest.TestCase): def setUp(self): self.ba…
1.简介 Python的turtle库的易操作,对初学者十分友好.对于初学者来说,刚学编程没多久可以写出许多有趣的可视化东西,这是对学习编程极大的鼓舞,可以树立对编程学习的信心.当然turtle本身也十分有趣,可以用它画出很多奇妙的图案. 2.绘图的基本知识 (1)画布(canvas) 画布就是turtle为我们展开用于绘图区域,我们可以设置它的大小和初始位置. 设置画布大小 turtle.screensize(canvwidth=None,canvheight=None,bg=None),参数…
4 持久存储:文件存储.读写 数据保存到文件:在学习的过程中出现了一个问题,老是报一个错:SyntaxError: invalid syntax: 这个是语法错误,后来搜了下才知道是python2.7和python3.5并不兼容,因为之前一直是在ubuntu的终端里 写这些简单的实例,后来程序稍微大点就不方便了,就安装了idle,用命令:sudo apt-get install idle,安装完启动后, 载入python文件,然后运行发现是python2.7,然后逐行运行,发现报错,而之前这些代…
一.web框架本质 1.基于socket,自己处理请求 #!/usr/bin/env python3 #coding:utf8 import socket def handle_request(client): #接收请求 buf = client.recv(1024) print(buf) #返回信息 client.send(bytes('<h1>welcome liuyao webserver</h1>','utf8')) def main(): #创建sock对象 sock…
1.TCP连接的建立方法 客户端在建立一个TCP连接时一般需要两步,而服务器的这个过程需要四步,具体见下面的比较. 步骤 TCP客户端 TCP服务器 第一步 建立socket对象  建立socket对象 第二步 调用connect()建立一个和服务器的连接 设置socket选项(可选) 第三步 无 绑定到一个端口(也可以是一个指定的网卡) 第四步 无 侦听连接 下面具体来讲这四步的建立方法: 第一步,建立socket对象:这里与客户端一样,依然是: s=socket.socket(socket.…
1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最先是由David Cournapeau在2007年发起的一个Google Summer of Code项目,从那时起这个项目就已经拥有很多的贡献者了,而且该项目目前为止也是由一个志愿者团队在维护着. scikit-learn最大的特点就是,为用户提供各种机器学习算法接口,可以让用户简单.高效地进行数…
现在开始学习Python语言的核心部分.首先了解什么是Python对象,然后讨论最常用的内建类型,接下来讨论标准类型运算符和内建函数,之后给出对标准类型的不同分类方式,最后提一提Python目前还不支持的类型(这对那些有其他高级语言经验的人会有所帮助). 1 Python对象 Python使用对象模型来存储数据,任何类型的值都是一个对象. 所有的Python对像都拥有三个特性:身份,类型,值. 身份:对象的唯一标识,可以用内建函数id()来得到.它与该对象的内存地址相关,程序中极少会用到. 类型…