[精通Python自然语言处理] Ch1 - 将句子切分为单词

实验对比了一下三种切分方式：

1,2 : nltk.word_tokenize : 分离缩略词，(“Don't” =>'Do', "n't"）表句子切分的“,” "." 单独成词。

3 : TreebankWordTokenizer: 分离缩略词，表句子切分的 “,"单独成词，句号“.”被删去。

4 : PunktWordTokenizer: 报错： cannot import name 'PunktWordTokenizer'

5 : WordPunctTokenizer: 将标点转化为全新标识符实现切分。(“Don't” =>'Don', "'", 't')

 import nltk

 text = "We're excited to let you know that. Harry, 18 years old, will join us on Nov. 29. Don't tell him."

 text_tokenized = nltk.word_tokenize(text)

 print("1: word_tokenize:", text_tokenized)

 print("length: ", len(text_tokenized))

 from nltk import word_tokenize

 text_tokenized_2 = word_tokenize(text)

 print("2: word_tokenize:", text_tokenized_2)

 print("length: ", len(text_tokenized_2))

 from nltk.tokenize import TreebankWordTokenizer

 tokenizer3 = TreebankWordTokenizer()

 text_tokenized_3 = tokenizer3.tokenize(text)

 print("3: TreebankWordTokenizer", text_tokenized_3)

 print("length: ", len(text_tokenized_3))

 # from nltk.tokenize import PunktWordTokenizer

 # tokenizer4 = PunktWordTokenizer()

 # text_tokenized_4 = tokenizer4.tokenize(text)

 # print("4: PunktWordTokenizer", text_tokenized_4)

 # print("length: ", len(text_tokenized_4))

 from nltk.tokenize import WordPunctTokenizer

 tokenizer5 = WordPunctTokenizer()

 text_tokenized_5 = tokenizer5.tokenize(text)

 print("5: WordPunctTokenizer", text_tokenized_5)

 print("length: ", len(text_tokenized_5))

输出：

 : word_tokenize: ['We', "'re", 'excited', 'to', 'let', 'you', 'know', 'that', '.', 'Harry', ',', '', 'years', 'old', ',', 'will', 'join', 'us', 'on', 'Nov.', '', '.', 'Do', "n't", 'tell', 'him', '.']

 length:

 : word_tokenize: ['We', "'re", 'excited', 'to', 'let', 'you', 'know', 'that', '.', 'Harry', ',', '', 'years', 'old', ',', 'will', 'join', 'us', 'on', 'Nov.', '', '.', 'Do', "n't", 'tell', 'him', '.']

 length:

 : TreebankWordTokenizer ['We', "'re", 'excited', 'to', 'let', 'you', 'know', 'that.', 'Harry', ',', '', 'years', 'old', ',', 'will', 'join', 'us', 'on', 'Nov.', '29.', 'Do', "n't", 'tell', 'him', '.']

 length:

 : WordPunctTokenizer ['We', "'", 're', 'excited', 'to', 'let', 'you', 'know', 'that', '.', 'Harry', ',', '', 'years', 'old', ',', 'will', 'join', 'us', 'on', 'Nov', '.', '', '.', 'Don', "'", 't', 'tell', 'him', '.']

 length:

[精通Python自然语言处理] Ch1 - 将句子切分为单词的更多相关文章

学习NLP:《精通Python自然语言处理》中文PDF+英文PDF+代码
自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一. 推荐学习自然语言处理的一本综合学习指南<精通Python自然语言处理>,介绍了如何用Python实现各种NLP任务,以帮助 ...
转-Python自然语言处理入门
Python自然语言处理入门原文链接:http://python.jobbole.com/85094/ 分享到:20 本文由伯乐在线 - Ree Ray 翻译,renlytime 校稿.未经许 ...
Python自然语言处理工具小结
Python自然语言处理工具小结作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [ ...
《Python自然语言处理》
<Python自然语言处理> 基本信息作者: (美)Steven Bird Ewan Klein Edward Loper 出版社:人民邮电出版社 ISBN:97871153 ...
Python自然语言处理（1）：初识NLP
由于我们从美国回来就是想把医学数据和医学人工智能的事认真做起来,所以我们选择了比较扎实的解决方法,想快速出成果的请绕道.我们的一些解决方法是:1.整合公开的所有医学词典,尽可能包含更多的标准医学词汇: ...
《Python自然语言处理》中文版-纠错【更新中。。。】
最近在看<Python自然语言处理>中文版这本书,可能由于是从py2.x到py3.x,加上nltk的更新的原因,或者作者的一些笔误,在书中很多代码都运行不能通过,下面我就整理一下一点有问题 ...
python要点简要-一日精通python
Python2.x是历史,Python3.x是这门语言的现在和未来.Python2和3大约90%的地方都很相似的. 1.注释单行注释:在注释的前面输入#号,如下: # 这是一条注释多行注释:使用三 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...
Python 自然语言处理笔记(一)
一． NLTK的几个常用函数 1. Concordance 实例如下: >>> text1.concordance("monstrous") Displaying ...

随机推荐

SharePoint2013之双语切换
最近遇到个项目需要用SharePoint2013实现双语.看了篇老外的博客,经过项目经理的指点,终于算是搞定了(后面解释为什么说是"算是"). 在SharePoint2013中不像 ...
redis主从架构的搭建
本项目采用主从架构,一主两从一个哨兵.在x.x.x.69上部署主节点,在70上部署从节点1和哨兵节点,在71上部署从节点2. 准备: 1.首先上传redis文件到三台linux上,目录/home/sy ...
DB数据源之SpringBoot+MyBatis踏坑过程（七）手动使用Tomcat连接池
DB数据源之SpringBoot+MyBatis踏坑过程(七)手动使用Tomcat连接池 liuyuhang原创,未经允许禁止转载系列目录连接 DB数据源之SpringBoot+Mybatis踏坑 ...
JavaScript document对象
1.document对象是window对象的子对象,可直接使用,多用于获取HTML页面元素 2.document对象属性 a) alinkColor活动链接颜色 b) linkColor文本链接颜色 ...
golang刷Leetcode系列 --- 加1
加一给定一个非负整数组成的非空数组,在该数的基础上加一,返回一个新的数组. 最高位数字存放在数组的首位, 数组中每个元素只存储一个数字. 你可以假设除了整数 0 之外,这个整数不会以零开头. 示例 ...
洛谷P4525 【模板】自适应辛普森法1(simpson积分)
题目描述计算积分结果保留至小数点后6位. 数据保证计算过程中分母不为0且积分能够收敛. 输入输出格式输入格式: 一行,包含6个实数a,b,c,d,L,R 输出格式: 一行,积分值,保留至小数点后 ...
table表单制作个人简历
应用table表单,编程个人简历表单,同时运用了跨行rowspan和跨列colspan. <!DOCTYPE html> <html> <head> <met ...
thinkphp5实现定位功能
一.所需资源链接:百度网盘.主要包含一个ip地址库和一个ip类文件. 二.下载好后,在extend目录下面创建一个location的目录,将下载的文件解压到该目录.给类文件增加一个命名空间,便于我们使 ...
（待整理）flume操作----------hivelogsToHDFS案例----------运行时，发生NoClassDefFoundError错误
1. 2.错误日志命令为 bin/flume-ng agent --name a2 --conf conf/ --conf-file job/file-hdfs.conf Info: Sourcin ...
网站用户行为分析——Hadoop的安装与配置（单机和伪分布式）
Hadoop安装方式 Hadoop的安装方式有三种,分别是单机模式,伪分布式模式,伪分布式模式,分布式模式. 单机模式:Hadoop默认模式为非分布式模式(本地模式),无需进行其他配置即可运行.非分布 ...

[精通Python自然语言处理] Ch1 - 将句子切分为单词

[精通Python自然语言处理] Ch1 - 将句子切分为单词的更多相关文章

随机推荐

热门专题