NLPP is short for Natural Language Processing with Python

《Python 自然语言处理(Natural Language Processing with Python)》, Steven Bird etc.[著],陈涛等译,人民邮电出版社,2014

学习这本书必须安装NLTK及相应的语料库。

1.安装NLTK

1.1 ubuntu 14.04LTS

安装python packages,python社区推荐用pip。用pip安装不好用,放弃此法。

采用ubuntu的apt-get安装各个软件包,好用。安装nltk,先需要安装numpy, matplotlib,然后安装nltk,在安装nltk过程中,会额外安装yaml。猜测基本的nltk实验、开发环境必需numpy, matplotlib, nltk, yaml四个软件包。

 sudo apt-get install python-numpy
sudo apt-get install python-matplotlib
sudo apt-get install python-nltk

1.2 Fedora release 20 (Heisenbug)

依然必需numpy, matplotlib, nltk, yaml四个软件包,采用yum方式安装。包名略有差别,如yaml,在ubuntu中叫python-yaml;在fedora中名为PyYAML

 sudo yum install numpy
sudo yum install python-matplotlib
sudo yum insall python-nltk

1.3 测试

安装完毕在命令行状态下,输入

 python

进入python解释器。

在python 状态下输入

 import nltk

无误,即成功安装NLTK。

2. 安装语料库

在输入命令import nltk后,继续在python解释器输入

 nltk.download()

2.1 ubuntu 14.04LTS

显示一个下载窗口,如书中图1-1所示,但没有内容,无法下载语料库。注意这个窗口下方"Download Directory"里面的目录。这个目录就是语料库应保存的位置。

糯米糊糊的专栏,博主提供了语料库云盘下载。

下载后,放到"Download Directory"所示目录即可。

2.2 Fedora 20 (Heisenbug)

输入nltk.download(),显示窗口,而且窗口中是有内容的。似应可以下载。

并未进一步试验,只是需要将前述下载的语料库放到相应目录中。

注意,它的目录与Ubuntu不同,要求放在这几个目录下。

- '/root/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
放在/usr/share/nltk_data中,权限修改为755。

即可用nltk做试验,可运行书中例子,进行学习了。

2.3 测试

在python解释器中输入

 from nltk.book import *

无误,能引入相应语料,即可。

3. 小结

nltk学习、实验环境搭建完毕。

NLPP-00-Preparation的更多相关文章

  1. C#得到某月最后一天晚上23:59:59和某月第一天00:00:00

    项目需求: 某学校订单截止操作时间的上一个月最后一天晚上23:59:59 为止所有支付的订单统计: 代码: /// <summary> /// 通过学校和截止时间得到订单 /// < ...

  2. SqlDateTime overflow. Must be between 1/1/1753 12:00:00 AM and 12/31/9999 11:59:59 PM.

    相信很多人进行数据存储时,会遇上如标题的异常错误. 其实也不算上一个错误. 当你的程序中有宣告一个字段的数据类型为DateTime时,但你又没有赋值给它,就进行存储时,它就会得到这样一个结果. 看看下 ...

  3. Nginx %00空字节执行php漏洞

    Nginx如下版本:0.5.*, 0.6.*, 0.7 <= 0.7.65, 0.8 <= 0.8.37在使用PHP-FastCGI执行php的时候,URL里面在遇到%00空字节时与Fas ...

  4. MongoDB 由于目标计算机积极拒绝,无法连接 2014-07-25T11:00:48.634+0800 warning: Failed to connect to 127.0.0.1:27017, reason: errno:10061

    转载自:http://www.cnblogs.com/xiaoit/p/3867573.html 1:启动MongoDB 2014-07-25T11:00:48.634+0800 warning: F ...

  5. SQL 2008升级SQL 2008 R2完全教程或者10.00.1600升级10.50.1600

    http://blog.csdn.net/feng19821209/article/details/8571571 SQL 2008升级SQL 2008 R2完全教程或者10.00.1600升级10. ...

  6. “SqlDateTime 溢出。必须介于 1/1/1753 12:00:00 AM 和 12/31/9999 11:59:59 PM 之间。”

    原因: .NET中  DateTime最小值为: 0001-1-1 0:00:00 数据库中DateTime最小值为: 1753-1-1 0:00:00, 很明显:.NET中的最小值超出了数据库时间类 ...

  7. '0000-00-00 00:00:00' can not be represented as java.sql.Timestamp error

    '0000-00-00 00:00:00' can not be represented as java.sql.Timestamp error 异常现象 ### Cause: java.sql.SQ ...

  8. 在freemarker中,价格 怎么将¥100变成 ¥100.00

    ${tempNum?string.currency}或${tempNum?string(“currency”)} à结果为¥20.00${tempNum?string. percent}或${temp ...

  9. 使用centos引导内核错误:kernel: pnp 00:0b: can't evaluate _CRS: 8

    CentOS系统在开机过程中,一直遇到黑屏提示:“kernel: pnp 00:0b: can't evaluate _CRS: 8”,不理会它仍能启动系统并正常工作,未知何故. 经查,这是内核引导的 ...

  10. mysql解决Value ‘0000-00-00 00:00:00’ can not be represented as java.sql.Timestamp

    同步发布:http://www.yuanrengu.com/index.php/mysqlsolvetimestamp.html 在使用mysql时,如果数据库中的字段类型是timestamp,默认为 ...

随机推荐

  1. js封装的方法

    1.JS封装就是尽量把使用的方式简单化,内部逻辑和使用解耦.通俗的说就是使用的时候只需要知道参数和返回值,其他条件尽量不要使用人员进行设置. 2.JS封装的方法有函数方式.对象的方式.闭包的方式. 举 ...

  2. C# 中Join( )的理解

    在MSDN中对Join( )的解释比较模糊:在继续执行标准的 COM 和 SendMessage 消息泵处理期间,阻塞调用线程(线程A),直到某个线程终(线程B)止为止. 首先来看一下有关的概念: 我 ...

  3. python笔记集合

    1.win_64下编译pyd(编译器用的tdm-gcc-5.1) gcc test.c -shared -Ic:\Python27\include -Lc:\Python27\libs -lpytho ...

  4. MindProject R6025解决

    -- 来之百度贴吧,收藏在此. 不知道吧里有没有人用mindmanager2012,如果用的话会发现保存.mmap文件后,移动到其他地方,再打开,就会出错,软件关闭.网上很多人说是模版里tips的原因 ...

  5. 【转载】解决方案:Resharper对系统关键字提示‘can not resolve symbol XXX’,并且显示红色,但是编译没有问题

    环境:Visual studio 2013 community Update 4 + Resharper 8.2 + Windows 7 现象: 我的C#工程编译没有问题, 但是在代码编辑器中系统关键 ...

  6. hessian不能注入dao的问题解决

    天天卡,写个程序很费劲,不是卡这儿就是卡那里,一天天的不出活,周六日费时间都在这上面了. 问题:hessian能调通,就是不能操作数据库,userDao不能注入,为null,期初以为是实体类赋值的问题 ...

  7. Maven学习5-聚合与继承

    一.聚合 如果我们想一次构建多个项目模块,那我们就需要对多个项目模块进行聚合 1.1.聚合配置代码 1 <modules> 2 <module>模块一</module&g ...

  8. Dockerfile指令

    指令的一般格式为INSTRUCTION arguments,指令包括FROM.MAINTAINER.RUN等. FROM 格式为FROM <image>或FROM <image> ...

  9. SQL Server 2012 创建操作员

    数据库可以通知操作员,给操作员发送邮件,就要在SQL Server 的代理中启用数据库邮件,前提是先配置出数据库邮件 右键SQL Server代理,选择属性,按下图设置 保存后,右键操作员,选择新建操 ...

  10. Android 触摸手势基础 官方文档概览2

    Android 触摸手势基础 官方文档概览 触摸手势检测基础 手势检测一般包含两个阶段: 1.获取touch事件数据 2.解析这些数据,看它们是否满足你的应用所支持的某种手势. 相关API: Moti ...