python自然语言处理学习笔记2

基础语法

搜索文本----词语索引使我们看到词的上下

text1.concordance("monstrous")

词出现在相似的上下文中

text1.similar("monstrous")

函数common_contexts允许我们研究两个或两个以上的词共同的上下文

text2.common_contexts(["monstrous", "very"])

以判断词在文本中的位置,用离散图表示 ,每一个竖线代表一个单词，每一行代表整个文本

text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

不同风格产生一些随机文本

text3.generate()

获取文本长度

len(text3)

获得text3 的词汇表（set为集合，元素不可重复）

set(text3)

得到一个词汇项的排序表(排序表中大写字母出现在小写字母之前)

sorted(set(text3))

了每个字平均被使用次数（使用的是浮点除法）

from __future__ import division

len(text3) / len(set(text3))

计数一个词在文本中出现的次数，计算一个特定的词在文本中占据的百分比。

text3.count("smote")

100 * text4.count('a') / len(text4)

了每个字平均被使用次数（函数）

def lexical_diversity(text):

return len(text) / len(set(text))

百分比

def percentage(count, total):

return 100 * count / total

链表（list，也叫列表）（nltk.book 已经为你定义了一些链表 sent2~sent9)

sent1 = ['Call', 'me', 'Ishmael', '.']

对链表使用Python 加法运算----连接----它将多个链表组合为一个链表

['Monty', 'Python'] + ['and', 'the', 'Holy', 'Grail']

sent4 + sent1

向链表中增加一个元素----追加

sent1.append("Some")

索引列表(索引从零开始)

text4[173]

获取子链表----切片

text5[16715:16735]

切片5:8 包含索引5，6 和7 m:n 表示元素m...n-1

sent = ['word1', 'word2', 'word3', 'word4', 'word5','word6', 'word7', 'word8', 'word9', 'word10']

sent[5:8]

如果切片从链表第一个元素开始，我们可以省略第一个数字；如果切片到链表最后一个元素处结尾，我们可以省略第二个数字：

sent[:3]

text2[141525:]

从倒数第二个开始到最后

tokens[-2:]

通过指定它的索引值来修改链表中的元素

sent = ['word1', 'word2', 'word3', 'word4', 'word5','word6', 'word7', 'word8', 'word9', 'word10']

sent[0] = 'First'

也可以用新内容替换掉一整个片段

sent[1:9] = ['Second', 'Third']

字符串(切片，乘法，加法，连接，分割)

name = 'Monty'

name[0]

name[:4]

name * 2

name + '!'

' '.join(['Monty', 'Python'])

'Monty Python'.split()

python自然语言处理学习笔记2的更多相关文章

python自然语言处理学习笔记1
1.搭建环境下载anaconda并安装,(其自带python2.7和一些常用包,NumPy,Matplotlib),第一次启动使用spyder 2.下载nltk import nltk nltk.d ...
Python自然语言处理学习笔记之性别识别
从今天起开始写自然语言处理的实践用法,今天学了文本分类,并没用什么创新的东西,只是把学到的知识点复习一下性别识别(根据给定的名字确定性别) 第一步是创建一个特征提取函数(feature extrac ...
python自然语言处理——学习笔记：Chapter3纠错
2017-12-06更新:很多代码执行结果与书中不一致,是因为python的版本不一致.如果发现有问题,可以参考英文版: http://www.nltk.org/book/ 第三章,P87有一段处理h ...
Python自然语言处理学习笔记(69)
http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8 Analyzing Sentence Structure ...
Python自然语言处理学习笔记之信息提取步骤&分块（chunking）
一.信息提取模型信息提取的步骤共分为五步,原始数据为未经处理的字符串, 第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings 第二步:分词,[ ...
Python自然语言处理学习笔记之评价（evaluationd）
对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法. 一.测试集的选择 1.首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于 ...
Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）
选择合适的特征(features)对机器学习的效率非常重要.特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的. 一种做法是把你能想到的所有 ...
Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

随机推荐

vue高亮一级、二级导航
使用vue开发过程中有的项目会存在多级导航的情况,如下图,这种就存在了两层,那么该如何高亮一级导航,又该如何高亮二级导航这就是今天我要记录的内容. 1.高亮一级导航很简单,代码如下: // 点击一级导 ...
java实现RPC
一,服务提供者工程为battercake-provider,项目结构图如下图所示 1.1 先创建一个“卖煎饼”微服务的接口和实现类 package com.jp.service; public in ...
postgres导入和导出
导出整个数据库: pg_dump -h 127.0.0.1 -U zhang mydb >mydb_dum.sql 导出某个表: pg_dump -h 127.0.0.1 -U zhang my ...
python根据已有数据库生成model.py
有时我们需要根据已存在的数据库进行django开发时,手写model.py是不现实的先执行下面的语句,在命令行终端会输出所有表的类 python .\manage.py inspectdb 检查无误 ...
全局捕获异常（适用于SpringMvc,SpringBoot项目）
@ControllerAdvice 是controller的一个辅助类,最常用的就是作为全局异常处理的切面类.约定了几种可行的返回值,可以返回String字符串,也可以返回ModelAndView,也 ...
typedef 返回类型(*Function)(参数表) ——typedef函数指针
//首先看一下函数指针怎么用 #include <iostream> using namespace std; //定义一个函数指针pFUN,它指向一个返回类型为char,有一个整型的参数 ...
HTTP缓存剖析
web浏览器会自动缓存访问过的页面,当访问同一个页面的请求时,浏览器不再从服务器中重新下载页面而是优先使用本地缓存中的页面为什么要进行web缓存从用户的角度来看web缓存加快了上网速度,当然这是用 ...
Aspect表达式
任意公共方法的执行:execution(public * *(..))任何一个以“set”开始的方法的执行:execution(* set*(..))AccountService 接口的任意方法的执行 ...
windows笔记本命令行方式建立wifi热点
建立热点: @echo off netsh wlan set hostednetwork mode=allow netsh wlan set hostednetwork ssid=热点名 key=密码 ...
2017 网易游戏互娱游戏研发4.21（offer）
网易游戏互娱(offer) 去年这个时候就参加过网易游戏的实习生招聘,到今年总共收到了4次拒信.不过这次运气好,终于get了最想要的offer.去年实习生互娱笔试挂,秋招笔试挂,今年春招互娱投了连笔试 ...

python自然语言处理学习笔记2

python自然语言处理学习笔记2的更多相关文章

随机推荐

热门专题