NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现

1. NLP 走近自然语言处理

概念
Natural Language Processing/Understanding，自然语言处理/理解

日常对话、办公写作、上网浏览

希望机器能像人一样去理解，以人类自然语言为载体的文本所包含的信息，并完成一些特定任务

内容
中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入……

应用
篇章理解、文本摘要、情感分析、知识图谱、文本翻译、问答系统、聊天机器人……

2. NLP 使用jieba分词处理文本,中文分词,关键词提取,词性标注

https://github.com/fxsjy/jieba

jieba：基于前缀词典进行词图扫描，构成全部可能分词结果的有向无环图，动态规划查找最大概率路径

1. 中文分词:jieba.cut
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))

2 .关键词提取:jieba.analyse.extract_tags
import jieba.analyse
基于TF-IDF：jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
基于TextRank：jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。

sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选

3 .词性标注:jieba.posseg.cut()

import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for word, flag in words:
print('%s, %s' % (word, flag))

我 r
爱 v
北京 ns
天安门 ns

4. 并行分词

原理：将目标文本按行分隔后，把各行文本分配到多个 Python 进程并行分词，然后归并结果，从而获得分词速度的可观提升
基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows
用法：
jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式
例子：https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
实验结果：在 4 核 3.4GHz Linux 机器上，对金庸全集进行精确分词，获得了 1MB/s 的速度，是单进程版的 3.3 倍。
注意：并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。

5. Tokenize：返回词语在原文的起止位置
注意，输入参数只接受 unicode
默认模式
result = jieba.tokenize(u'永和服装饰品有限公司')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
word 永和 start: 0 end:2
word 服装 start: 2 end:4
word 饰品 start: 4 end:6
word 有限公司 start: 6 end:10

搜索模式
result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
word 永和 start: 0 end:2
word 服装 start: 2 end:4
word 饰品 start: 4 end:6
word 有限 start: 6 end:8
word 公司 start: 8 end:10
word 有限公司 start: 6 end:10

Segmentation speed

1.5 MB / Second in Full Mode
400 KB / Second in Default Mode
Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《围城》.txt

词性列表
1. 名词 (1个一类，7个二类，5个三类)
n 名词
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
nl 名词性惯用语
ng 名词性语素

2. 时间词(1个一类，1个二类)
t 时间词
tg 时间词性语素

3. 处所词(1个一类)
s 处所词 (家中、门外、境内、西方……)

4. 方位词(1个一类)
f 方位词

5. 动词(1个一类，9个二类)
v 动词
vd 副动词
vn 名动词
vshi 动词“是”
vyou 动词“有”
vf 趋向动词
vx 形式动词
vi 不及物动词（内动词）
vl 动词性惯用语
vg 动词性语素

6. 形容词(1个一类，4个二类)
a 形容词
ad 副形词
an 名形词
ag 形容词性语素
al 形容词性惯用语

7. 区别词(1个一类，2个二类)
b 区别词 (主要、整个、所有……)
bl 区别词性惯用语

8. 状态词(1个一类)
z 状态词

9. 代词(1个一类，4个二类，6个三类)
r 代词
rr 人称代词
rz 指示代词
rzt 时间指示代词
rzs 处所指示代词
rzv 谓词性指示代词
ry 疑问代词
ryt 时间疑问代词
rys 处所疑问代词
ryv 谓词性疑问代词
rg 代词性语素

10. 数词(1个一类，1个二类)
m 数词
mq 数量词

11. 量词(1个一类，2个二类)
q 量词
qv 动量词
qt 时量词

12. 副词(1个一类)
d 副词

13. 介词(1个一类，2个二类)
p 介词
pba 介词“把”
pbei 介词“被”

14. 连词(1个一类，1个二类)
c 连词
cc 并列连词

15. 助词(1个一类，15个二类)
u 助词
uzhe 着
ule 了喽
uguo 过
ude1 的底
ude2 地
ude3 得
usuo 所
udeng 等等等云云
uyy 一样一般似的般
udh 的话
uls 来讲来说而言说来
uzhi 之
ulian 连（“连小学生都会”）

16. 叹词(1个一类)
e 叹词

17. 语气词(1个一类)
y 语气词(delete yg)

18. 拟声词(1个一类)
o 拟声词

19. 前缀(1个一类)
h 前缀

20. 后缀(1个一类)
k 后缀

21. 字符串(1个一类，2个二类)
x 字符串
xx 非语素字
xu 网址URL

22. 标点符号(1个一类，16个二类)
w 标点符号
wkz 左括号，全角：（〔［｛《【〖〈半角：( [ { <
wky 右括号，全角：）〕］｝》】〗〉半角： ) ] { >
wyz 左引号，全角：“ ‘ 『
wyy 右引号，全角：” ’ 』
wj 句号，全角：。
ww 问号，全角：？半角：?
wt 叹号，全角：！半角：!
wd 逗号，全角：，半角：,
wf 分号，全角：；半角： ;
wn 顿号，全角：、
wm 冒号，全角：：半角： :
ws 省略号，全角：…… …
wp 破折号，全角：—— －－ ——－半角：--- ----
wb 百分号千分号，全角：％ ‰ 半角：%
wh 单位符号，全角：￥＄￡ ° ℃ 半角：$

文本挖掘主要有哪些功能

自然语言处理技术文本挖掘功能：
* 涉黄涉政检测：对文本内容做涉黄涉政检测，满足相应政策要求；
* 垃圾评论过滤：在论坛发言或用户评论中，过滤文本中的垃圾广告，提升文本总体质量；
* 情感分析：对用户评论等文本内容做情感分析，指导决策与运营；
* 自动标签提取：自动提取文本重要内容生成关键性标签，在此基础之上拓展更多功能形式；
* 文本自动分类：通过对文本内容进行分析，给出文本所属的类别和置信度，支持二级分类.

NLP WordEmbedding的概念和实现

背景
如何表示词语所包含的语义？

苹果？水果？Iphone？
苹果、梨子，这两个词相关吗？

语言的表示
符号主义：Bags-of-word，维度高、过于稀疏、缺乏语义、模型简单
分布式表示：Word Embedding，维度低、更为稠密、包含语义、训练复杂

Word Embedding
核心思想：语义相关的词语，具有相似的上下文环境，例如，苹果和梨子
所做的事情：将每个词语训练成，词向量

实践
基于gensim包和中文维基语料
gensim：http://radimrehurek.com/gensim/models/word2vec.html
中文维基分词语料：链接 https://pan.baidu.com/s/1qXKIPp6 密码 kade

pip install gensim

# 加载包
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

# 训练模型
sentences = LineSentence('wiki.zh.word.text')
model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)

# 保存模型
model.save('word_embedding_128')

# 加载模型
model = Word2Vec.load("word_embedding_128")

# 使用模型
items = model.most_similar(u'中国')
model.similarity(u'男人', u'女人')

demo 2017.11.29 by denny shenzhen

import sys
import jieba
import jieba.analyse
import jieba.posseg as posg

sentence=u'''深圳新闻网讯 10月30日，世界城市日——全球城市竞争力论坛在广州举行。会上，中国社科院财经战略研究院和联合国人类住区规划署发布了《全球城市竞争力报告2017-2018》（以下简称《报告》）。

《报告》称，通过对全球1007个城市的“经济竞争力”进行测度后，深圳在“经济竞争力”这项评选中位于第六名。上海、广州、北京分列全球第14、15、20名。

北上广深，不仅有最繁华的建筑群，最多元的包容性，同时也是很多人改变命运的圆梦场。“经济竞争力”是对现有存量的排名，但对青年们来说，增量的部分（即未来）显得更为重要。《报告》也提供了一个可供参考的指标——“可持续竞争力”，即在未来保持全球竞争力的可持续性。

在未来“可持续竞争力”排名上，除了北京高于“经济竞争力”指标，其他几座城市的可持续竞争力指标都低于其经济竞争力排名，深圳全球排名第35位。

科技与金融正在主导全球经济，占据全球价值链的主要部分，尤其是信息科技企业的影响力正变得越来越大。科技中心城市在全球城市体系中的地位不断上升。

综合2017年各城市所拥有最具价值品牌数量和近十年变化情况等因素，《报告》还提出了未来“新型全球城市”排名，在排名前50的城市当中，北京、深圳、上海、广州皆在其列，而“新一线城市”中仅有杭州入围。“未来的竞争将持续转向以城市经济为单元的竞争”，美国独立经济智库米尔肯研究所亚洲中心研究部董事、总经理黄华跃说。（记者李佳佳'''
#kw=jieba.analyse.extract_tags(sentence,topK=20,withWeight=True,allowPOS=('n','nr','ns'))
# kw=jieba.analyse.textrank(sentence,topK=20,withWeight=True,allowPOS=('ns','n','vn','v'))
# for item in kw:
# print(item[0],item[1])

cixingDict = {
'n': '名词','nr': '人名','nr1': '汉语姓氏','nr2': '汉语名字','nrj': '日语人名','nrf': '音译人名','ns': '地名','nsf': '音译地名',
'nt': '机构团体名','nz': '其它专名','nl': '名词性惯用语','ng': '名词性语素','t': '时间词','tg': '时间词性语素','s':'处所词',
'f':'方位词','v': '动词','vd': '副动词','vn': '名动词','vshi': '动词“是”','vyou': '动词“有”','vf': '趋向动词','vx': '形式动词',
'vi': '不及物动词（内动词）','vl': '动词性惯用语','vg': '动词性语素','a': '形容词','ad': '副形词','an': '名形词','ag': '形容词性语素',
'al': '形容词性惯用语','b': '区别词 (主要、整个、所有……)','bl': '区别词性惯用语','z': '状态词','r': '代词','rr': '人称代词',
'rz': '指示代词','rzt': '时间指示代词','rzs': '处所指示代词','rzv': '谓词性指示代词','ry': '疑问代词','ryt': '时间疑问代词',
'rys': '处所疑问代词','ryv': '谓词性疑问代词','rg': '代词性语素','m': '数词','mq': '数量词','q': '量词','qv': '动量词','qt': '时量词',
'd':'副词','p': '介词','pba': '介词“把”','pbei': '介词“被”','c': '连词','cc': '并列连词','e':'叹词','y': '语气词',
'o': '拟声词','h': '前缀','k': '后缀','x': '标点符号','xx': '非语素字','xu': '网址URL',
'u': '助词',
'uzhe': '着',
'ule': ' 了喽',
'ul': '助词',
'uj': '助词2',
'uguo': '过',
'ude1': '的底',
'ude2': '地',
'ude3': '得',
'usuo': '所',
'udeng': '等等等云云',
'uyy': '一样一般似的般',
'udh': '的话',
'uls': '来讲来说而言说来',
'uzhi': '之',
'ulian': '连 ',

'w': '标点符号2',
'wkz': '左括号，全角：（〔［｛《【〖〈半角：( [ { <',
'wky': '右括号，全角：）〕］｝》】〗〉半角： ) ] { >',
'wyz': '左引号，全角：『',
'wyy': '右引号，全角："" 』',
'wj': '句号，全角：。',
'ww': '问号，全角：？半角：?',
'wt': '叹号，全角：！半角：!',
'wd': '逗号，全角：，半角：',
'wf': '分号，全角：；半角：',
'wn': '顿号，全角：、',
'wm': '冒号，全角：：半角： ',
'ws': '省略号，全角：…… …',
'wp': '破折号，全角：—— －－ ——－半角：--- ----',
'wb': '百分号千分号，全角：％ ‰ 半角：%',
'wh': '单位符号，全角：￥＄￡ ° ℃ 半角：$'
}

#seg_lig=jieba.cut('习平：担当党的崇高使命矢志永远奋斗',cut_all=True)
#print("full_name"+ "/ ".join(seg_lig))

# seg_lig2=jieba.cut('习平：担当党的崇高使命矢志永远奋斗',cut_all=False)
# for item in seg_lig2:
# print(item)
# print("default_name"+ "/ ".join(seg_lig2))

# seg_lig3=jieba.cut_for_search('平：担当党的崇高使命矢志永远奋斗')
# print("search_name"+ ", ".join(seg_lig3))
#
# ci xing analysis
def cixingAnalysis(inputtxt):
word=posg.cut(inputtxt)
for work,flag in word:
try:
print(work,cixingDict[flag])
except KeyError as e:
print('except',e)

# ci xing tongji
def cixingTongji(inputtxt):
word=posg.cut(inputtxt)
n_type={}

for work,flag in word:
if flag not in n_type:
n_type[flag] = 1
else:
n_type[flag] += 1

sorted(n_type.items(),key=lambda d:d[1],reverse=False)
print(n_type)

cixingAnalysis(sentence)
cixingTongji(sentence)

demo :

利用HMM进行词性标注

隐马尔科夫模型(HMM)是什么？说白了，就是一个数学模型，用一堆数学符号和参数表示而已，包括隐藏状态集合、观察符号集合、初始概率向量pi, 状态转移矩阵A，混淆矩阵B。
　　隐马尔科夫模型(HMM)的三大基本问题与解决方案包括：
　　1. 对于一个观察序列匹配最可能的系统——评估，使用前向算法（forward algorithm）解决；
　　2. 对于已生成的一个观察序列，确定最可能的隐藏状态序列——解码，使用维特比算法（Viterbi algorithm）解决；
　　3. 对于已生成的观察序列，决定最可能的模型参数——学习，使用前向-后向算法（forward-backward algorithm）解决。

可以解释为：
　　1、对词性标注问题进行提炼：词性标注本质上是一个分类问题，对于句子中的每一个单词W，找到一个合适的词类类别T，也就是词性标记，不过词性标注考虑的是整体标记的好坏，既整个句子的序列标记问题；
　　2、抽象为数学模型：对于分类问题，有很多现成的数学模型和框架可以套用，譬如HMM、最大熵模型、条件随机场、SVM等等；
　　3、求出模型的解：上述模型和框架一旦可以套用，如何求解就基本确定好了，就像HMM中不仅描述了三大基本问题，并相应的给出了求解方案一样；
　　4、验证模型的合理性：就是词性标注的准确率等评测指标了，在自然语言处理中属于必不可少的评测环节；
　　5、解释现实问题：如果词性标注的各项指标够好，就可以利用该数学模型构造一个词性标注器来解决某种语言的标注问题了！
　　词性标注的数学建模就这样了，自然语言处理中的多数分类问题与此相似。这里讲得是HMM的应用，所以其他模型暂且不表，以后有机会有条件了我们再说。

word2vec
使用word2vec训练一个高质量的同义词库将"非标准表述" 映射到 "标准表述"，这就是Synonyms的起源.

文本进行分词:jieba.cut(line.strip(),cut_all = False)
统计词频：jieba.lcut(line.strip(),cut_all = False)
动态调整词典:jieba.suggest_freq(segment,tune=True)可以调节每个单个词语的词频，使其能/不能被分出来。
jieba.suggest_freq(('中','将'),tune=True) #True表示希望分出来，False表示不希望分出来。

Facebook FastText:模型简单，训练速度非常快
fasttext是facebook开源的一个词向量与文本分类工具
就是把文档中所有词通过lookup table变成向量，取平均后直接用线性分类器得到分类结果

对比gensim的word2vec word2vec&doc2vec词向量模型
作为一个处理可变长度文本的总结性方法，Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一个段落向量以外，这个方法几乎等同于 Word2Vec。

中文自然语言处理分析

1.关键词提取

基于 TF-IDF 算法的关键词抽取:特征选取
•jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())◾sentence 为待提取的文本
◾topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
◾withWeight 为是否一并返回关键词权重值，默认值为 False
◾allowPOS 仅包括指定词性的词，默认值为空，即不筛选

基于 TextRank 算法的关键词抽取:从本篇文档中提取关键词
•jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用，接口相同，注意默认过滤词性。
•jieba.analyse.TextRank() 新建自定义 TextRank 实例

2.LDA主题模型
.载入停用词
.转换成合适的格式
.词袋模型dictionary = corpora.Dictionary(sentences)
corpus = [dictionary.doc2bow(sentence) for sentence in sentences]

.LDA建模lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
print lda.print_topic(3, topn=5)
处理可变长度文本的总结性方法 Doc2Vec方法

用深度学习做文本分类:

1.CNN做文本分类

2 LSTM:long short term memory 捕捉时序信息的长短时记忆神经网络

3.GRU分类器

NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现的更多相关文章

自然语言处理之中文分词器－jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
NLP+词法系列（一）︱中文分词技术小结、几大分词引擎的介绍与比较
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的.所以这边看到有几家大牛都在中文分词以及NLP上越走越远 ...
jieba中文分词（python）
问题小结 1.安装需要用到python,根据python2.7选择适当的安装包.先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py ...
jieba中文分词
jieba中文分词¶ 中文与拉丁语言不同,不是以空格分开每个有意义的词,在我们处理自然语言处理的时候,大部分情况下,词汇是对句子和文章的理解基础.因此需要一个工具去把完整的中文分解成词. ji ...
jieba中文分词的.NET版本：jieba.NET
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
.net 的一个分词系统（jieba中文分词的.NET版本：jieba.NET）
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
自然语言处理--jieba和gensim的分词功能
一.jieba分词功能 1.主要模式支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: 搜索引擎模 ...
（转）jieba中文分词的.NET版本：jieba.NET
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...

随机推荐

PHP中使用 JKS(Java Key Store)的方法
PHP语言无法直接读取 JKS中的密钥,需要通过以下方法进行转换本例以JKS中的私钥为例首先使用 KeyStore Explorer工具,打开JKS文件 ,此时可能需要输入 JKS密码对私钥进 ...
【java】详解I/O流
目录结构: contents structure [+] File类 I/O流体系流的基本介绍访问文件转化流 DataInputStream和DataOutputStream 对象流推回输入流 ...
域名 ip地址端口号
域名默认指定一个ip地址当用域名访问网站的时候网站会默认给个端口号80 或者自己指定其他的例如数据库也是会给端口号例如mysql 3306 域名:80 是访问iis 网站域名:3306 是 ...
spring 定时任务执行两次解决办法
在web.xml中同时配置了ContextLoaderListener和DispatcherServlet?假如真是这样的话,需要删掉一个配置,因为你相当于配置了两个spring容器,两个容器分别都执 ...
《从零開始学Swift》学习笔记（Day 65）——Cocoa Touch设计模式及应用之选择器
原创文章,欢迎转载.转载请注明:关东升的博客实现目标与动作关联使用UIControl类addTarget(_:action:forControlEvents:)方法,演示样例代码例如以下: butt ...
Java 垃圾回收思维导图
文 by / 林本托 Tips 做一个终身学习的人. Java 的垃圾回收,不像 C和 C++语言,内存的分配和释放都是靠程序员来控制的.而 Java 的内存回收,程序员是不能也是无法干预,具体什么时 ...
构建高性能J2EE应用的五种核心策略
对于J2EE,我们知道当开发应用时,在架构设计阶段的决定将对应用的性能和可扩展性产生深远的影响.现在当开发一个应用项目时,我们越来越多地注意到了性能和可扩展性的问题.应用性能的问题比应用功能的不丰富问 ...
【转载】web网站css，js更新后客户浏览器缓存问题，需要刷新才能正常展示的解决办法
原文:http://blog.csdn.net/csdn100861/article/details/50684438 问题描述部署到服务器后访问发现页面展示不正常,但是刷新之后就会展示正常. 问题 ...
根据Rowkey从HBase中查询数据
/** * @Title: queryData * @Description: 从HBase查询出数据 * @author xxxx * @param tableName * 表名 * @param ...
MySql（十六）：MySql架构设计——MySQL Cluster
前言: MySQL Cluster 是一个基于 NDB Cluster 存储引擎的完整的分布式数据库系统.不仅仅具有高可用性,而且可以自动切分数据,冗余数据等高级功能.和 Oracle Real Cl ...

NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现

NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现的更多相关文章

随机推荐

热门专题