NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理
概念
Natural Language Processing/Understanding,自然语言处理/理解
日常对话、办公写作、上网浏览
希望机器能像人一样去理解,以人类自然语言为载体的文本所包含的信息,并完成一些特定任务
内容
中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入……
应用
篇章理解、文本摘要、情感分析、知识图谱、文本翻译、问答系统、聊天机器人……
2. NLP 使用jieba分词处理文本,中文分词,关键词提取,词性标注
https://github.com/fxsjy/jieba
jieba:基于前缀词典进行词图扫描,构成全部可能分词结果的有向无环图,动态规划查找最大概率路径
1. 中文分词:jieba.cut
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))
2 .关键词提取:jieba.analyse.extract_tags
import jieba.analyse
基于TF-IDF:jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
基于TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
3 .词性标注:jieba.posseg.cut()
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for word, flag in words:
print('%s, %s' % (word, flag))
我 r
爱 v
北京 ns
天安门 ns
4. 并行分词
原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升
基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows
用法:
jieba.enable_parallel(4) # 开启并行分词模式,参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式
例子:https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
实验结果:在 4 核 3.4GHz Linux 机器上,对金庸全集进行精确分词,获得了 1MB/s 的速度,是单进程版的 3.3 倍。
注意:并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。
5. Tokenize:返回词语在原文的起止位置
注意,输入参数只接受 unicode
默认模式
result = jieba.tokenize(u'永和服装饰品有限公司')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
word 永和 start: 0 end:2
word 服装 start: 2 end:4
word 饰品 start: 4 end:6
word 有限公司 start: 6 end:10
搜索模式
result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
word 永和 start: 0 end:2
word 服装 start: 2 end:4
word 饰品 start: 4 end:6
word 有限 start: 6 end:8
word 公司 start: 8 end:10
word 有限公司 start: 6 end:10
Segmentation speed
1.5 MB / Second in Full Mode
400 KB / Second in Default Mode
Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《围城》.txt
词性列表
1. 名词 (1个一类,7个二类,5个三类)
n 名词
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
nl 名词性惯用语
ng 名词性语素
2. 时间词(1个一类,1个二类)
t 时间词
tg 时间词性语素
3. 处所词(1个一类)
s 处所词 (家中、门外、境内、西方……)
4. 方位词(1个一类)
f 方位词
5. 动词(1个一类,9个二类)
v 动词
vd 副动词
vn 名动词
vshi 动词“是”
vyou 动词“有”
vf 趋向动词
vx 形式动词
vi 不及物动词(内动词)
vl 动词性惯用语
vg 动词性语素
6. 形容词(1个一类,4个二类)
a 形容词
ad 副形词
an 名形词
ag 形容词性语素
al 形容词性惯用语
7. 区别词(1个一类,2个二类)
b 区别词 (主要、整个、所有……)
bl 区别词性惯用语
8. 状态词(1个一类)
z 状态词
9. 代词(1个一类,4个二类,6个三类)
r 代词
rr 人称代词
rz 指示代词
rzt 时间指示代词
rzs 处所指示代词
rzv 谓词性指示代词
ry 疑问代词
ryt 时间疑问代词
rys 处所疑问代词
ryv 谓词性疑问代词
rg 代词性语素
10. 数词(1个一类,1个二类)
m 数词
mq 数量词
11. 量词(1个一类,2个二类)
q 量词
qv 动量词
qt 时量词
12. 副词(1个一类)
d 副词
13. 介词(1个一类,2个二类)
p 介词
pba 介词“把”
pbei 介词“被”
14. 连词(1个一类,1个二类)
c 连词
cc 并列连词
15. 助词(1个一类,15个二类)
u 助词
uzhe 着
ule 了 喽
uguo 过
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一样 一般 似的 般
udh 的话
uls 来讲 来说 而言 说来
uzhi 之
ulian 连 (“连小学生都会”)
16. 叹词(1个一类)
e 叹词
17. 语气词(1个一类)
y 语气词(delete yg)
18. 拟声词(1个一类)
o 拟声词
19. 前缀(1个一类)
h 前缀
20. 后缀(1个一类)
k 后缀
21. 字符串(1个一类,2个二类)
x 字符串
xx 非语素字
xu 网址URL
22. 标点符号(1个一类,16个二类)
w 标点符号
wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wyz 左引号,全角:“ ‘ 『
wyy 右引号,全角:” ’ 』
wj 句号,全角:。
ww 问号,全角:? 半角:?
wt 叹号,全角:! 半角:!
wd 逗号,全角:, 半角:,
wf 分号,全角:; 半角: ;
wn 顿号,全角:、
wm 冒号,全角:: 半角: :
ws 省略号,全角:…… …
wp 破折号,全角:—— -- ——- 半角:--- ----
wb 百分号千分号,全角:% ‰ 半角:%
wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
文本挖掘主要有哪些功能
自然语言处理技术文本挖掘功能:
* 涉黄涉政检测:对文本内容做涉黄涉政检测,满足相应政策要求;
* 垃圾评论过滤:在论坛发言或用户评论中,过滤文本中的垃圾广告,提升文本总体质量;
* 情感分析:对用户评论等文本内容做情感分析,指导决策与运营;
* 自动标签提取:自动提取文本重要内容生成关键性标签,在此基础之上拓展更多功能形式;
* 文本自动分类:通过对文本内容进行分析,给出文本所属的类别和置信度,支持二级分类.
NLP WordEmbedding的概念和实现
背景
如何表示词语所包含的语义?
苹果?水果?Iphone?
苹果、梨子,这两个词相关吗?
语言的表示
符号主义:Bags-of-word,维度高、过于稀疏、缺乏语义、模型简单
分布式表示:Word Embedding,维度低、更为稠密、包含语义、训练复杂
Word Embedding
核心思想:语义相关的词语,具有相似的上下文环境,例如, 苹果和梨子
所做的事情:将每个词语训练成,词向量
实践
基于gensim包和中文维基语料
gensim:http://radimrehurek.com/gensim/models/word2vec.html
中文维基分词语料:链接 https://pan.baidu.com/s/1qXKIPp6 密码 kade
pip install gensim
# 加载包
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
# 训练模型
sentences = LineSentence('wiki.zh.word.text')
model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)
# 保存模型
model.save('word_embedding_128')
# 加载模型
model = Word2Vec.load("word_embedding_128")
# 使用模型
items = model.most_similar(u'中国')
model.similarity(u'男人', u'女人')
demo 2017.11.29 by denny shenzhen
import sys
import jieba
import jieba.analyse
import jieba.posseg as posg
sentence=u'''深圳新闻网讯 10月30日,世界城市日——全球城市竞争力论坛在广州举行。会上,中国社科院财经战略研究院和联合国人类住区规划署发布了《全球城市竞争力报告2017-2018》(以下简称《报告》)。
《报告》称,通过对全球1007个城市的“经济竞争力”进行测度后,深圳在“经济竞争力”这项评选中位于第六名。上海、广州、北京分列全球第14、15、20名。
北上广深,不仅有最繁华的建筑群,最多元的包容性,同时也是很多人改变命运的圆梦场。“经济竞争力”是对现有存量的排名,但对青年们来说,增量的部分(即未来)显得更为重要。《报告》也提供了一个可供参考的指标——“可持续竞争力”,即在未来保持全球竞争力的可持续性。
在未来“可持续竞争力”排名上,除了北京高于“经济竞争力”指标,其他几座城市的可持续竞争力指标都低于其经济竞争力排名,深圳全球排名第35位。
科技与金融正在主导全球经济,占据全球价值链的主要部分,尤其是信息科技企业的影响力正变得越来越大。科技中心城市在全球城市体系中的地位不断上升。
综合2017年各城市所拥有最具价值品牌数量和近十年变化情况等因素,《报告》还提出了未来“新型全球城市”排名,在排名前50的城市当中,北京、深圳、上海、广州皆在其列,而“新一线城市”中仅有杭州入围。“未来的竞争将持续转向以城市经济为单元的竞争”,美国独立经济智库米尔肯研究所亚洲中心研究部董事、总经理黄华跃说。(记者李佳佳'''
#kw=jieba.analyse.extract_tags(sentence,topK=20,withWeight=True,allowPOS=('n','nr','ns'))
# kw=jieba.analyse.textrank(sentence,topK=20,withWeight=True,allowPOS=('ns','n','vn','v'))
# for item in kw:
# print(item[0],item[1])
cixingDict = {
'n': '名词','nr': '人名','nr1': '汉语姓氏','nr2': '汉语名字','nrj': '日语人名','nrf': '音译人名','ns': '地名','nsf': '音译地名',
'nt': '机构团体名','nz': '其它专名','nl': '名词性惯用语','ng': '名词性语素','t': '时间词','tg': '时间词性语素','s':'处所词',
'f':'方位词','v': '动词','vd': '副动词','vn': '名动词','vshi': '动词“是”','vyou': '动词“有”','vf': '趋向动词','vx': '形式动词',
'vi': '不及物动词(内动词)','vl': '动词性惯用语','vg': '动词性语素','a': '形容词','ad': '副形词','an': '名形词','ag': '形容词性语素',
'al': '形容词性惯用语','b': '区别词 (主要、整个、所有……)','bl': '区别词性惯用语','z': '状态词','r': '代词','rr': '人称代词',
'rz': '指示代词','rzt': '时间指示代词','rzs': '处所指示代词','rzv': '谓词性指示代词','ry': '疑问代词','ryt': '时间疑问代词',
'rys': '处所疑问代词','ryv': '谓词性疑问代词','rg': '代词性语素','m': '数词','mq': '数量词','q': '量词','qv': '动量词','qt': '时量词',
'd':'副词','p': '介词','pba': '介词“把”','pbei': '介词“被”','c': '连词','cc': '并列连词','e':'叹词','y': '语气词',
'o': '拟声词','h': '前缀','k': '后缀','x': '标点符号','xx': '非语素字','xu': '网址URL',
'u': '助词',
'uzhe': '着',
'ule': ' 了 喽',
'ul': '助词',
'uj': '助词2',
'uguo': '过',
'ude1': '的 底',
'ude2': '地',
'ude3': '得',
'usuo': '所',
'udeng': '等 等等 云云',
'uyy': '一样 一般 似的 般',
'udh': '的话',
'uls': '来讲 来说 而言 说来',
'uzhi': '之',
'ulian': '连 ',
'w': '标点符号2',
'wkz': '左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <',
'wky': '右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >',
'wyz': '左引号,全角:『',
'wyy': '右引号,全角:"" 』',
'wj': '句号,全角:。',
'ww': '问号,全角:? 半角:?',
'wt': '叹号,全角:! 半角:!',
'wd': '逗号,全角:, 半角:',
'wf': '分号,全角:; 半角:',
'wn': '顿号,全角:、',
'wm': '冒号,全角:: 半角: ',
'ws': '省略号,全角:…… …',
'wp': '破折号,全角:—— -- ——- 半角:--- ----',
'wb': '百分号千分号,全角:% ‰ 半角:%',
'wh': '单位符号,全角:¥ $ £ ° ℃ 半角:$'
}
#seg_lig=jieba.cut('习平:担当党的崇高使命 矢志永远奋斗',cut_all=True)
#print("full_name"+ "/ ".join(seg_lig))
# seg_lig2=jieba.cut('习平:担当党的崇高使命 矢志永远奋斗',cut_all=False)
# for item in seg_lig2:
# print(item)
# print("default_name"+ "/ ".join(seg_lig2))
# seg_lig3=jieba.cut_for_search('平:担当党的崇高使命 矢志永远奋斗')
# print("search_name"+ ", ".join(seg_lig3))
#
# ci xing analysis
def cixingAnalysis(inputtxt):
word=posg.cut(inputtxt)
for work,flag in word:
try:
print(work,cixingDict[flag])
except KeyError as e:
print('except',e)
# ci xing tongji
def cixingTongji(inputtxt):
word=posg.cut(inputtxt)
n_type={}
for work,flag in word:
if flag not in n_type:
n_type[flag] = 1
else:
n_type[flag] += 1
sorted(n_type.items(),key=lambda d:d[1],reverse=False)
print(n_type)
cixingAnalysis(sentence)
cixingTongji(sentence)
demo :
利用HMM进行词性标注
隐马尔科夫模型(HMM)是什么?说白了,就是一个数学模型,用一堆数学符号和参数表示而已,包括隐藏状态集合、观察符号集合、初始概率向量pi, 状态转移矩阵A,混淆矩阵B。
隐马尔科夫模型(HMM)的三大基本问题与解决方案包括:
1. 对于一个观察序列匹配最可能的系统——评估,使用前向算法(forward algorithm)解决;
2. 对于已生成的一个观察序列,确定最可能的隐藏状态序列——解码,使用维特比算法(Viterbi algorithm)解决;
3. 对于已生成的观察序列,决定最可能的模型参数——学习,使用前向-后向算法(forward-backward algorithm)解决。
可以解释为:
1、对词性标注问题进行提炼:词性标注本质上是一个分类问题,对于句子中的每一个单词W,找到一个合适的词类类别T,也就是词性标记,不过词性标注考虑的是整体标记的好坏,既整个句子的序列标记问题;
2、抽象为数学模型:对于分类问题,有很多现成的数学模型和框架可以套用,譬如HMM、最大熵模型、条件随机场、SVM等等;
3、求出模型的解:上述模型和框架一旦可以套用,如何求解就基本确定好了,就像HMM中不仅描述了三大基本问题,并相应的给出了求解方案一样;
4、验证模型的合理性:就是词性标注的准确率等评测指标了,在自然语言处理中属于必不可少的评测环节;
5、解释现实问题:如果词性标注的各项指标够好,就可以利用该数学模型构造一个词性标注器来解决某种语言的标注问题了!
词性标注的数学建模就这样了,自然语言处理中的多数分类问题与此相似。这里讲得是HMM的应用,所以其他模型暂且不表,以后有机会有条件了我们再说。
word2vec
使用word2vec训练一个高质量的同义词库将"非标准表述" 映射到 "标准表述",这就是Synonyms的起源.
文本进行分词:jieba.cut(line.strip(),cut_all = False)
统计 词频:jieba.lcut(line.strip(),cut_all = False)
动态调整词典:jieba.suggest_freq(segment,tune=True)可以调节每个单个词语的词频,使其能/不能被分出来。
jieba.suggest_freq(('中','将'),tune=True) #True表示希望分出来,False表示不希望分出来。
Facebook FastText:模型简单,训练速度非常快
fasttext是facebook开源的一个词向量与文本分类工具
就是把文档中所有词通过lookup table变成向量,取平均后直接用线性分类器得到分类结果
对比gensim的word2vec word2vec&doc2vec词向量模型
作为一个处理可变长度文本的总结性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一个段落向量以外,这个方法几乎等同于 Word2Vec。
中文自然语言处理分析
1.关键词提取
基于 TF-IDF 算法的关键词抽取:特征选取
•jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())◾sentence 为待提取的文本
◾topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
◾withWeight 为是否一并返回关键词权重值,默认值为 False
◾allowPOS 仅包括指定词性的词,默认值为空,即不筛选
基于 TextRank 算法的关键词抽取:从本篇文档中提取关键词
•jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用,接口相同,注意默认过滤词性。
•jieba.analyse.TextRank() 新建自定义 TextRank 实例
2.LDA主题模型
.载入停用词
.转换成合适的格式
.词袋模型dictionary = corpora.Dictionary(sentences)
corpus = [dictionary.doc2bow(sentence) for sentence in sentences]
.LDA建模lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
print lda.print_topic(3, topn=5)
处理可变长度文本的总结性方法 Doc2Vec方法
用深度学习做文本分类:
1.CNN做文本分类
2 LSTM:long short term memory 捕捉时序信息的长短时记忆神经网络
3.GRU分类器
NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现的更多相关文章
- 自然语言处理之中文分词器-jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
- NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的.所以这边看到有几家大牛都在中文分词以及NLP上越走越远 ...
- jieba中文分词(python)
问题小结 1.安装 需要用到python,根据python2.7选择适当的安装包.先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py ...
- jieba中文分词
jieba中文分词¶ 中文与拉丁语言不同,不是以空格分开每个有意义的词,在我们处理自然语言处理的时候,大部分情况下,词汇是对句子和文章的理解基础.因此需要一个工具去把完整的中文分解成词. ji ...
- jieba中文分词的.NET版本:jieba.NET
简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
- .net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)
简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
- 自然语言处理--jieba和gensim的分词功能
一.jieba分词功能 1.主要模式 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: 搜索引擎模 ...
- (转)jieba中文分词的.NET版本:jieba.NET
简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
- python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...
随机推荐
- 【C语言】练习1-23
题目来源:<The C programming language>中的习题 练习1-23: 写一个删除C语言程序中所有的注释语句.要正确处理带引号的字符串与字符常量.在C语言中,注释不 ...
- C语言的整型溢出问题
整型溢出有点老生常谈了,bla, bla, bla… 但似乎没有引起多少人的重视.整型溢出会有可能导致缓冲区溢出,缓冲区溢出会导致各种黑客攻击,比如最近OpenSSL的heartbleed事件,就是一 ...
- 【Qt】StackedWidget
一个简单的堆栈窗体类: 左側列表框会出现不同的选项,右側显示所选的不同的窗口 #include<QHBoxLayout> #include "stackdlg.h" S ...
- python .dcm文件读取,并转化为.jpg格式
.dcm文件是DICOM(Digital Imaging and Communications in Medicine)即医学数字成像和通信中记录医学图像和相关信息的文件,在用于医学图像处理的时候我们 ...
- [转]用GSON 五招之内搞定任何JSON数组
关于GSON的入门级使用,这里就不提了,如有需要可以看这篇博文 <Google Gson的使用方法,实现Json结构的相互转换> ,写的很好,通俗易懂. 我为什么写这篇文章呢?因为前几晚跟 ...
- mark CodeGenerator
基础权限开发框架 BMS = Spring boot + Mybatis plus + Shiro BMS / bms-admin / src / main / java / com ...
- oracle11g exp导出问题:部分表导不出来
在oracle导出表的命令exp时候发现一个问题,就是部分表全然的导不出来,经检查发现仅仅要是表为空的都会导不出来. 在例如以下表中发现segment_created都为NO的是导不出来的,经查询后, ...
- Atitit 软件项目系统托盘图标解决方案
Atitit 软件项目系统托盘图标解决方案 1.1. Nodejs node-webkit还实现了本地化的API,例如菜单栏,系统的托盘图标支持1 1.2. Java c# qt c++1 1.3 ...
- struts2(六) 文件上传和下载
前面对文件下载提过一点点,这里正好要讲文件上传,就放在一起在说一遍. --WH 一.单文件上传 在没学struts2之前,我们要写文件上传,非常麻烦,需要手动一步步去获取表单中的各种属性,然后在进行相 ...
- G1 Garbage Collector and Shenandoah
http://www.diva-portal.se/smash/get/diva2:754515/FULLTEXT01.pdf https://is.muni.cz/th/ifz8g/GarbageC ...