NLP自然语言处理中的hanlp分词实例

本篇分享的依然是关于hanlp的分词使用，文章内容分享自 gladosAI 的博客，本篇文章中提出了一个问题，hanlp分词影响了实验判断结果。为何会如此，不妨一起学习一下 gladosAI 的这篇文章。

学习内容

在之前的实验中得到了不在词向量里的词与分词结果，结果有500多个词不在词向量里，解决方案就是重新分词，或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6]所使用的分词工具来分词，会比不同工具（jieba）的效果要好，因为都是同一模式的分词，分出来的词应该都会存在于大型语料库中。实验证明思路是对的，最后结果是只有60几个词不在词向量里，其中大部分为名词，还有些为因语音翻译问题所造成的出错连词，所有这些词也只出现一次，这部分可以考虑最后删去也不会影响结果。改善未出现词是个关键步骤，因为此后模型会用到词向量，如果未出现词过多，会影响词向量效果。

问题：不过最后HANLP分词影响了实验判断结果，准确率从93%（jieba分词，同模型同参数）下降到90%。

实验：使用HanLP分词

1,前期准备，（环境ubuntu，python3）安装JAVA-10[3]（hanlp是JAVA开发的，即使使用python调用pyhanlp需要借助java）, jpype（python中虚拟java环境），hanlp（开源中文处理工具，不只是分词还有各种工具），hanlp的root路径配置及data数据包放置[4]

2,主要程序[5]

w2v_model = KeyedVectors.load_word2vec_format(w2vpath, binary=False, unicode_errors='ignore') # 加载词向量

hanlppath=\"-Djava.class.path=/media/glados/Learning/project/NLP/hanlp/hanlp-1.6.4.jar:/media/glados/Learning/project/NLP/hanlp/"

jp.startJVM(jp.getDefaultJVMPath(), hanlppath) # , "-Xms1g", "-Xmx1g") # 启动JVM, Xmx1g分配1g内存

jp.JClass('com.hankcs.hanlp.HanLP$Config').ShowTermNature = False # 关闭分词属性显示

HanLP = jp.JClass('com.hankcs.hanlp.HanLP') #普通分词模式

words = str(HanLP.segment(sentence)) #分词将结果转为str

words = re.sub('[反斜杠[反斜杠],\n]', ' ', words) # 这里注意实际程序是单\，在blog里会出问题，所以用反斜杠替代

words = words.split()

words = del_stopword(words)

...

jp.shutdownJVM() # 最后关闭java虚拟环境

使用的是HANLP的普通分词功能，另外需注意，hanlp.segment()不能直接输出或赋值给python，因为其是java环境中数据，所以只有转为str（）后，再进行处理，否则会报错#A fatal error。（另外还有其他java与python数据对应问题，在这里没遇到，请参考其他）

词向量选用的是“Mixed-large综合”[6]，其包括百度wiki百科、人民日报等，总共1293214个词。

Hanlp的中部份功能没法使用，例如精确分词CRF。另外，要先加载词向量再加载java虚拟环境。#A fatal error has been detected by the Java Runtime Environment

3,实验结果

（模型使用的是特征为tfidf的lsi模型，参数：num_topics=3, 判断是否相似阀值为0.45,即大于0.45为true相似）

同模型同参数下，jieba分词结果

jieba分词未出现在词向量的约500多，有些词出现了好几次，而hanlp分词只有60几个未出现，且多数为名词，只出现过一次。

4,分析

在样本中，所有样本分词结果jieba比hanlp要多分出100个词左右。所以推测因hanlp分词细粒度大，分出词少，导致较少的共现词出现（也可能是hanlp分词精度更高，分出很多虚词被停止词表过滤造成），也就是说，lsi+tfidf模型对词细粒度大、分词少的分词器不友好，所以最后hanlp出错率更大。

jieba与hanlp都是很不错的分词器，结巴使用更方便。hanlp准确度要高一些（感觉），而且与文中提到的词向量相匹配。

（我免贵姓AI，jieba：我免/贵姓/AI，hanlp：我/免/贵姓/AI，实际：我/免贵/姓AI）

NLP自然语言处理中的hanlp分词实例的更多相关文章

Hanlp分词实例：Java实现TFIDF算法
算法介绍最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理. 关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013 ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
自然语言处理中的N-Gram模型
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理.另外一方面,N-Gram的另外一个作用是 ...
NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话.办公写作.上网浏览希望机器能像人一样去理解,以 ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
（转）注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html 近年来,深度 ...
注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了 ...
自然语言处理中的自注意力机制（Self-attention Mechanism）
自然语言处理中的自注意力机制(Self-attention Mechanism) 近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,之前我对早期注意力 ...
(zhuan) 自然语言处理中的Attention Model：是什么及为什么
自然语言处理中的Attention Model:是什么及为什么 2017-07-13 张俊林待字闺中要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model( ...

随机推荐

c#继承中的函数调用实例
using System; namespace Test { public class Base { public void Print() { ...
移动端开发rem单位
1.用js计算 <script> (function (doc, win) { var docEl = doc.documentElement, resizeEvt = 'orientat ...
python构造IP报文
import socket import sys import time import struct HOST, PORT = "10.60.66.66", 10086 def m ...
自动化测试-20.selenium之FireFox下载项配置
前言: 当我们在使用Selenium运行自动化测试时,偶尔需要用到下载功能,但浏览器的下载可能会弹出下载窗口,或者下载路径不是我们想要保存的位置,所以在通过Selenium启动浏览器时需要做相关的设置 ...
React Native Headless JS（后台任务)（转载）
React Native Headless JS(后台任务) Headless JS是一种使用js在后台执行任务的方法.它可以用来在后台同步数据.处理推送通知或是播放音乐等等. JS端的API 首先我 ...
大数据-10-Spark入门之支持向量机SVM分类器
简介支持向量机SVM是一种二分类模型.它的基本模型是定义在特征空间上的间隔最大的线性分类器.支持向量机学习方法包含3种模型:线性可分支持向量机.线性支持向量机及非线性支持向量机.当训练数据线性可分时 ...
2.14 加载Firefox配置
2.14 加载Firefox配置(略,已在2.1.8讲过,请查阅2.1.8节课) 回到顶部 2.14-1 加载Chrome配置一.加载Chrome配置chrome加载配置方法,只需改下面一个地方,u ...
___security_cookie机制
.text:00411500 ; int __cdecl wmainCRTStartup().text:00411500 _wmainCRTStartup proc near ...
Django之模板层-继承
模板语法:继承 Django模版引擎中最强大也是最复杂的部分就是模版继承了.模版继承可以让您创建一个基本的"骨架"模版,它包含您站点中的全部元素,并且可以定义能够被子模版覆盖的 b ...
[LeetCode&Python] Problem 661. Image Smoother
Given a 2D integer matrix M representing the gray scale of an image, you need to design a smoother t ...

NLP自然语言处理中的hanlp分词实例

NLP自然语言处理中的hanlp分词实例的更多相关文章

随机推荐

热门专题