R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较)
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~
———————————————————————————
《数据挖掘之道》摘录话语:虽然我比较执着于Rwordseg,并不代表各位看管执着于我的执着,推荐结巴分词包,小巧玲珑,没有那么多幺蛾子,而且R版本和python版本都有,除了词性标注等分词包必备功能以外,jiebaR还加入了一些基础的文本分析算法,比如提取关键字(TFIDF)、分析文本相似性等等,真是老少咸宜。
同时官网也有一个在线jiebaR分词的网址,超级棒:https://qinwf.shinyapps.io/jiebaR-shiny/
jiebaR是“结巴”中文分词(Python)的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment)共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。目前托管在GitHub上。
来自:http://cos.name/tag/jiebar/
——————————————————————————————————
来看一下这篇论文一些中文分词工具的性能比较《开源中文分词器的比较研究_黄翼彪,2013》
8款中文分词器的综合性能排名:
Paoding(准确率、分词速度、新词识别等,最棒)
mmseg4j(切分速度、准确率较高)
IKAnalyzer
Imdict-chinese-analyzer
Ansj
盘古分词
Httpcws
jieba
——————————————————————————————————
Rwordseg与jiebaR分词之间的区别
中文分词比较有名的包非`Rwordseg`和`jieba`莫属,他们采用的算法大同小异,这里不再赘述,我主要讲一讲他们的另外一个小的不同:
`Rwordseg`在分词之前会去掉文本中所有的符号,这样就会造成原本分开的句子前后相连,本来是分开的两个字也许连在一起就是一个词了,
而`jieba`分词包不会去掉任何符号,而且返回的结果里面也会有符号。
所以在小文本准确性上可能`Rwordseg`就会有“可以忽视”的误差,但是文本挖掘都是大规模的文本处理,由此造成的差异又能掀起多大的涟漪,与其分词后要整理去除各种符号,倒不如提前把符号去掉了,所以我们才选择了`Rwordseg`。
——————————————————————————————————
一、jiebaR的安装
案例
http://www.bkjia.com/ASPjc/958939.html
安装出现的问题
1、网上教程大多用github装
library(devtools) install_github("qinwf/jiebaR")
但是我总是出现以下问题:
Error: Command failed (1) In addition: Warning message: In utils::download.file("https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe", : InternetOpenUrl failed: '操作超时'
Warning in install.packages : InternetOpenUrl failed: '操作超时'
Downloading GitHub repo qinwf/jiebaR@master trying URL 'https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe' Error in utils::download.file("https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe", : cannot open URL 'https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe' Installing jiebaR Skipping 2 packages not available: jiebaRD, Rcpp "F:/R/R-3.2.2/R-3.2.2/bin/x64/R" --no-site-file --no-environ --no-save --no-restore CMD INSTALL \ "C:/Users/long/AppData/Local/Temp/RtmpmUlaMY/devtools597c19394370/qinwf-jiebaR-12cb03b" --library="F:/R/R-3.2.2/R-3.2.2/library" \ --install-tests
于是就去了官网看(官网链接:https://github.com/qinwf/jiebaR)
发现了两种方法:
通过CRAN安装:
install.packages("jiebaR") library("jiebaR") cc = worker() cc["这是一个测试"] # or segment("这是一个测试", cc) # [1] "这是" "一个" "测试"
同时还可以通过Github安装开发版,建议使用 gcc >= 4.6 编译,Windows需要安装 Rtools :
library(devtools) install_github("qinwf/jiebaRD") install_github("qinwf/jiebaR") library("jiebaR")
其中通过Github安装,需要Rtools,这个文件比较大,
下载链接在:https://cran.r-project.org/bin/windows/Rtools/
这里我是下载不了,出现以下的报错:
- Downloading GitHub repo lchiffon/wordcloud2@master
- from URL https://api.github.com/repos/lchiffon/wordcloud2/zipball/master
- Error in curl::curl_fetch_memory(url, handle = handle) :
- Problem with the SSL CA cert (path? access rights?)
然后借鉴了博客(安装包(上传数据)失败时的解决方法),
- library(RCurl)
- library(httr)
- set_config( config( ssl_verifypeer = 0L ) )
————————————————————————————
二、分词效果——worker启动器
jiebaR包可以实现分词(分行分词)、整个文档分词(分文档分词)。library(jiebaR)
加载包时,没有启动任何分词引擎,启动引擎很简单,就是一句赋值语句就可以了——mixseg=worker()。详细版本请参考官方:https://jiebar.qinwf.com/section-3.html#section-3.0.1
但是实际上worker中有非常多的调节参数。
mixseg = worker(type = "mix", dict = "dict/jieba.dict.utf8", hmm = "dict/hmm_model.utf8", user = "dict/test.dict.utf8", detect=T, symbol = F, lines = 1e+05, output = NULL )
代码解读:
type代表分词模型,有mix(混合模型),mp(最大概率),hmm(隐马尔科夫链),query(索引),tag(词性标注),simhash(距离),keywords(关键词)
hmm代表隐马尔科夫链所用的语料库,一般不用更改
user代表自定义的参考此包,后续会说到如何把网络中的此包变成jiebaR认可的;
detect决定了引擎是否自动判断输入文件的编码,加载后通过cutter$detect = F也可以设置
symbol代表是否保留标点符号
lines当输入为文档文件时,一次性最大读取行数
output代表分词内容是否变成文件写出
1、分行输出
mixseg$bylines = TRUE mixseg[c("这是第一行文本。","这是第二行文本。")]
自动判断输入文件编码模式,默认文件输出在同目录下。
2、文档分行输出
mixseg$bylines = TRUE head(mixseg["./index.rmd"])
自动判断输入文件编码模式,默认文件输出在同目录下。
3、词性标注
词性标注使用混合模型模型分词,标注采用和 ictclas 兼容的标记法
words = "我爱北京天安门" tagger = worker("tag") #词性标注启发器 tagger <= words
4、关键词提取
keys = worker("keywords", topn = 4,idf=IDFPATH) #关键词keywords topn代表着关键词个数 #??是TFIDF还是IDF值? keys <= "我爱北京天安门" #第一行代表IDF(逆文档频率) 第二行为具体关键词 keys <= "一个文件路径.txt"
关键词提取建立在使用因马尔科夫链HMM模型的基础上,所以已经有hmm的语料库,在这语料库的基础上计算新来的文档文字的IDF值来对核心词进行筛选。
topn代表筛选出核心词的数量,可以自由调节。
—————————————————————————————————————————
三、自定义词库——cidian包
R语言中如何将网络中其他的词典包加入成为分词词包其实有两个办法。第一个使用cidian包,将网络中已有的词包进行转化后,通过worker中的dict进行调用。第二个办法通过停用词的手法,加入到停用词词包中,然后进行筛选。
1、jiebaR基本词库查看函数
show_dictpath() ### 显示词典路径,旧的函数是:ShowDictPath() edit_dict() ### 编辑用户词典,旧的函数为:ShowDictPath()
2、词包转化方式——cidian包安装
cidian包在github中,所以需要调用devtools,同时需要下载Rtools才能顺利安装,还是挺麻烦的。
详细下载和使用信息可参考官方网址:https://github.com/qinwf/cidian/
(1)cidian包下载条件一
install.packages("devtools") install.packages("stringi") install.packages("pbapply") install.packages("Rcpp") install.packages("RcppProgress") library(devtools) install_github("qinwf/cidian")
(2)cidian包下载条件二——Rtools下载
参考官方网址:https://cran.r-project.org/bin/windows/Rtools/
下载并安装即可。
3、使用
decode_scel(scel = "细胞词库路径",output = "输出文件路径",cpp = TRUE) decode_scel(scel = "细胞词库路径",output = "输出文件路径",cpp = FALSE,progress =TRUE)
4、添加新词
new_user_word(mixseg, "这是一个新词", "n") mixseg["这是一个新词"]
通过new_user_word来添加新词,而且需要加入词性的信息。
5、添加停用词——第二类加入特定词的方法
readLines("stop.txt") #> [1] "停止词" mixseg = worker(stop_word = "stop.txt") new_user_word(mixseg, "停止词", "n") #> [1] TRUE mixseg["这是一个停止词"] # > [1] "这是" "一个"
通过mixseg = worker(stop_word = "stop.txt")来实现加入停用词。
——————————————————————————————————---——
四、simhash算法——传统词向量
google对于网页去重使用的是simhash,他们每天需要处理的文档在亿级别,大大超过了我们现在文档的水平。
该章节参考大牛博客(转载自LANCEYAN.COM)(原文链接: 《Similarity estimation techniques from rounding algorithms》),0101 和 00110 从第一位开始依次有第一位、第四、第五位不同,则海明距离为3。
那么海明距离多少为合理范围呢?
在距离为3时是一个比较折中的点,在距离为10时效果已经很差了,不过我们测试短文本很多看起来相似的距离确实为10。如果使用距离为3,短文本大量重复信息不会被过滤,如果使用距离为10,长文本的错误率也非常高。如何选择,需要根据业务来进行调试。
过大量测试,simhash用于比较大文本,比如500字以上效果都还蛮好,距离小于3的基本都是相似,误判率也比较低。
但是如果我们处理的是微博信息,最多也就140个字,使用simhash的效果并不那么理想。
3、R语言中的simhash值与海明距离
> simhasher = worker("simhash",topn=2) > simhasher <= "江州市长江大桥参加了长江大桥的通车仪式" $simhash [1] "12882166450308878002" $keyword 22.3853 8.69667 "长江大桥" "江州" > simhasher <= "你妈妈喊你回家吃饭哦,回家罗回家罗" $simhash [1] "9184284471008831268" $keyword 18.5768 6.55531 "回家" "妈妈" > distance("江州市长江大桥参加了长江大桥的通车仪式" , "你妈妈喊你回家吃饭哦,回家罗回家罗" , simhasher) $distance [1] "30" $lhs 22.3853 8.69667 "长江大桥" "江州" $rhs 18.5768 6.55531 "回家" "妈妈"
代码解读:simhasher = worker("simhash",topn=2)设置simhash启动器,topn代表计算simhash值的同时排出核心词。
其中simhash值此时为“9184284471008831268”,此时19个字句子生成了一个20个数字列的数字向量。
$keyword代表IDF值与具体的核心词。
distance函数计算海明距离,此时为30,如果两句话的词向量位数不同的话,会后补齐的方式来计数,比如101与01,R语言中海明距离为2;$lhs与$rhs代表左、右不同句子的核心词。
4、与word2vec区别
simhash算法的One-hot Representation采用稀疏矩阵的方式表示词,在解决某些任务时会造成维数灾难;
simhash算法中虽然考虑了根据词重要性来进行加权,但是没有顾及词语与词语前后语序关系。
word2vec可以顾及一句话词语与词语之间前后关联关系,同时可以自我设定默认维数。
可参考:重磅︱文本挖掘深度学习之word2vec的R语言实现
————————————————————————————————————
延伸一:jiebaR的一些新功能
1、停用词过滤函数:filter_segment()
cutter = worker() result_segment = cutter["我是测试文本,用于测试过滤分词效果。"] result_segment [1] "我" "是" "测试" "文本" "用于" "测试" "过滤" "分词" "效果" filter_words = c("我","你","它","大家") filter_segment(result_segment,filter_words) [1] "是" "测试" "文本" "用于" "测试" "过滤" "分词" "效果"
filter_segment(词,过滤词)
同时,默认的 STOPPATH
路径将不会被使用,不默认使用停止词库。需要自定义其他路径,停止词才能在分词时使用。停止词库的编码需要为 UTF-8 格式,否则读入的数据可能为乱码。
2、提取关键词函数:vector_keywords
keyworker = worker("keywords") cutter = worker() vector_keywords(cutter["这是一个比较长的测试文本。"],keyworker) 8.94485 7.14724 4.77176 4.29163 2.81755 "文本" "测试" "比较" "这是" "一个" vector_keywords(c("今天","天气","真的","十分","不错","的","感觉"),keyworker) 6.45994 6.18823 5.64148 5.63374 4.99212 "天气" "不错" "感觉" "真的" "今天"
vector_keywords(词,关键词引擎worker)
3、N-gram组合频率
get_tuple() 返回分词结果中 n 个连续的字符串组合的频率情况,可以作为自定义词典的参考。
get_tuple(c("sd","sd","sd","rd"),size=3) # name count # 4 sdsd 2 # 1 sdrd 1 # 2 sdsdrd 1 # 3 sdsdsd 1 get_tuple(list( c("sd","sd","sd","rd"), c("新浪","微博","sd","rd"), ), size = 2) # name count # 2 sdrd 2 # 3 sdsd 2 # 1 微博sd 1 # 4 新浪微博 1
4、计算simhash 值和 海明距离——vector_simhash
vector_distance
sim = worker("simhash") cutter = worker() vector_simhash(cutter["这是一个比较长的测试文本。"],sim) $simhash [1] "9679845206667243434" $keyword 8.94485 7.14724 4.77176 4.29163 2.81755 "文本" "测试" "比较" "这是" "一个" vector_simhash(c("今天","天气","真的","十分","不错","的","感觉"),sim) $simhash [1] "13133893567857586837" $keyword 6.45994 6.18823 5.64148 5.63374 4.99212 "天气" "不错" "感觉" "真的" "今天" vector_distance(c("今天","天气","真的","十分","不错","的","感觉"),c("今天","天气","真的","十分","不错","的","感觉"),sim) $distance [1] "0" $lhs 6.45994 6.18823 5.64148 5.63374 4.99212 "天气" "不错" "感觉" "真的" "今天" $rhs 6.45994 6.18823 5.64148 5.63374 4.99212 "天气" "不错" "感觉" "真的" "今天"
同时,可以使用 tobin
进行 simhash 数值的二进制转换。
R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较)的更多相关文章
- R语言 文本挖掘 tm包 使用
#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1. ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
- R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava ...
- R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+Sn ...
- R语言︱H2o深度学习的一些R语言实践——H2o包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例 笔者寄语:受启发 ...
- R语言:recommenderlab包的总结与应用案例
R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算 ...
- 使用R语言的RTCGA包获取TCGA数据--转载
转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因 ...
- R语言文本挖掘+词云显示(jiebaR包+wordcloud2包)
利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2. 1.安装并加载jiebaR install.packages("jie ...
- R语言︱文本挖掘——词云wordcloud2包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chif ...
随机推荐
- WTF小程序之wxs
前言 对于从VUE过来的前端同学来说,见到小程序的第一眼一定是熟悉-感觉就像是把vue的单文件拆成了3个文件.但是,随着慢慢入坑.马上会发现,这样怎么不行?wxs文件又是什么鬼?template和vu ...
- 移动端 滑动删除 swipeDelete
功能比较简单常见,最近整理一下做备份记录.先看看线上 整体实际效果 下面是swipeDelete 用法 demo 默认参数 var defaults = { distance:80, //滑动距离 u ...
- xBIM IFC 层次结构
目录 xBIM 应用与学习 (一) xBIM 应用与学习 (二) xBIM 基本的模型操作 xBIM 日志操作 XBIM 3D 墙壁案例 xBIM 格式之间转换 xBIM 使用Linq 来优化查询 x ...
- 使用jvisualvm来远程观察Java程序及jvisualvm插件[转]
jvisualvm是JDK自带的监控JVM运行状况的工具,利用jvisualvm可以查看JVM的运行.GC情况:线程的运行情况:内存中类及实例的情况等. 使用jvisualvm来远程观察Java程序, ...
- java多线程之内存可见性-synchronized、volatile
1.JMM:Java Memory Model(Java内存模型) 关于synchronized的两条规定: 1.线程解锁前,必须把共享变量的最新值刷新到主内存中 2.线程加锁时,将清空工作内存中共享 ...
- 【自适应辛普森积分】hdu1724 Ellipse
Ellipse Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Sub ...
- 二、urllib进阶
Handler处理器 和 自定义Opener opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就 ...
- Swift百万线程攻破单例(Singleton)模式
一.不安全的单例实现 在上一篇文章我们给出了单例的设计模式,直接给出了线程安全的实现方法.单例的实现有多种方法,如下面: class SwiftSingleton { class var shared ...
- [Uva10294]Arif in Dhaka
[Uva10294]Arif in Dhaka 标签: 置换 Burnside引理 题目链接 题意 有很多个珠子穿成环形首饰,手镯可以翻转和旋转,项链只能旋转.(翻转过的手镯相同,而项链不同) 有n个 ...
- CentOS 设置网络(修改IP&修改网关&修改DNS)
CentOS修改IP地址 # ifconfig eth0 192.168.1.80 这样就把IP地址修改为192.168.1.80(如果发现上不了网了,那么你可能需要把网关和DNS也改一下,后面会提到 ...