R语言文本挖掘 tm包使用

#清除内存空间

rm(list=ls())

#导入tm包

library(tm)

library(SnowballC)

#查看tm包的文档

#vignette("tm")

##1.Data Import  导入自带的路透社的20篇xml文档

#找到/texts/crude的目录，作为DirSource的输入，读取20篇xml文档

reut21578 <- system.file("texts", "crude", package = "tm")

reuters <- Corpus(DirSource(reut21578), readerControl = list(reader = readReut21578XML))

##2.Data Export  将生成的语料库在磁盘上保存成多个纯文本文件

writeCorpus(reuters)

##3.Inspecting Corpora 查看语料库

#can use inspect(),print(),summary()

#由于是从xml读取过来，所以现在的corpus还是非常杂乱

inspect(reuters)

print(reuters)

summary(reuters)

##4.Transformations

#对于xml格式的文档用tm_map命令对语料库文件进行预处理，将其转为纯文本并去除多余空格，

#转换小写，去除常用词汇、合并异形同意词汇，如此才能得到类似txt文件的效果

#可以用inspect(reuters)查看此时的效果，明显好很多

reuters <- tm_map(reuters, as.PlainTextDocument)#将reuters转化为纯文本文件，去除标签

reuters <- tm_map(reuters, stripWhitespace)#去掉空白

reuters <- tm_map(reuters, tolower)#转换为小写

reuters <- tm_map(reuters, removeWords, stopwords("english"))#去停用词

#采用Porter's stemming 算法 提取词干

#Stem words in a text document using Porter's stemming algorithm

#install.packages("SnowballC")

tm_map(reuters, stemDocument)

##5.Creating Term-Document Matrices

#将处理后的语料库进行断字处理，生成词频权重矩阵(稀疏矩阵)也叫词汇文档矩阵

dtm <- DocumentTermMatrix(reuters)

#查看词汇文档矩阵

inspect(dtm[1:5, 100:105])

#Non-/sparse entries: 1990/22390     ---非0/是0

#Sparsity           : 92%            ---稀疏性  稀疏元素占全部元素的比例

#Maximal term length: 17             ---切词结果的字符最长那个的长度

#Weighting          : term frequency (tf)

#如果需要考察多个文档中特有词汇的出现频率，可以手工生成字典，

#并将它作为生成矩阵的参数

d<-c("price","crude","oil","use")

inspect(DocumentTermMatrix(reuters,control=list(dictionary=d)))

##6.Operations on Term-Document Matrices

#找出次数超过5的词

findFreqTerms(dtm, 5)

#找出与‘opec’单词相关系数在0.8以上的词

findAssocs(dtm,"opec",0.8)

#因为生成的矩阵是一个稀疏矩阵，再进行降维处理，之后转为标准数据框格式

#我们可以去掉某些出现频次太低的词。

dtm1<- removeSparseTerms(dtm, sparse=0.6)

inspect(dtm1)

data <- as.data.frame(inspect(dtm1))

#再之后就可以利用R语言中任何工具加以研究了，下面用层次聚类试试看

#先进行标准化处理，再生成距离矩阵，再用层次聚类

data.scale <- scale(data)

d <- dist(data.scale, method = "euclidean")

fit <- hclust(d, method="ward.D")

#绘制聚类图

#可以看到在20个文档中，489号和502号聚成一类，与其它文档区别较大。

plot(fit,main ="文件聚类分析")

#主成分分析

ozMat <- TermDocumentMatrix(makeChunks(reuters, 50),

                            list(weighting = weightBin))

k <- princomp(as.matrix(ozMat), features = 2)

screeplot(k,npcs=6,type='lines')

windows()

biplot(k)

R语言文本挖掘 tm包使用的更多相关文章

R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法（与word2vec简单比较）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- <数据挖掘之道>摘录话语:虽然我比 ...
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+Sn ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
R语言·文本挖掘︱Rwordseg/rJava两包的安装（安到吐血）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava ...
R语言中文分词包jiebaR
R语言中文分词包jiebaR R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据 ...
R语言︱H2o深度学习的一些R语言实践——H2o包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例笔者寄语:受启发 ...
R语言：recommenderlab包的总结与应用案例
R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算 ...
使用R语言的RTCGA包获取TCGA数据--转载
转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因 ...
R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）
利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2. 1.安装并加载jiebaR install.packages("jie ...

随机推荐

if语句中同时判断多个条件的多种方法
总结一下自己经常用到的python中的if语句同时判断多个条件的不同方法,假设有: x, y, z = 0, 1, 0 方法一,多个逻辑运算符一起使用,这也是最常用的写法: if x == 1 or ...
结合apache安装subversion
########下载源代码包##########wget http://subversion.tigris.org/downloads/subversion-1.6.15.tar.gz;wget ht ...
使用py2exe发布windows平台Python
一.简介 py2exe是一个将python脚本转换成windows上的可独立执行的可执行程序(*.exe)的工具,这样,你就可以不用装python而在windows系统上运行这个可执行程序.py2ex ...
2017年总结的前端文章——CSS盒模型详解
CSS的盒模型是CSS的基础,同时也是难点,这个问题经常在面试中会被问到,属于经典问题了.很多博客里讲得也很模糊不清,于是,我在这里重新整理一下. 可以认为每个html标签都是一个方块,然后这个方块又 ...
java windows自动化-mail自动发邮件
本文旨在让测试人员了解如何发邮件发邮件的话,最简单的事是直接手动发邮件,但是在自动化测试中,应做到让机器或者代码来自动发送邮件,笔者大概了解以下几种方法,总有一款口味适合你:1java代码来做下面即 ...
pyhton:图像旋转
最近一个作业中要用到图像旋转,分享一下学习过程.如有讲错的地方,恳请指正! 图像旋转,想想真简单啊,不就是将图像矩阵乘上一个旋转平移矩阵就完了吗?实际上还真没这么简单.首先这个旋转平移矩阵怎么获得?通 ...
xml对象序列化
public static class XSerializer { /// <summary> /// 将对象序列化为xml字符串 /// </summary> /// < ...
Centos7安装GitLab
GitLab CE Download Archives gitlab安装调试小记 Gitlab Free Trial GitLab搭建手记 Gitlab社区版的使用 GUI PNG Gitlab升级到 ...
centos7设置静态ip
动态ip可以上网.静态ip设置成功后,发现不能上网. 1.首先查看动态ip的默认网关 cat /etc/resolv.conf 2.设置配置文件在 /etc/sysconfig/network-sc ...
Dynamics CRM 2015-Ribbon In Basic Home Tab
前文中有说到关于Form上Ribbon的配置以及控制,而Ribbon Button还可以在其它地方的配置,今天就来说说在Basic Home Tab里面的配置,效果图如下: 具体配置Customiza ...

R语言 文本挖掘 tm包 使用

R语言 文本挖掘 tm包 使用的更多相关文章

随机推荐

热门专题

R语言文本挖掘 tm包使用

R语言文本挖掘 tm包使用的更多相关文章