R语言文本数据挖掘(二)】的更多相关文章

每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:本文大多内容来自未出版的<数据挖掘之道>的情感分析章节.本书中总结情感分析算法主要分为两种:词典型+监督算法型. 监督算法型主要分别以下几个步骤: 构建训练+测试集+特征提取(TFIDF指标)+算法模型+K层交叉验证.可与博客对着看:R语言︱词典型情感分析文本操作技巧汇总(打标签.词典与数据匹配等) ----------------…
R语言语法基础二 重塑数据 增加行和列 # 创建向量 city = c("Tampa","Seattle","Hartford","Denver") state = c("FL","WA","CT","CO") zipcode = c(33602, 98104, 06161, 80294) # 组合向量成数据帧 address1 = cbind(c…
处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本.R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍.幸运的是R语言的可扩展能力很强,DNA/RNA/AA等生物序列现在已经可以使用R来处理. nchar 字符的个数 toupper 转换为大写字符 tolower 转换为小写字符 substr 求字符串的字串 grep 基于正则表达式的匹配 sub 基于正则表达式的替换 strsplit 字符串分割 paste 字符向量连接 match…
本文对应<R语言实战>第4章:基本数据管理:第5章:高级数据管理 创建新变量 #建议采用transform()函数 mydata <- transform(mydata, sumx = x1 + x2, meanx = (x1 + x2)/2) 重编码 < 小于 <= 小于或等于 > 大于 >= 大于或等于 == 严格等于(比较浮点类型时慎用,易误判) != 不等于 !x 非x x | y x或y x & y x和y isTRUE(x) x是否为TRUE…
1.help可以提供帮助,如help(nchar), help("[["),或者用?nchar也能获取帮助.example(nchar)可以获取到某个主题的使用方法. 2.nchar获取字符串的长度,nchar(x)返回x中每个字符串的长度,length获取向量的长度,区别如下: > nchar("hello") [1] 5 > nchar(3) [1] 1 > nchar(3000) [1] 4 > help(nchar) > nch…
1. 入门 将摄氏度转化为华氏度 >> 27*1.8+32 [1] 80.6 [1]:表示数字的向量索引号,在 R 语言中任何一个数字都看作一个向量. 向量化 >> temp <- c(27, 29, 23, 14) >> temp * 1.8 + 32 [1] 80.6 84.2 73.4 57.2 c()在这里是一个函数(combine 的缩写),而且是泛型函数,用于对参数的连接, c(..., recursive = FALSE) 再来看一个操作: >…
一.R中数据结构 1.数据集 通常是由数据构成的一个矩形数组,行 表示 观测(记录.示例),列 表示 变量(字段.属性) 2.R中的数据结构 3.向量 c()可以用来创建向量 > a <- c(1,2,5,3,6,-2,4) > b <- c("one","two","three") > c <- c(TRUE,TRUE,TRUE,FALSE,TRUE,FALSE) 访问向量中的元素> a[c(2,4)]…
R中的数据结构:标量,向量,数组,数据框,列表 1. 向量:储存数值型,字符型,或者逻辑型数据的一维数组,用c()创建 **  R中没有标量,标量以单元素向量的形式出现 2. 矩阵:二维数组,和向量一样只能是相同模式, 可用matrix() 创建 #byrow指定是否按行填充,默认是按列填充,dimnames包含可选的字符向量型列名和行名 mymatrix <- matrix(vector, nrow = number_of_rows, ncol = number_of_columns, byr…
2.1 数据集的概念 不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable),数据库分析师则称其为记录(record)和字段(field),数据挖掘和机器学习学科的研究者则把它们叫作示例(example)和属性(attribute). R中有许多用于存储数据的结构,包括标量.向量.数组.数据框和列表.多样化的数据结构赋予了R极其灵活的数据处理能力. R可以处理的数据类型(模式)包括数值型.字符型.逻辑型(TRUE/FALSE).复数型(虚数…
4.对象改值 4.1.就地改值 比如: vec <- c(0,0,0,0,0,0,0) vec[1]<-100 #vec向量的第一个值就变为100 ####对于数据框的改值的方法,如下面的例子 df <- data.frame(face=c("ace","two","six"),suit=c("clubs","clubs","clubs"),values=c(1,2,3…