R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里我们主要讲的是它对数据框结构的快捷处理. 和data.frame的高度兼容…
    R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里我们主要讲的是它对数据框结构的快捷处理. 和data.frame的高度兼容 DT = data.table(x=rep(c("b&…
数据框(data.frame)是最常用的数据结构,用于存储二维表(即关系表)的数据,每一列存储的数据类型必须相同,不同数据列的数据类型可以相同,也可以不同,但是每列的行数(长度)必须相同.数据框的每列都有唯一的名字,在已创建的数据框上,用户可以添加计算列,这样,R引擎根据同一行的数据列,计算出表达式的值,并把该值作为计算列的值.数据框是数据分析中最重要的数据对象,必须熟练掌握数据框的操作. 一,创建数据框 创建数据框,常用的方式是:读取文件.读取关系表和使用函数创建,用户应根据实际的需要,选择合…
R语言处理大规模数据速度不算快,通过安装其他包比如data.table可以提升读取处理速度. 案例,分别用read.csv和data.table包的fread函数读取一个1.67万行.230列的表格数据. # 用read.csv读取数据timestart<-Sys.time() data <- read.csv("XXXXs.csv",header = T,stringsAsFactors = F) timeend<-Sys.time() runningtime<…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 由于业务中接触的数据量很大,于是不得不转战开始寻求数据操作的效率.于是,data.table这个包就可以很好的满足对大数据量的数据操作的需求. data.table可是比dplyr以及Python中的pandas还好用的数据处理方式. 网络上充斥的是data.table很好,很棒,性能棒之类的,但是从我实际使用来看,就得泼个水,网上博客都是拿一…
R语言数据分析系列之五 -- by comaple.zhang 本节来讨论一下R语言的基本图形展示,先来看一张效果图吧. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt=""> 这是一张用R语言生成的,虚拟的wordcloud云图,详细实现细节请參见我…
R语言数据分析系列六 -- by comaple.zhang 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候怎样下手分析,数据分析的第一步.探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标.经常使用的例如以下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差.极差,偏度,峰度 先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的 众数:出现次数最多的 方差:每一个样本值与均值的差得平方和的平均数 标准差:又称均方差,是方差的二次方根.用来衡量一个数据集的…
R语言入门级实例——用igragh包分析社群 引入—— 本文的主要目的是初步实现R的igraph包的基础功能,包括绘制关系网络图(social relationship).利用算法进行社群发现(community detecting).对于R语言零基础的同学非常友好.以下R代码中如有含义不清的,建议尝试先在R编辑器中输入?xxx()进行查询(xxx是函数或语句名).此外,stackflow论坛也帮博主小白看懂了不少报错信息. 主要参考资料为<R语言与网站分析>[李明著][机械工业出版社][20…
data.table包主要特色是:设置keys.快速分组和滚得时序的快速合并.data.table主要通过二元检索法大大提高数据操作的效率,同时它也兼容适用于data.frame的向量检索法. require(data.table) ## Loading required package: data.table 1.创建data.table格式数据 类似于data.frame数据的创建,使用data.table函数 (DF = data.frame(x=c("b","b&qu…
在第一节中,我们回顾了许多用于操作数据框的内置函数.然后,了解了 sqldf 扩展包,它使得简单的数据查询和统计变得更简便.然而,两种方法都有各自的局限性.使用内置函数可能既繁琐又缓慢,而相对于各式各样的 R 函数来说,SQL 又不够强大,所以用 sqldf 进行数据的汇总统计,也不容易.data.table 包提供了一个加强版的 data.frame.它运行效率极高,而且能够处理适合内存的大数据集,它通过 [ ] 实现了一种自然的数据操作语法.如果尚未安装,请运行以下命令:install.pa…