在使用R做数据挖掘时，最常用的数据结构莫过于dataframe了，下面列出几种常见的dataframe的操作方法

原网址 http://blog.sina.com.cn/s/blog_6bb07f83010152z0.html

在使用R做数据挖掘时，最常用的数据结构莫过于dataframe了，下面列出几种常见的dataframe的操作方法。
1.查看数据

head(dataframe) # 查看数据前10行
tail(dataframe) # 查看数据后10行

2.合并数据
(1)data.frame(x,y)
x,y是dataframe或者一列数据，x和y的行数一样，该操作得到一个新的dataframe，
该dataframe是x和y拼合而成，行数与x/y的行数相同，列数为x和y的列数和。
例：

 > x<-c(1:10) > y<-x^2 > newdata<-data.frame(x,y) > head(newdata) x y 1 1 1 2 2 4 3 3 9 4 4 16 5 5 25 6 6 36 > z<-c(2:11) > newdata<-data.frame(newdata, z) > head(newdata) x y z 1 1 1 2 2 2 4 3 3 3 9 4 4 4 16 5 5 5 25 6 6 6 36 7

(2)cbind(x,y)
等同于data.frame(x,y)

(3)rbind(x,y)
x，y均为data.frame，要求x和y的列向量个数一致，该操作得到一个新的dataframe，
该dataframe是x和y的数据拼接起来，行数等于x和y的行数之和，列数等于x/y的列数
例：

 > t<-c(0,0,0) > newdata<-rbind(newdata, t) > newdata x y z 1 1 1 2 2 2 4 3 3 3 9 4 4 4 16 5 5 5 25 6 6 6 36 7 7 7 49 8 8 8 64 9 9 9 81 10 10 10 100 11 11 0 0 0

3.筛选数据
（1）subset：从一个dataframe中筛选出符合条件的数据

 > newdata x y z 1 1 1 2 2 2 4 3 3 3 9 4 4 4 16 5 5 5 25 6 6 6 36 7 7 7 49 8 8 8 64 9 9 9 81 10 10 10 100 11 11 0 0 0

 > newdata.subset<-subset(newdata, z>5) > newdata.subset x y z 5 5 25 6 6 6 36 7 7 7 49 8 8 8 64 9 9 9 81 10 10 10 100 1

 > subset(newdata, z>6&x>8) x y z 9 9 81 10 10 10 100 11

 > subset(newdata, z>6|x!=0) x y z 1 1 1 2 2 2 4 3 3 3 9 4 4 4 16 5 5 5 25 6 6 6 36 7 7 7 49 8 8 8 64 9 9 9 81 10 10 10 100 11

（2）transform:对一个dataframe做一些变换

 > newdata.tran x y z newx 1 1 1 2 -1 2 2 4 3 -2 3 3 9 4 -3 4 4 16 5 -4 5 5 25 6 -5 6 6 36 7 -6 7 7 49 8 -7 8 8 64 9 -8 9 9 81 10 -9 10 10 100 11 -10 11 0 0 0 0 > newdata.tran<-transform(newdata, newx=-x, newy=log(y)) > newdata.tran x y z newx newy 1 1 1 2 -1 0.000000 2 2 4 3 -2 1.386294 3 3 9 4 -3 2.197225 4 4 16 5 -4 2.772589 5 5 25 6 -5 3.218876 6 6 36 7 -6 3.583519 7 7 49 8 -7 3.891820 8 8 64 9 -8 4.158883 9 9 81 10 -9 4.394449 10 10 100 11 -10 4.605170 11 0 0 0 0 -Inf

 4.去除重复数据

 > x<-c(1,0,1,0); > y<-c(0,0,1,0) > test<-data.frame(x,y) > test x y 1 1 0 2 0 0 3 1 1 4 0 0 > duplicated(test) [1] FALSE FALSE FALSE TRUE

 > test1<-test[which(!duplicated(test)),] > test1 x y 1 1 0 2 0 0 3 1 1


5.两种数据按照指定key聚合

（1）merge > z # z是一个dataframe

x y
1 1 5
2 2 9
3 3 4

> w # w是一个dataframe
w1 w2
1 5 2.5
2 4 2.0
3 9 3.0

现在想将w的第二列按照z的第二列和w的第一列的对应关系合并到z里面
即变成：
x y w2
1 1 5 2.5
2 2 9 3.0
3 3 4 2.0

merge(z, w, by.x='y', by.y='w1', sort=F)
y x w2
1 5 1 2.5
2 9 2 3.0
3 4 3 2.0

  6.数据聚合，融合（需要载入reshape包）

  （1）melt(data, id.vars, measure.vars)
      data以id.vars指定的列为key，将measure.vars指定的列做拆分，以前的key->a1,a2,...aN 拆成 key->a1, key->a2, ..., key->aN。在拆分   的时候增加一个label，表明a1，a2,...,aN来源于以前的data中的哪一列。
  例：df是一个dataframe，包含x，y坐标，对应的label，以及用logit和svm预测的结果，我们希望按照x，y把一行数据按照label,logit,svm拆成三行数据，分别用不同的标号代表来源于label、logit还是svm，然后用另外一个标号表示原来label，logit，svm的取值，因此原来2500行的数据会被拆分成7500个(2500*3)，同时原来5列变量变成4列变量（x，y，值来源于哪一列，该列的取值）

 > head(df) X Y Label Logit SVM 1 0.2655087 0.52601906 1 0 1 2 0.3721239 0.07333542 1 0 1 3 0.5728534 0.84974175 1 0 1 4 0.9082078 0.42305801 0 0 0 5 0.2016819 0.98809607 0 0 1 6 0.8983897 0.47887413 0 0 0 > dim(df) [1] 2500 5 > predictions <- melt(df, id.vars = c('X', 'Y')) > head(predictions) X Y variable value 1 0.2655087 0.52601906 Label 1 2 0.3721239 0.07333542 Label 1 3 0.5728534 0.84974175 Label 1 4 0.9082078 0.42305801 Label 0 5 0.2016819 0.98809607 Label 0 6 0.8983897 0.47887413 Label 0 > dim(predictions) [1] 7500 4 > table(predictions$variable) Label Logit SVM 2500 2500 250

（2）cast

head(installations)

# Package User Installed

#1 abind 1 1

#2 AcceptanceSampling 1 0

#3 ACCLMA 1 0

#4 accuracy 1 1

#5 acepack 1 0

#6 aCGH.Spline 1 0

# Ninth code snippet

library('reshape')

# user和Package构成一个矩阵，矩阵的数值用installed列对应的数填充,即matrix(i,j)表示用户i是否有安装packagej

user.package.matrix <- cast(installations, User ~ Package, value = 'Installed') 

user.package.matrix[, 1] # 第一列表示user的编号

# [1] 1 3 4 5 6 7 8 9 11 13 14 15 16 19 21 23 25 26 27 28 29 30 31 33 34

#[26] 35 36 37 40 41 42 43 44 45 46 47 48 49 50 51 54 55 56 57 58 59 60 61 62 63

#[51] 64 65

user.package.matrix[, 2] # 后面n列表示每个user是否有按照某个Package包

# [1] 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 0 1 0 1 1 1 1 1 1

#[39] 1 1 1 1 1 1 1 1 0 1 1 1 1 1

在使用R做数据挖掘时，最常用的数据结构莫过于dataframe了，下面列出几种常见的dataframe的操作方法的更多相关文章

R语言学习路线和常用数据挖掘包（转）
对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来.当然,这不是最好的学习方式,最好的方式是——看书.目前,市面上介绍R语言的 ...
一篇文章教你如何用R进行数据挖掘
一篇文章教你如何用R进行数据挖掘引言 R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来.得益于全世界众多爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器 ...
一小时了解数据挖掘⑤数据挖掘步骤＆常用的聚类、决策树和CRISP-DM概念
一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例一小时了解数据挖掘②:分类算法的应用和成熟案例解析 ...
例举在诊断Oracle性能问题时，常用的工具、方法
例举在诊断Oracle性能问题时,常用的工具.方法解答: 1)简单一点的可以用toad及dbartisan这样的工具. 2)纯做性能监测,比较出色的有spolight和emc的I3,这两个软件都比较 ...
做dg时遇到的log_archive_dest、log_archive_dest_1、db_recovery_file_dest之间互相影响
前提:归档开启.默认不指定归档文件夹. 今晚遇到客户那里设置了闪回区和log_archive_dest.不停库做DG时,无法指定log_archive_dest_n參数,巨坑. .实验了下.结论例如以 ...
复习做UWP时涉及到的几种加密签名相关
本人菜鸟一枚,大学里凭兴趣学了一点WP的皮毛,后来又幸运(或者不幸)的进了一家专注于Windows生态的公司做了一段时间的UWP.在博客园写点自己遇到的东西,作为分享,也作为自己的备忘,如果有错误的地 ...
MySQL做练习时总结的一些知识点
MySQL做练习时总结的一些知识点 0:mysql有三种注释方法上午插入记录的时候一直没有成功,郁闷不知道为什么.因为是很多条记录一起插入,中间一些不用的数据就用"--" ...
使用C++做算法时，对内存的管理的办法
使用C++做算法时,对内存的管理的办法最近老是在想C++的内存控制机制,查了一些资料所以有点想法,自己记录一下免得以后自己忘了. 1. 需求在做线性代数的算法时,首要的就实现Matrix这个类.由 ...
angular中service封装$http做权限时拦截403等状态及获取验证码倒计时、跨域问题解决
封装$http.做权限时拦截403等状态及获取验证码倒计时: 拦截接口返回状态 var app = angular.module('app'); app.factory('UserIntercepto ...

随机推荐

RabbitMQ概念及环境搭建（三）RabbitMQ cluster
测试环境:VMS00781 VMS00782 VMS00386 (centos5.8) 1.先在三台机器上分别安装RabbitMQ Server 2.读取其中一个节点的cookie,并复制到其他节点( ...
C# 动态创建SQL数据库（二）在.net core web项目中生成二维码后台Post/Get 请求接口方式 WebForm 页面ajax 请求后台页面方法实现输入框小数多自动进位展示，编辑时实际值不变快速掌握Gif动态图实现代码 C#处理和对接HTTP接口请求
C# 动态创建SQL数据库(二) 使用Entity Framework 创建数据库与表前面文章有说到使用SQL语句动态创建数据库与数据表,这次直接使用Entriy Framwork 的ORM对象关 ...
Python学习笔记——MySQL的基本操作（2）
1 运算符操作(配合查.修.删操作) 数据库的语法结构查:select * from 表名 where 字段名运算符数字/字符; 改:update 表名 set 字段名=值,... wher ...
Win8.1设置ftp服务器并设定用户操作权限的详细教程
http://wenku.baidu.com/link?url=VTDLnDa_yfQN9OldjVnYsOBf7UdIj76QjaLDyHP-I0A6iFEfzB8EyBf9uztwm2JDXlFL ...
Shell习题100例（2）
找文件差异 grep -f 选项可以匹配到文件a在文件b中所有相关的行(取a中有b中有的) [root@centos-04 tmp]# vim b.txt vvvv root [root@centos ...
Scanner类nextInt方法的使用注意点
一.先看一段正常的代码 1. 一段用Scanner捕获键盘输入的代码: Scanner sc = new Scanner(System.in); // 先读取键盘输入的字符串 System.out.p ...
Sql 列转行三种方法对比
合并列值 --******************************************************************************************* ...
软件测试自动化之- 基于反射的UI自动化测试框架 - UI Automation Test Framework
测试自动化程序的任务基于反射的ui测试自动化程序,要完成的6项任务: 通过某种方式从测试套件程序中运行待测程序(AUT: Applicaton Under Test),以便于两个程序之间进行通信操 ...
unity5 Text
unity5中,添加Text对象: 在其它对象的脚本中如果想引用此Text,则应定义: public UnityEngine.UI.Text myText; 然后把对象拖到变量上即可. 注: 1,需要 ...
Android Gradle 引用本地 AAR 的几种方式
折衷方案: 1.方式2 - 不完美解决办法2 2.再使用"自定义Gradle代码"来减轻重复设置的问题. 自定义Gradle代码如下: repositories { flatDir ...

在使用R做数据挖掘时，最常用的数据结构莫过于dataframe了，下面列出几种常见的dataframe的操作方法

在使用R做数据挖掘时，最常用的数据结构莫过于dataframe了，下面列出几种常见的dataframe的操作方法的更多相关文章

随机推荐

热门专题