sparkr跑通函数包含排序

spark1.4.0的sparkR的思路：用Spark从大数据集中抽取小数据（sparkR的DataFrame），然后到R里分析（DataFrame）。

这两个DataFrame是不同的，前者是分布式的，集群上的DF，R里的那些包都不能用；后者是单机版的DF，包里的函数都能用。

sparkR的开发计划，个人觉得是将目前包里的函数，迁移到sparkR的DataFrame里，这样就打开一片天地。

> a<- sql(hiveContext, "SELECT count(*) FROM anjuke_scores where restaurant>=10");

> a<- sql(hiveContext, "SELECT * FROM anjuke_scores limit 5")

> a

DataFrame[city:string, housingname:string, ori_traffic_score:int, ori_traffic_score_normal:double, metro_station:double, metro_station_normal:double,...

> first(a)  #显示Formal Data Frame的第一行

> head(a) ; #列出a的前6行
> columns(a) # 列出全部的列
[1] "city" "housingname" "ori_traffic_score" "ori_traffic_score_normal"

[5] "metro_station" "metro_station_normal" "bus_station" "bus_station_normal" ...

> showDF(a)

> b<-filter(a, a$ori_comfort>8); # 行筛选， ori_comfort_normal:double

> print(a);    #打印列名及类型

DataFrame[city:string, housingname:string, ori_traffic_score:int, ......

> printSchema(a);  # 打印列名的树形框架概要  root |-- city: string (nullable = true) |-- housingname: string (nullable = true) |-- ori_traffic_score: integer (nullable = true) |-- ori_traffic_score_normal: double (nullable = true) |-- metro_station: double (nullable = true)

> take(a,10) ; # 提取Formal class DataFrame的前面num行，成为R中普通的 data frame ， take(x, num)

city                  housingname ori_traffic_score ori_traffic_score_normal metro_station metro_station_normal
1 \t\x9a                   \xddrw\xb8                NA                        0            NA                    0
2 \t\x9a         \xe4\xf04\u03a2\021~                NA                        0            NA                    0
3 \t\x9a                \xf6\xe3w\xb8                NA                        0            NA                    0
4 \t\x9a               \x8e=\xb0w\xb8                NA                        0            NA                    0
5 \t\x9a \t\x9a\xe4\xf04\xce\xe4\xf0~                NA                        0            NA                    0
6 \t\x9a                      q4\xfdE                NA                        0            NA                    0
7 \t\x9a                \xe4\xf04\xce                NA                        0            NA                    0
8 \t\x9a                      )\xfdVT                NA                        0            NA                    0
9 \t\x9a                       q\177V                NA                        0            NA                    0
10 \t\x9a           \xe4\xf04\xceW\xb8                NA                        0            NA                    0

> b<-take(a,10)

> dim(b)

[1] 10 41

> aa <- withColumn(a, "ori_comfort_aa", a$ori_comfort * 5)   #用现有的列生成新的列, 新增一列，ori_comfort_aa，结果还是Formal data frame结构

> printSchema(aa)

root

 |-- city: string (nullable = true)

.........

 |-- comfort_normal: double (nullable = true)

 |-- ori_comfort_aa: double (nullable = true)

> aa <- mutate(a, newCol1 = a$commerce_normal * 5, newCol2 = a$bank_normal * 2) ； #与withColumn类似
> printSchema(aa)
root
|-- city: string (nullable = true)
。。。。。。。。。。。。。。。。。。
|-- comfort_normal: double (nullable = true)
|-- newCol1: double (nullable = true)
|-- newCol2: double (nullable = true)

a1<-arrange(a,asc(a$level_tow)); # 按列排序， asc升序，desc降序

a1<-orderBy(a,asc(a$level_tow)); # 按列排序

count(a) ; # 统计 Formal Data Frame有多少行数据

> dtypes(a);  #以list的形式列出Formal Data Frame的全部列名及类型

[[1]]

[1] "city"   "string"

[[2]]

[1] "housingname" "string"

> a<-withColumnRenamed(a,"comfort_normal","AA");  # 更改列名

> printSchema(a)

root

 |-- city: string (nullable = true)

 |-- housingname: string (nullable = true)

..........

 |-- AA: double (nullable = true)

创建sparkR的数据框的函数createDataFrame

> df<-createDataFrame(sqlContext,a.df);  # a.df是R中的数据框， df是sparkR的数据框，注意：使用sparkR的数据库，需要sqlContext

> str(a.df)
'data.frame': 5 obs. of 41 variables:

> str(df)
Formal class 'DataFrame' [package "SparkR"] with 2 slots
..@ env:<environment: 0x4fce350>
..@ sdf:Class 'jobj' <environment: 0x4fc70b0>

> destDF <- select(SFO_DF, "dest", "cancelled"); #选择列

> showDF(destDF); #显示sparkR的DF
+----+---------+
|dest|cancelled|
+----+---------+
| SFO| 0|
................

> registerTempTable(SFO_DF, "flightsTable"); #要对sparkDF使用SQL语句，首先需要将DF注册成一个table

> wa <- sql(sqlContext, "SELECT dest, cancelled FROM flightsTable"); #在sqlContext下使用SQL语句

> showDF(wa);   #查询的结果还是sparkDF
+----+---------+
|dest|cancelled|
+----+---------+
| SFO|        0|
................
> local_df <- collect(wa);   #将sparkDF转换成R中的DF
> str(local_df)
'data.frame':   2818 obs. of 2 variables:
$ dest     : chr "SFO" "SFO" "SFO" "SFO" ...
$ cancelled: int 0 0 0 0 0 0 0 0 0 0 ...

> wa<-flights_df[1:1000,];   #wa是R中的DF
> flightsDF<-createDataFrame(sqlContext,wa) ;   #flightsDF是sparkR的DF
> library(magrittr); #管道函数的包对sparkRDF适用
> groupBy(flightsDF, flightsDF$date) %>%
+     summarize(avg(flightsDF$dep_delay), avg(flightsDF$arr_delay)) -> dailyDelayDF; #注意，语法和dplyr中的有所不同，结果还是sparkRDF
> str(dailyDelayDF)
Formal class 'DataFrame' [package "SparkR"] with 2 slots
..@ env:<environment: 0x4cd3118>
..@ sdf:Class 'jobj' <environment: 0x4cd6968>
> showDF(dailyDelayDF)
+----------+--------------------+--------------------+
|      date|      AVG(dep_delay)|      AVG(arr_delay)|
+----------+--------------------+--------------------+
|2011-01-01|                 5.2|                 5.8|
|2011-01-02| 1.8333333333333333|                -2.0|
................

在39机器上跑的

collect将sparkDF转化成DF
Collects all the elements of a Spark DataFrame and coerces them into an R data.frame.
collect(x, stringsAsFactors = FALSE)，x：A SparkSQL DataFrame

> dist_df<- sql(hiveContext, "SELECT * FROM anjuke_scores where restaurant<=1");
> local_df <- dist_df %>%
groupBy(dist_df$city) %>%
summarize(count = n(dist_df$housingname)) %>%
collect
> local_df
city count
1 \t\x9a 5
2 8\xde 7
3 \xf0\xde 2
..........
..........

take也可将sparkDF转化成DF
Take the first NUM rows of a DataFrame and return a the results as a data.frame
take(x, num)

> local_df <- dist_df %>%
groupBy(dist_df$city) %>%
summarize(count = n(dist_df$housingname))
> a<-take(local_df,100)
[Stage 16:=========================================> (154 + 1) / 199] > View(a)
> a
city count
1 \t\x9a 5
2 8\xde 7
3 \xf0\xde 2
..........
..........

不通的函数：

> describe(a)

Error in x[present, drop = FALSE] :

  object of type 'S4' is not subsettable

> jfkDF <- filter(flightsDF, flightsDF$dest == "DFW")

Error in filter(flightsDF, flightsDF$dest == "DFW") :

  no method for coercing this S4 class to a vector

sparkr跑通函数包含排序的更多相关文章

sparkR 跑通的函数
spark1.4.0的sparkR的思路:用spark从大数据集中抽取小数据(sparkR的DataFrame),然后到R里分析(DataFrame). 这两个DataFrame是不同的,前者是分布式 ...
CocoStuff—基于Deeplab训练数据的标定工具【二、用已提供的标注数据跑通项目】
一.说明本文为系列博客第二篇,主要讲述笔者在使用该团队提供已经标注好的COCO数据集进行训练的过程. 由于在windows中编译Caffe和Deeplab特别的麻烦,笔者并没有去探索,后续可能会去尝 ...
师傅领进门之6步教你跑通一个AI程序！
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云计算基础发表于云+社区专栏源码下载地址请点击原文查看. 初学机器学习,写篇文章mark一下,希望能为将入坑者解点惑.本文介绍一些机 ...
Ubuntu下跑通py-faster-rcnn、详解demo运作流程
在不同的服务器不同的机器上做过很多次实验,分别遇到各种不一样的错误并且跑通Py-Faster-RCNN,因此,在这里做一个流程的汇总: 一.下载文件: 首先,文件的下载可以有两种途径: 1.需要在官网 ...
使用sort函数进行排序
介绍 C++的一个重要组成部分STL(Standard Template Library),即标准模板库,是一些高级数据结构和算法的集合:高级数据结构(容器)主要包括list.set.vector.m ...
Truffle3.0集成NodeJS并完全跑通（附详细实例，可能的错误）
Truffle3.0集成NodeJS并完全跑通(附详细实例,可能的错误) Truffle3.0集成NodeJS并完全跑通(附详细实例,可能的错误) 升级到Truffle3.0 如果之前安装的是Truf ...
Windows下用cpu模式跑通目标检测py-faster-rcnn 的demo.py
关键字:Windows.cpu模式.Python.faster-rcnn.demo.py 声明:原文发表在博客园,未经允许不得转载!!!本篇blog过程已经多名读者实践验证,有人反馈报错TypeErr ...
Python的lambda函数与排序
Python的lambda函数与排序 2010-03-02 15:02 2809人阅读评论(0) 收藏举报 lambdapythonlistlispclass工作目录(?)[+] 前几天 ...
顶级测试框架Jest指南：跑通一个完美的程序，就是教出一群像样的学生
facebook三大项目:yarn jest metro,有横扫宇宙之势. 而jest项目的宗旨为:减少测试一个项目所花费的时间成本和认知成本. --其实,它在让你当一个好老师. jest文档非常简略 ...

随机推荐

Java数据结构和算法（十）：二叉树
一.简介二叉树是树这种数据结构的一员,后面我们还会介绍红黑树,2-3-4树等数据结构.那么为什么要使用树?它有什么优点? 前面我们介绍数组的数据结构,我们知道对于有序数组,查找很快,并介绍可以通过二 ...
Eclipse_Configure
原文链接:http://android.eoe.cn/topic/android_sdk 1. 下载Eclipse 在前面我们配置好了JDK环境后,就可以开始配置Android的集成开发环境了,官方G ...
[MeetCoder] Count Pairs
Count Pairs Description You are given n circles centered on Y-aixs. The ith circle’s center is at po ...
深入理解Linux内核－内存管理
内核如果给自己分配动态内存动态内存:RAM的某些部分被永久打分配给内核,用来存放内核代码以及静态内核数据结构:剩余的部分被称为动态内存连续物理内存区管理: 页框管理:1.页大小的选择,通常情况下主 ...
Python运维自动化开发之Fabric模块
本章讲解fabric模块,与上一章的paramiko模块功能类似,fabric是在paramiko基础上又做了一层封装,操作起来更方便.主要用于多台服务器批量执行任务. 非内置Python模块,需要手 ...
javascript基础拾遗(二)
1.对象定义定义属性 var language = { name:'javascript', score:9.0 }; console.log(language.name) console.log( ...
Windows下搭建Android NDK开发环境及命令行编译
首先说明本文内的相关安装操作参考<Pro Android C++ with the NDK>一书. 安装 Windows搭建Android NDK开发环境需要安装如下部分(同时需要配置对应 ...
Unique constraint on single String column with GreenDao2
转:http://software.techassistbox.com/unique-constraint-on-single-string-column-with-greendao_384521.h ...
Office_Visio_Pro_2007
Office_Visio_Pro_2007http://pan.baidu.com/share/link?shareid=473782&uk=3474501992 解压后在文件夹里找到密钥[一 ...
在Mac系统下用STS搭建一个Spring MVC项目
[本文出自天外归云的博客园] 从STS的下载到空项目的搭建 1. 下载STS,下载解压缩后点击sts-bundle文件夹中的STS文件启动ide: 2. 创建Spring MVC项目:File-> ...

sparkr跑通函数 包含排序

sparkr跑通函数 包含排序的更多相关文章

随机推荐

热门专题

sparkr跑通函数包含排序

sparkr跑通函数包含排序的更多相关文章