Start SparkR in RStudio

Sys.setenv(SPARK_HOME="/usr/spark")

.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

library(SparkR)

sc<-sparkR.init(master="spark://Master.Hadoop:7077")

people <- read.df(sqlContext, "/people.json", "json") read json file

read csv file:

https://github.com/databricks/spark-csv

in shell:

sparkR --packages com.databricks:spark-csv_2.10:1.0.3

df <- read.df(sqlContext, "/test.csv", source = "com.databricks.spark.csv", inferSchema = "true") // read data in HDFS

in RStudio:

Sys.setenv(SPARK_HOME="/usr/spark")

.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

library(SparkR)

Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.3.0" "sparkr-shell"')

sc<-sparkR.init(master="spark://Master.Hadoop:7077")

sqlContext <- sparkRSQL.init(sc)

df <- read.df(sqlContext, "/test.csv", source = "com.databricks.spark.csv", inferSchema = "true")

write.df(df, "newcars.csv", "com.databricks.spark.csv", "overwrite")

Using R file
./sparkR --pakcages com.databricks:spark-csv_2.10:1.0.3 *.R (有时不灵。。some times cannot）


sparkR read files in one directory in HDFS:

df <- read.df(sqlContext, "/tdir/*.csv", source="com.databricks.spark.csv", interSchema="true")

or :

in the code: 
#!/usr/bin/Rscript

directly run R code
./*.R

http://thirteen-01.stat.iastate.edu/snoweye/hpsc/?item=rscript

Start SparkR in RStudio的更多相关文章

R︱Rstudio 1.0版本尝鲜（R notebook、下载链接、sparkR、代码时间测试profile）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 2016年11月1日,RStudio 1.0版 ...
sparkR读取csv文件
sparkR读取csv文件 The general method for creating SparkDataFrames from data sources is read.df. This met ...
shiny server SparkR web展示界面（二）
1. 需要先在Mac OS中安装好R,Rstudio中,这个比较简单,掠过 2. 下载编译好的spark(spark-2.0.0-bin-hadoop2.6.tgz)可以在Spark官网下载到你所需 ...
shiny server SparkR web展示界面（一）
1. shiny server简介 shiny-server是一种可用把R 语言以web形式展示的服务,下面就讲讲如何在自己的服务器上构建Shiny Server.下一篇主要介绍如何集成sparkR后 ...
SparkR安装部署及数据分析实例
1. SparkR的安装配置 1.1. R与Rstudio的安装 1.1.1. R的安装我们的工作环境都是在Ubuntu下操作的,所以只介绍Ubuntu下安装R的方法 ...
Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN
SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动创建 SparkDataFrames 从本地的 data fr ...
R︱sparkR的安装与使用、函数尝试笔记、一些案例
本节内容转载于博客: wa2003 spark是一个我迟早要攻克的内容呀~ ------------------------------------- 一.SparkR 1.4.0 的安装及使用 1. ...
SparkR链接mysql数据库（踩坑）
本文主要讲述sparkR链接Mysql的过程和坑. SparkR的开发可以用RStudio工具进行开发,连接spark可以通过RStudio界面中的Connections进行配置连接;具体方法这里不做 ...
Spark in action Spark 以及SparkR的安装配置说明
Spark以及SparkR的安装(standalone模式) From :ssdutsu @ Inspur Company suzhiyuan2006@gmail.com 操作系统 CentOS 7 ...

随机推荐

生产环境的redis高可用集群搭建
这里只是总结一下安装步骤如果要了解redis集群高可用的原理,推荐仔细看一遍配置文件示例http://download.redis.io/redis-stable/redis.conf,源码包里也有 ...
word2vec——高效word特征提取
继上次分享了经典统计语言模型,最近公众号中有很多做NLP朋友问到了关于word2vec的相关内容, 本文就在这里整理一下做以分享. 本文分为概括word2vec 相关工作模型结构 Count-ba ...
OpenCV Manager package was not found
http://www.tuicool.com/articles/322Yj2 !! [1]的底部就有解决办法,一般“\OpenCV-2.4.6-android-sdk\apk”这个路径下就是 Open ...
IRQ和FIQ中断的区别【转】
转自:http://blog.csdn.net/michaelcao1980/article/details/19542039 FIQ和IRQ是两种不同类型的中断,ARM为了支持这两种不同的中断,提供 ...
mmm hardware/libhardware_legacy/power/
android源码目录下的build/envsetup.sh文件,描述编译的命令 - m: Makes from the top of the tree. - mm: Buil ...
BZOJ 1047 理想的正方形(单调队列)
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=1047 题意:给出一个n*m的矩阵.在所有K*K的子矩阵中,最大最小差值最小的是多少? 思 ...
Oracle HRMS API – Create Employee
-- Create Employee -- ------------------------- DECLARE lc_employee_number PER_ALL_PEOP ...
iOS富文本（三）深入使用Text Kit
在上一篇中介绍了Text Kit的三种基本组件的关系并且简单的实现了怎么使用这三种基本组件,本片将深入的去使用这三种基本组件. NSTextStorage NSTextStorage是NSMutabl ...
用Access作为后台数据库支撑，书写一个C#写入记录的案例
要想操作一个数据库,不论是那种操作,首先要做的肯定是打开数据库. 下面我们以ACCESS数据库来做例子说明如何打开一个数据库连接! 在这里我们需要用到的是: System.Data.OleDb.O ...
simplefactory简单工厂模式
简单工厂模式概述又叫静态工厂方法模式,它定义一个具体的工厂类负责一些类的实例优点客户端不需要在负责对象的创建,从而明确了各个类的职责缺点: 这个静态工厂类负责所有对象的创建, ...

Start SparkR in RStudio

Start SparkR in RStudio的更多相关文章

随机推荐

热门专题