sparksql 用反射的方式将rdd转换成dataset/dataframe
java
public class ReflectionDemo {
private static SparkConf conf = new SparkConf().setAppName("reflectdemo").setMaster("local");
private static JavaSparkContext jsc = new JavaSparkContext(conf); private static SparkSession session = new SparkSession(jsc.sc()); public static void main(String[] args) throws AnalysisException { // rdd
JavaRDD<String> rdd = jsc.textFile("./src/main/java/cn/tele/spark_sql/rdd2dataset/students.txt"); // 封装rdd
JavaRDD<Student> mapRdd = rdd.map(new Function<String, Student>() { private static final long serialVersionUID = 1L; @Override
public Student call(String v1) throws Exception {
String[] fields = v1.split(",");
Student student = new Student(Integer.valueOf(fields[0]), fields[1], Integer.valueOf(fields[2]));
return student;
}
}); // 通过反射的方式进行转换
Dataset<Row> dataset = session.createDataFrame(mapRdd, Student.class); // 注册为临时信息表
// dataset.registerTempTable("students"); dataset.createOrReplaceTempView("studentsView"); Dataset<Row> result = session.sql("select * from studentsView where age<=18");
// result.show(); // 把dataset转换成rdd
JavaRDD<Student> javaRDD = result.javaRDD().map(new Function<Row, Student>() { private static final long serialVersionUID = 1L; @Override
public Student call(Row v1) throws Exception {
return new Student(v1.getAs("id"), v1.getAs("name"), v1.getAs("age"));
}
}); javaRDD.foreach(new VoidFunction<Student>() { private static final long serialVersionUID = 1L; @Override
public void call(Student t) throws Exception {
System.out.println(t);
}
});
session.stop();
jsc.close();
}
}
scala
case class Student(val id:Int,val name:String,val age:Int) object ReflectionDemo {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("reflectdemo").setMaster("local") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) //导入隐式转换
import sqlContext.implicits._ //创建rdd
val rdd = sc.textFile("./src/main/scala/cn/tele/spark_sql/rdd2dataframe/students.txt", 2) //转换rdd为dataframe
val dataframe = rdd.map(line => {
val arr = line.split(",");
new Student(arr(0).trim().toInt, arr(1).trim(), arr(2).trim().toInt)
}).toDF() //创临时视图
dataframe.createOrReplaceTempView("students") // dataframe.show() val df = sqlContext.sql("select * from students where age<=18") val newRdd = df.rdd.map(row => new Student(row.getAs[Int]("id"), row.getAs[String]("name"), row.getAs[Int]("age"))) newRdd.foreach(println(_))
} }
sparksql 用反射的方式将rdd转换成dataset/dataframe的更多相关文章
- sparksql 动态设置schema将rdd转换成dataset/dataframe
java public class DynamicDemo { private static SparkConf conf = new SparkConf().setAppName("dyn ...
- Spark之 RDD转换成DataFrame的Scala实现
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2. ...
- RDD转换成DataFrames
官方提供了2种方法 1.利用反射来推断包含特定类型对象的RDD的schema.这种方法会简化代码并且在你已经知道schema的时候非常适用. 先创建一个bean类 case class Person( ...
- 利用反射将Datatable、SqlDataReader转换成List模型
1. DataTable转IList public class DataTableToList<T>whereT :new() { ///<summary> ///利用反射将D ...
- 利用泛型和反射,管理配置文件,把Model转换成数据行,并把数据行转换成Model
利用泛型和反射,管理配置文件,把Model转换成数据行,并把数据行转换成Model 使用场景:网站配置项目,为了便于管理,网站有几个Model类来管理配置文件, 比如ConfigWebsiteMo ...
- [C#]Winform后台提交数据且获取远程接口返回的XML数据,转换成DataSet
#region 接口返回的Xml转换成DataSet /// <summary> /// 返回的Xml转换成DataSet /// </summary> /// <par ...
- TXT文件转换成DataSet数据集
/// <summary> /// TXT文件转换成DataSet数据集 /// </summary> /// <param name="FilePath&qu ...
- c#将List<T>转换成DataSet
/// <summary> /// List<T> 转换成DataSet /// </summary> /// &l ...
- Spark中RDD转换成DataFrame的两种方式(分别用Java和Scala实现)
一:准备数据源 在项目下新建一个student.txt文件,里面的内容为: ,zhangsan, ,lisi, ,wanger, ,fangliu, 二:实现 Java版: 1.首先新建一个s ...
随机推荐
- Android通过startService播放背景音乐简单演示样例
关于startService的基本使用概述及其生命周期可參见博客<Android中startService的使用及Service生命周期>. 本文通过播放背景音乐的简单演示样例,演示sta ...
- WP8日历(含农历)APP
WP8日历(含农历)APP WP8日历(含农历)APP UI XAML(部分) <phone:PhoneApplicationPage xmlns:CustomControl="clr ...
- amazeui学习笔记--css(HTML元素5)--表格Table
amazeui学习笔记--css(HTML元素5)--表格Table 一.总结 1.基本样式:am-table:直接模块名 <table class="am-table"& ...
- RMAN冷备份、一致性备份脚本
RMAN冷备份.一致性备份脚本 run{ shutdown immediate; startup mount; allocate channel c1 type disk; allocate chan ...
- iOS开发- iOS7显示偏差(UITableView下移)解决的方法
之前碰到过一个问题. 就是利用storyboard拖动出来的控件, 在iOS7上跑老是莫名的下移. 比方这样(红色区域为多余的) 解决的方法: iOS7在Conttoller中新增了这个属性: aut ...
- 使用四种框架分别实现百万websocket常连接的服务器--转
原文地址:http://colobu.com/2015/05/22/implement-C1000K-servers-by-spray-netty-undertow-and-node-js/#Nett ...
- oracle高效分页存储过程(百万数据级)
create or replace procedure Pager( page in number,--数据页数,从1开始 pageSize in number,--每页大小 tableName nv ...
- sqoop 1.4.4-cdh5.1.2快速入门 分类: C_OHTERS 2015-06-06 11:40 208人阅读 评论(0) 收藏
一.快速入门 (一)下载安装 1.下载并解压 wget http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.2.tar.gz tar - ...
- BAPC2014 C&&HUNNU11583:Citadel Construction(几何)
题意: 给出一系列的点,要求寻找最多4个点.使得组成一个面积最大的多边形 思路: 非常显然仅仅有两种情况.要么是三角形,要么是四边形 首先不难想到的是.先要把最外面的点都找出来,事实上就是找凸包 可是 ...
- 【Debug】— C++ 表达式必须包含类类型
错误一般发生在使用.进行访问时,原因可能在于: 你以为你定义了一个类对象,其实你是声明了一个函数,在编译器看来: 对类对象指针采用.的方式访问其成员变量: 也包括基本类型变量,错误地使用. int a ...