生成dataset的几种方式

1.常用的方式通过sparksession读取外部文件或者数据生成dataset(这里就不讲了）
注：生成Row对象的方法提一下：RowFactory.create(x,y,z)，取Row中的数据使用row.getAs("列名")来获取对应的列值或者row.getInt(0),row.getString(1)（但这个要注意顺序）

2.通过调用createDataFrame生成Dataset
通过反射的方式将非json格式的RDD转换成DataFrame（不建议使用）

自定义类要可序列化
自定义类的访问级别是Public
RDD转成DataFrame后会根据映射将字段按Assci码排序
将DataFrame转换成RDD时获取字段两种方式,一种是df.getInt(0)下标获取（不推荐使用），另一种是df.getAs(“列名”)获取（推荐使用）
关于序列化问题:
1.反序列化时serializable 版本号不一致时会导致不能反序列化。
2.子类中实现了serializable接口，父类中没有实现，父类中的变量不能被序列化,序列化后父类中的变量会得到null。
注意：父类实现serializable接口,子类没有实现serializable接口时，子类可以正常序列化
3.被关键字transient修饰的变量不能被序列化。
4.静态变量不能被序列化，属于类，不属于方法和对象，所以不能被序列化。
另外：一个文件多次writeObject时，如果有相同的对象已经写入文件，那么下次再写入时，只保存第二次写入的引用，读取时，都是第一次保存的对象。

 /**方法1

 * 注意：

 * 1.自定义类必须是可序列化的

 * 2.自定义类访问级别必须是Public

 * 3.RDD转成DataFrame会把自定义类中字段的名称按assci码排序

 */

 SparkConf conf = new SparkConf();

 conf.setMaster("local").setAppName("RDD");

 JavaSparkContext sc = new JavaSparkContext(conf);

 SQLContext sqlContext = new SQLContext(sc);

 JavaRDD<String> lineRDD = sc.textFile("sparksql/person.txt");

 JavaRDD<Person> personRDD = lineRDD.map(new Function<String, Person>() {

     /**

     *

     */

     private static final long serialVersionUID = 1L;

     @Override

     public Person call(String s) throws Exception {

           Person p = new Person();

           p.setId(s.split(",")[0]);

           p.setName(s.split(",")[1]);

           return p;

     }

 });

 /**

 * 传入进去Person.class的时候，sqlContext是通过反射的方式创建DataFrame

 * 在底层通过反射的方式获得Person的所有field，结合RDD本身，就生成了DataFrame

 */

 DataFrame df = sqlContext.createDataFrame(personRDD, Person.class); 

 class Person implements Serializable {

     private static final long serialVersionUID = -6907013906164009798L;

     private String Id;

     private String name;

     public void setId(String appId) {

         this.appId = appId;

     }

     public String getId() {

         return appId;

     }

     public String getname() {

         return detail;

     }

     public void setname(String detail) {

         this.detail = detail;

     }

 }

 //方法2：

 JavaRDD<String> lineRDD = sc.textFile("./sparksql/person.txt");

 /**

  * 转换成Row类型的RDD

  */

 JavaRDD<Row> rowRDD = lineRDD.map(new Function<String, Row>() {

     /**

      *

      */

     private static final long serialVersionUID = 1L;

     @Override

     public Row call(String s) throws Exception {

           return RowFactory.create(//这里字段顺序一定要和下边 StructField对应起来

                 String.valueOf(s.split(",")[0]),

                 String.valueOf(s.split(",")[1]),

     );

     }

 });

 /**

  * 动态构建DataFrame中的元数据，一般来说这里的字段可以来源自字符串，也可以来源于外部数据库

  */

 List<StructField> asList =Arrays.asList(//这里字段顺序一定要和上边对应起来

     DataTypes.createStructField("id", DataTypes.StringType, true),

     DataTypes.createStructField("name", DataTypes.StringType, true)

 );

 StructType schema = DataTypes.createStructType(asList);

 /*

   StructType schema = new StructType(new StructField[]{

                         new StructField("id", DataTypes.StringType, false, Metadata.empty()),

                         new StructField("name", DataTypes.StringType, false, Metadata.empty()),

             });

 */

 //DataFrame df = sqlContext.createDataFrame(List<Row> ,schema)这个方法也可以

 DataFrame df = sqlContext.createDataFrame(rowRDD, schema);

 //方法3

 public static class Person implements Serializable {

   private String name;

   private int age;

   public String getName() {

     return name;

   }

   public void setName(String name) {

     this.name = name;

   }

   public int getAge() {

     return age;

   }

   public void setAge(int age) {

     this.age = age;

   }

 }

 // Create an instance of a Bean class

 Person person = new Person();

 person.setName("Andy");

 person.setAge(32);

 // Encoders are created for Java beans

 Encoder<Person> personEncoder = Encoders.bean(Person.class);

 Dataset<Person> javaBeanDS = spark.createDataset(

   Collections.singletonList(person),

   personEncoder

 );

 javaBeanDS.show();

 // +---+----+

 // |age|name|

 // +---+----+

 // | 32|Andy|

 // +---+----+

 // Encoders for most common types are provided in class Encoders

 Encoder<Integer> integerEncoder = Encoders.INT();

 Dataset<Integer> primitiveDS = spark.createDataset(Arrays.asList(1, 2, 3), integerEncoder);

 Dataset<Integer> transformedDS = primitiveDS.map(

     (MapFunction<Integer, Integer>) value -> value + 1,

     integerEncoder);

 transformedDS.collect(); // Returns [2, 3, 4]

 // DataFrames can be converted to a Dataset by providing a class. Mapping based on name

 String path = "examples/src/main/resources/people.json";

 Dataset<Person> peopleDS = spark.read().json(path).as(personEncoder);

 peopleDS.show();

 // +----+-------+

 // | age|   name|

 // +----+-------+

 // |null|Michael|

 // |  30|   Andy|

 // |  19| Justin|

 // +----+-------+

生成dataset的几种方式的更多相关文章

python 全栈开发，Day94(Promise,箭头函数,Django REST framework,生成json数据三种方式,serializers,Postman使用,外部python脚本调用django)
昨日内容回顾 1. 内容回顾 1. VueX VueX分三部分 1. state 2. mutations 3. actions 存放数据修改数据的唯一方式异步操作修改state中数据的步骤: ...
Pandas 基础(3) - 生成 Dataframe 的几种方式
这一节想总结一下生成 Dataframe 的几种方式: CSV Excel python dictionary List of tuples List of dictionary 下面分别一一介绍具 ...
数据可视化之powerBI技巧（七）从Excel到PowerBI，生成笛卡尔积的几种方式
假如分别有100个不重复的姓和名,把每个姓和名进行组合匹配,就可以得到一万个不重复的姓名组合,这种完全匹配的方式就是生成一个姓名的笛卡尔积. 下面就来看看生成笛卡尔积的几种方式,为了展现的方便,以5个 ...
spring生成EntityManagerFactory的三种方式
spring生成EntityManagerFactory的三种方式 1.LocalEntityManagerFactoryBean只是简单环境中使用.它使用JPA PersistenceProvide ...
php 生成word的三种方式
原文地址 http://www.jb51.net/article/97253.htm 最近工作遇到关于生成word的问题现在总结一下生成word的三种方法. btw:好像只要是标题带PHP的貌似点击 ...
Android 生成LayoutInflater的三种方式
通俗的说,inflate就相当于将一个xml中定义的布局找出来. 因为在一个Activity里如果直接用findViewById()的话,对应的是setConentView()的那个layout里的组 ...
使用NVelocity生成内容的几种方式
使用NVelocity也有几个年头了,主要是在我的代码生成工具Database2Sharp上使用来生成相关代码的,不过NVelocity是一个非常不错的模板引擎,可以用来生成文件.页面等相关处理,非常 ...
PHP生成word的三种方式
摘要: 最近工作遇到关于生成word的问题现在总结一下生成word的三种方法. btw:好像在博客园发表博客只要是标题带PHP的貌似点击量都不是很高(哥哥我标题还是带上PHP了),不知道为什么,估计 ...
利用"SQL"语句自动生成序号的两种方式
1.首先,我们来介绍第一种方式: ◆查询的SQL语句如下: select row_number() over (order by name) as rowid, sysobjects.[id] fro ...

随机推荐

webapi 异常处理
参考:https://docs.microsoft.com/zh-cn/aspnet/web-api/overview/error-handling/exception-handling ①HttpR ...
分布式消息通信ActiveMQ
消息中间件消息中间件是指利用高效可靠的消息传递机制进行平台无关的数据交流,并且基于数据通信来进行分布式系统的集成.通过提供消息传递和消息排队模型,可以在分布式架构下扩展进程之间的通信. 消息中间件能 ...
selenium java maven 自动化测试(二) 页面元素获取与操作
在第一节中,我们已经成功打开了页面,但是自动化测试必然包含了表单的填写与按钮的点击. 所以在第二章中我以博客园为例,完成按钮点击,表单填写还是以代码为准,先上代码: package com.ryan ...
Oracle下通过EXPDP导出某用户下的所有表，实例
一开始在所数据库表导入,导出的时候,经常发现含有BLOB等大数据类型文件无法简单正常的导入导出(imp/dmp),然后在网上得知oracle 10以后有了(impdp/dmpdp)命令,数据导入导出的 ...
iOS 后台持续定位详解(支持ISO9.0以上)
iOS 后台持续定位详解(支持ISO9.0以上) #import <CoreLocation/CoreLocation.h>并实现CLLocationManagerDelegate 代理, ...
javacript window对象
Window -- 代表浏览器中一个打开的窗口: 对象属性 window //窗口自身 window.self //引用本窗户window=window.self window.name //为窗口命 ...
Ansible常用功能
Ansible 是近几年十分流行的DevOps工具架构什么的我就不在这里赘述了,网上一找一堆这里写点我在ansible常用功能 1.命令串 #copy文件 #ansible host文件中的主机组 ...
Mysql 查询是否锁表
1.查询是否锁表show OPEN TABLES where In_use > 0; 2.查询进程 show processlist 查询到相对应的进程===然后 kill id 补充:查看正在 ...
树莓3B+_apt-get update && apt-get upgrade
在Windows下安装软件,我们只需要有EXE文件,然后双击,下一步直接OK就可以了.但在LINUX下,不是这样的.每个LINUX的发行版,都会维护一个自己的软件仓库,我们常用的几乎所有软件都在这里面 ...
分别给Python类和实例增加属性和方法
#定义一个类Student class Student(object): pass #给类增加一个属性name Student.name = 'xm' print Student.name # xm ...

生成dataset的几种方式

生成dataset的几种方式的更多相关文章

随机推荐

热门专题