spark dataframe 类型转换

读一张表，对其进行二值化特征转换。可以二值化要求输入类型必须double类型，类型怎么转换呢？

直接利用spark column 就可以进行转换：

DataFrame dataset = hive.sql("select age,sex,race from hive_race_sex_bucktizer ");

/**

* 类型转换

dataset = dataset.select(dataset.col("age").cast(DoubleType).as("age"),dataset.col("sex"),dataset.col("race"));

是不是很简单。想起之前的类型转换做法，遍历并创建另外一个满足类型要求的RDD，然后根据RDD创建Datafame，好复杂！！！！

		JavaRDD<Row> parseDataset =   dataset.toJavaRDD().map(new Function<Row,Row>() {

			@Override

			public Row call(Row row) throws Exception {

				System.out.println(row);

				long age = row.getLong(row.fieldIndex("age"));

				String sex = row.getAs("sex");

				String race =row.getAs("race");

				double raceV  = -1;

				if("white".equalsIgnoreCase(race)){

					raceV = 1;

				} else if("black".equalsIgnoreCase(race)) {

					raceV = 2;

				} else if("yellow".equalsIgnoreCase(race)) {

					raceV = 3;

				} else if("Asian-Pac-Islander".equalsIgnoreCase(race)) {

					raceV = 4;

				}else if("Amer-Indian-Eskimo".equalsIgnoreCase(race)) {

					raceV = 3;

				}else {

					raceV = 0;

				}

				return RowFactory.create(age,("male".equalsIgnoreCase(sex)?1:0),raceV);

			}

		});

		StructType schema = new StructType(new StructField[]{

				 createStructField("_age", LongType, false),

				  createStructField("_sex", IntegerType, false),

				  createStructField("_race", DoubleType, false)

				});

		DataFrame  df  =  hive.createDataFrame(parseDataset, schema);

　　不断探索，不断尝试！

spark dataframe 类型转换的更多相关文章

spark dataframe unionall
今天本来想写一个spark dataframe unionall的demo,由于粗心报下面错误: Exception in thread "main" org.apache.spa ...
spark dataframe操作集锦（提取前几行，合并，入库等）
https://blog.csdn.net/sparkexpert/article/details/51042970 spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当 ...
spark DataFrame 常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集 ...
Spark DataFrame中的join使用说明
spark sql 中join的类型 Spark DataFrame中join与SQL很像,都有inner join, left join, right join, full join; 类型说明 ...
转】Spark DataFrame小试牛刀
原博文出自于: https://segmentfault.com/a/1190000002614456 感谢! 三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame ...
Spark DataFrame写入HBase的常用方式
Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法.例如用户画像.单品画像.推荐 ...
spark DataFrame 读写和保存数据
一.读写Parquet(DataFrame) Spark SQL可以支持Parquet.JSON.Hive等数据源,并且可以通过JDBC连接外部数据源.前面的介绍中,我们已经涉及到了JSON.文本格式 ...
spark DataFrame的创建几种方式和存储
一. 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载.转换.处理等功能.Sp ...
spark DataFrame
DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能.Spark能够轻松实现从MySQL到DataFrame的转化, ...

随机推荐

Sql Server系列：SQL语句查询数据库中表、视图、存储过程等组成
1. 查看用户表 select name from sys.tables select name from sys.objects where type='U' select name from sy ...
jQuery系列：Ajax
1. load(url, [data], [callback]) 1.1 解析载入远程 HTML 文件代码并插入至 DOM 中. 语法格式: load(url, [data], [callback] ...
构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统（8）-MVC与EasyUI DataGrid 分页
系列目录前言为了符合后面更新后的重构系统,文章于2016-11-1日重写 EasyUI Datagrid在加载的时候会提交一些分页的信息到后台,我们需要根据这些信息来进行数据分页再次返回到前台实 ...
Hawk 4.2 过滤器
过滤器可以在流中,过滤掉不符合条件的文档.当然也可勾选反向,此时只会留下不符合条件的文档. 空对象过滤器最为常用,需要列名,可以过滤掉所有内容为Null,或字符串全部都是空字符的情况数值范围过滤 ...
分享个之前写好的 android 文件流缓存类,专门处理 ArrayList、bean。
转载麻烦声明出处:http://www.cnblogs.com/linguanh/ 目录: 1,前序 2,作用 3,特点 4,代码 1,前序在开发过程中,client 和 server 数据交流一 ...
jvm系列(六):jvm调优-从eclipse开始
jvm调优-从eclipse开始概述什么是jvm调优呢?jvm调优就是根据gc日志分析jvm内存分配.回收的情况来调整各区域内存比例或者gc回收的策略:更深一层就是根据dump出来的内存结构和线程 ...
JS魔法堂之实战：纯前端的图片预览
一.前言图片上传是一个普通不过的功能,而图片预览就是就是上传功能中必不可少的子功能了.在这之前,我曾经通过订阅input[type=file]元素的onchange事件,一旦更改路径则将图片上传至服 ...
Linux平台 Oracle 11gR2 RAC安装Part3：DB安装
四.DB(Database)安装 4.1 解压DB的安装包 4.2 DB软件安装 4.3 ASMCA创建磁盘组 4.4 DBCA建库 4.5 验证crsctl的状态 Linux平台 Oracle 11 ...
最适合作为Java基础面试题之Singleton模式
看似只是最简单的一种设计模式,可细细挖掘,static.synchronized.volatile关键字.内部类.对象克隆.序列化.枚举类型.反射和类加载机制等基础却又不易理解透彻的Java知识纷纷呼 ...
CLR via C# 摘要一：托管程序的执行模型
托管程序的执行模型大致如下: 编译源代码为程序集(dll或exe文件),程序集包括了记录相关信息的元数据和IL代码执行程序集文件时,启动CLR,JIT负责把IL编译为本地代码并执行 IL是微软推出的 ...

spark dataframe 类型转换

spark dataframe 类型转换的更多相关文章

随机推荐

热门专题