1.单列转化方法

import org.apache.spark.sql.types._

val data = Array(("1", "2", "3", "4", "5"), ("6", "7", "8", "9", "10"))

val df = spark.createDataFrame(data).toDF("col1", "col2", "col3", "col4", "col5")

import org.apache.spark.sql.functions._

df.select(col("col1").cast(DoubleType)).show()

2.循环转变

val colNames = df.columns

var df1 = df

for (colName <- colNames) {

  df1 = df1.withColumn(colName, col(colName).cast(DoubleType))

}

df1.show()

3.通过:_*

val cols = colNames.map(f => col(f).cast(DoubleType))

df.select(cols: _*).show()

+----+----+----+----+----+

|col1|col2|col3|col4|col5|

+----+----+----+----+----+

| 1.0| 2.0| 3.0| 4.0| 5.0|

| 6.0| 7.0| 8.0| 9.0|10.0|

+----+----+----+----+----+

查询指定多列和转变指定列的类型了：

val name = "col1,col3,col5"

df.select(name.split(",").map(name => col(name)): _*).show()

df.select(name.split(",").map(name => col(name).cast(DoubleType)): _*).show()

+----+----+----+

|col1|col3|col5|

+----+----+----+

|   1|   3|   5|

|   6|   8|  10|

+----+----+----+

+----+----+----+

|col1|col3|col5|

+----+----+----+

| 1.0| 3.0| 5.0|

| 6.0| 8.0|10.0|

+----+----+----+

上部分完整代码：

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.types._

import org.apache.spark.sql.DataFrame

object ChangeAllColDatatypes {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("ChangeAllColDatatypes").master("local").getOrCreate()

    import org.apache.spark.sql.types._

    val data = Array(("1", "2", "3", "4", "5"), ("6", "7", "8", "9", "10"))

    val df = spark.createDataFrame(data).toDF("col1", "col2", "col3", "col4", "col5")

    import org.apache.spark.sql.functions._

    df.select(col("col1").cast(DoubleType)).show()

    val colNames = df.columns

    var df1 = df

    for (colName <- colNames) {

      df1 = df1.withColumn(colName, col(colName).cast(DoubleType))

    }

    df1.show()

    val cols = colNames.map(f => col(f).cast(DoubleType))

    df.select(cols: _*).show()

    val name = "col1,col3,col5"

    df.select(name.split(",").map(name => col(name)): _*).show()

    df.select(name.split(",").map(name => col(name).cast(DoubleType)): _*).show()

  }

上部分原文地址：董可伦

Spark 将DataFrame所有的列类型改为double的更多相关文章

OpenMesh 将默认的 float 类型改为 double 类型
OpenMesh 中默认的数据类型都是 float 类型的,如果要将其默认的 float 类型改为 double 类型,可以这么做: #include <OpenMesh/Core/Mesh/P ...
Spark SQL DataFrame新增一列的四种方法
方法一:利用createDataFrame方法,新增列的过程包含在构建rdd和schema中方法二:利用withColumn方法,新增列的过程包含在udf函数中方法三:利用SQL代码,新增列的过程 ...
Spark:将DataFrame写入Mysql
Spark将DataFrame进行一些列处理后,需要将之写入mysql,下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件,这样方便后续的配置添加. //配置文件示例: [ ...
Oracle中表列由VARCHAR2类型改成CLOB
情景原来表中的列定义成VARCHAR2类型,众所周知,VARCHAR2类型最大支持长度为4000.假设因为业务须要.想把此列转换为CLOB类型,在Oracle中直接通过ALTER语句转换是行不通的. ...
Spark获取DataFrame中列的方式--col，$，column，apply
Spark获取DataFrame中列的方式--col,$,column,apply 1.官方说明 2.使用时涉及到的的包 3.Demo 原文作者:大葱拌豆腐原文地址:Spark获取DataFrame ...
Spark获取DataFrame中列的几种姿势--col，$，column，apply
1.doc上的解释(https://spark.apache.org/docs/2.1.0/api/java/org/apache/spark/sql/Column.html) df("c ...
Spark Dataset DataFrame 操作
Spark Dataset DataFrame 操作相关博文参考 sparksql中dataframe的用法一.Spark2 Dataset DataFrame空值null,NaN判断和处理 1. ...
【spark】dataframe常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集 ...
Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)
Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使 ...

随机推荐

Java学习日报7.31
package bank;import java.util.*;public class Bank { private Scanner sc=new Scanner(System.in); priva ...
强化学习 1 --- 马尔科夫决策过程详解（MDP）
强化学习 --- 马尔科夫决策过程(MDP) 1.强化学习介绍强化学习任务通常使用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述,具体而言:机器处在一个环境 ...
LOG_PATH_IS_UNDEFINED
问题: SpringBoot + LogBack 写日志,除了正常的日志之外,程序跑起来后会在项目根目录多生成一个 LOG_PATH_IS_UNDEFINED 的文件夹,我的配置是以下: applic ...
ElasticSearch--一、使用场景以及对应软件配置安装
废话不多说,直接来硬的!我在使用的时候使用的是mysql数据库. 一.ElasticSearch概念和使用场景 1.当我们需要搜索海量数据的时候,就可能会用到.以下使用的场景有哪些呢? 搜索海量数据 ...
动态方法拦截(AOP）的N种解决方案
AOP的本质是方法拦截(将针对目标方法调用劫持下来,进而执行执行的操作),置于方法拦截的实现方案,不外乎两种代码注入类型,即编译时的静态注入和运行时的动态注入,本篇文章列出了几种常用的动态注入方案.这 ...
label_form
表单: action "URL" 如果为空,则本form接收指定接收方 disabled 指定该标签是否可用 method "net" "http& ...
MATLAB在读取excel文件是发生错误，怎么解决？
转载:https://blog.csdn.net/qq_38712026/article/details/78783422?utm_source=blogxgwz4
springboot源码解析-管中窥豹系列之排序（五）
一.前言 Springboot源码解析是一件大工程,逐行逐句的去研究代码,会很枯燥,也不容易坚持下去. 我们不追求大而全,而是试着每次去研究一个小知识点,最终聚沙成塔,这就是我们的springboot ...
springboot源码解析-管中窥豹系列之aware（六）
一.前言 Springboot源码解析是一件大工程,逐行逐句的去研究代码,会很枯燥,也不容易坚持下去. 我们不追求大而全,而是试着每次去研究一个小知识点,最终聚沙成塔,这就是我们的springboot ...
基于 MPI 的快速排序算法的实现
完整代码: #include <iostream> #include <cstdlib> #include <ctime> #include <algorit ...

Spark 将DataFrame所有的列类型改为double

Spark 将DataFrame所有的列类型改为double

1.单列转化方法

2.循环转变

3.通过:_*

Spark 将DataFrame所有的列类型改为double的更多相关文章

随机推荐

热门专题