package com.jason.example

import org.apache.spark.sql.functions.broadcast

class DFTest extends SparkInstance {

  import spark.implicits._

  val df = Seq(
("jason", , "理想",),
(null, , "理想",),
("mac", , "理想",),
("mac", , "理想",)
).toDF("name", "depid", "company","groupid").repartition()
val df3 = Seq(
("jason", , "理想",),
("dong", , "理想",),
("mac", , "理想",)
).toDF("name", "depid", "company","groupid").repartition()
val df2 = Seq(
(,"周浦",),
(,"孙桥",),
(,"金桥",)
).toDF("depid","addr","gid").repartition()
def ff(): Unit = {
println(df.toString())//[name: string, depid: int ... 1 more field]
println(df.schema)
df.printSchema()
df.explain(true)//Prints the plans (logical and physical) to the console for debugging purposes.
println(df.dtypes.mkString(","))//(name,StringType),(depid,IntegerType),(company,StringType)
println(df.columns.mkString(","))//
//df.withWatermark() ???
df.show(,false)
df.na.drop("any"/*"all"*/).show(false) //删除df中包含null 或NaN 的记录,如果为any 则只要有有一列为
//null 或NaN 则删除整行,如果是all 则所有列是null ho NaN 时才删除整行
df.na.fill("xxx",Seq("name")).show()//缺失值填充,把null 或 NaN 替换为所需要的值
df.na.replace("name",Map("jason"->"abc","dong"->"def")).show()//将字段name 中 的值按照map 内容进行更改
//df.stat.xxx ???
df.join(df2,(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"right").show()
df.join(df2,(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"left").show() df.join(df2,(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"left").show()
println("="*)
df.join(df2.hint("broadcast"),(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"left").show()
df.join(broadcast(df2),(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"left").show()//spark 默认广播10MB的小表
//df2.hint("broadcast") 和 broadcast(df2) 是等同的
df.crossJoin(df2).show()//笛卡尔积
df.sort($"name".desc,$"depid".asc).show()
df.select("name","depid").show()
df.selectExpr("name as nm","depid as id").show()
df.filter(s"""name='jason'""").show()
df.where(s"""name='jason'""").select("name","depid").show
df.rollup("name","depid").count().show()
df.cube("name","depid").count().show()
df.groupBy("name","depid").count().show()
df.agg("name"->"max","depid"->"avg").show()
df.groupBy("name","depid").agg("name"->"max","depid"->"avg").show()
df.limit().show()
df.union(df3).show()
df.unionByName(df3).show()
df.intersect(df3).show()//交集
df.except(df3).show() //差集
df.sample(0.5).show()
df.randomSplit(Array(0.4,0.6)).apply().show()
df.withColumn("depid",$"depid".<=()).show() // 该方法可以替换或增加一列到原df, 第二个参数中的col必须时df中的元素
df.withColumnRenamed("name","姓名").show()
df.drop("name","depid")//舍弃某几列
df.distinct()
df.dropDuplicates("name").show() //根据某几列去重,会保留最后一条数据
df.describe().show() //count,mean,min,max
df.summary().show()//count,min,25%,50%,max
df.head() //所有的数据会被collect到driver
df.toLocalIterator() spark.stop()
}
} object DFTest {
def main(args: Array[String]): Unit = {
val dt = new DFTest
dt.ff()
}
}

dataframe 基本操作的更多相关文章

  1. DataFrame基本操作

    这些操作在网上都可以百度得到,为了便于记忆自己再根据理解总结在一起.---------励志做一个优雅的网上搬运工 1.建立dataframe (1)Dict to Dataframe df = pd. ...

  2. python做数据分析pandas库介绍之DataFrame基本操作

    怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作. 设有DataF ...

  3. 用python做数据分析pandas库介绍之DataFrame基本操作

    怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作. 设有DataF ...

  4. pandas库介绍之DataFrame基本操作

    怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 今天是5.1号. 这一部分主要学习pandas中基于前面两种数据结构的基本操作 ...

  5. 用python做数据分析4|pandas库介绍之DataFrame基本操作

    原文地址 怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 今天是5.1号. 这一部分主要学习pandas中基于前面两种数据结构 ...

  6. 机器学习三剑客之Pandas中DataFrame基本操作

    Pandas 是基于Numpy 的一种工具,是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.Pandas提供了大量能使我们快速便捷 ...

  7. pd库dataframe基本操作

    一.查看数据(查看对象的方法对于Series来说同样适用) 1.查看DataFrame前xx行或后xx行 a=DataFrame(data); a.head(6)表示显示前6行数据,若head()中不 ...

  8. pyspark SparkSession及dataframe基本操作

    from pyspark import SparkContext, SparkConf import os from pyspark.sql.session import SparkSession f ...

  9. python数据类型之pandas—DataFrame

    DataFrame定义: DataFrame是pandas的两个主要数据结构之一,另一个是Series —一个表格型的数据结构 —含有一组有序的列 —大致可看成共享同一个index的Series集合 ...

随机推荐

  1. 在.NET Core 3.0 Preview上使用Windows窗体设计器

    支持使用基于Windows窗体应用程序的.NET Core 3.0(预览)的Windows窗体设计器 介绍 截至撰写本文时,Microsoft和社区目前正在测试.NET Core 3.0.如果您在.N ...

  2. maplotlib画柱状图并添加标签

    import json from collections import Counter import matplotlib.pyplot as plt import matplotlib as mpl ...

  3. Navicat for Mysql安装及破解教程

    一.Navicat for Mysql安装 下载链接:https://navicatformysql.en.softonic.com/ 点击download下载. 下载完成后双击安装 二.破解 破解工 ...

  4. 简单记录(css换行带点与不带点)

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  5. 019.nexus搭建docker镜像仓库/maven仓库

    一.安装docker CE 参考docker doc https://docs.docker.com/install/linux/docker-ce/centos/ 二.docker启动nexus3 ...

  6. python中lambda

    lambda_expr ::= "lambda" [parameter_list]: expression python中lambda可以理解为一个匿名函数,它的要求是函数的运算部 ...

  7. JMETER 用户变量作用域

    在编写JMETER 脚本时,我们会使用到变量,变量的作用域是线程. 我们通过下面的脚本验证一下变量的返回是线程. 1. 我们先定义一个amount的流程变量. 2.线程组使用三个线程 3.在线程组中添 ...

  8. Shel脚本-初步入门之《03》

    Shel脚本-初步入门-Shell 脚本在 Linux 运维工作中的地位 3.Shell 脚本在 Linux 运维工作中的地位 Shell 脚本语言很适合用于处理纯文本类型的数据,而 Linux 系统 ...

  9. Rust语言中的常量,变量,运算符,数据类型

    简单练练, 夏天太热. const MAX_POINTS: u32 = 100_100; fn main() { let mut x = 5; let y = 5; let y = y + 1; le ...

  10. 201871010128-杨丽霞《面向对象程序设计(java)》第十五周学习总结

    201871010128-杨丽霞<面向对象程序设计(java)>第十五周学习总结 项目 内容 这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ ...