关于sparksql

1.读取json文件，并且进行查询等操作

所使用的jar包为

json文件内容

{ "id":1 ,"name":" Ella","age":36 } { "id":2,"name":"Bob","age":29 } { "id":3 ,"name":"Jack","age":29 } { "id":4 ,"name":"Jim","age":28 } { "id":5 ,"name":"Damon" } { "id":5 ,"name":"Damon" }

　　val conf = new SparkConf().setAppName("DataFrameTest").setMaster("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val df = sqlContext.jsonFile("H:\\文件\\数据集\\test1\\1.json");
　　

    df.show()  　　　　　　//查询所有

    df.distinct.show()   //去重

    df.filter(df.col("age")>).show()  //age>20的行

    df.groupBy("name").count().show()   //根据name分组

    df.sort(df("name").asc).show()      //将数据按 name 升序排列

    df.head().foreach(print)           //取出前 3 行数据

    df.select(df("name").as("username")).show()  //查询所有记录的 name 列，并为其取别名为 username

    df.agg("age"->"avg").foreach(print)   //查询年龄 age 的平均值

    df.agg("age"->"min").foreach(print)   //) 查询年龄 age 的最小值

2.编程实现将 RDD 转换为 DataFrame

文件内容

1,Ella,36

2,Bob,29

3,Jack,29

 val conf = new SparkConf()

       conf.setMaster("local")

           .setAppName("Testsql")

       val sc = new SparkContext(conf)

       val sqlContext = new SQLContext(sc)

       //hdfs://192.168.6.134:9000/wys/1.txt

       //H:\文件\数据集

       val aRDD = sc.textFile("H:\\文件\\数据集\\test1\\2.txt", )

      .map { line => Row(line.split(",")(), line.split(",")(),line.split(",")() )} 

      // 第二步，编程方式动态构造元数据

      val structType = StructType(Array(

          StructField("id", StringType, true),

          StructField("name", StringType, true),

          StructField("age", StringType, true)))  

      // 第三步，进行RDD到DataFrame的转换

      val aDF = sqlContext.createDataFrame(aRDD, structType)  

      // 继续正常使用

      aDF.registerTempTable("A")

      val teenagerDF4 = sqlContext.sql("select id,name,age from A")

      teenagerDF4.map(t => "id:"+t()+","+"name:"+t()+","+"age:"+t()).foreach(println)

3.编程实现利用 DataFrame 读写 MySQL 的数据

 val conf = new SparkConf()

       conf.setMaster("local")

             .setAppName("Testsql")

      val sc = new SparkContext(conf)

      val sqlContext = new SQLContext(sc)

      val employeeRDD = sc.parallelize(Array("3 Mary F 26","4 Tom M 23")).map(_.split(" "))

      val schema = StructType(List(StructField("id", IntegerType,true),StructField("name", StringType, true),StructField("gender", StringType,true),StructField("age", IntegerType, true)))

      val rowRDD = employeeRDD.map(p => Row(p().toInt,p().trim,p().trim,p().toInt))

      val employeeDF = sqlContext.createDataFrame(rowRDD, schema)

      val prop = new Properties()

      prop.put("user", "root")

      prop.put("password", "root")

      prop.put("driver","com.mysql.jdbc.Driver")

      employeeDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/sparktest","sparktest.spark", prop)

      val jdbcDF = sqlContext.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/sparktest").option("driver","com.mysql.jdbc.Driver").option("dbtable","spark").option("user","root").option("password", "root").load()

      jdbcDF.agg("age" -> "max", "age" -> "sum")

关于sparksql的更多相关文章

踩坑事件：windows操作系统下的eclipse中编写SparkSQL不能从本地读取或者保存parquet文件
这个大坑... .... 如题,在Windows的eclipse中编写SparkSQL代码时,编写如下代码时,一运行就抛出一堆空指针异常: // 首先还是创建SparkConf SparkConf c ...
sparksql udf的运用----scala及python版（2016年7月17日前完成）
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义: 第二个问题udf是怎么实现的呢? regi ...
spark-sql性能测试
一,测试环境 1) 硬件环境完全相同: 包括:cpu/内存/网络/磁盘Io/机器数量等 2)软件环境: 相同数据 ...
SparkSQL读取Hive中的数据
由于我Spark采用的是Cloudera公司的CDH,并且安装的时候是在线自动安装和部署的集群.最近在学习SparkSQL,看到SparkSQL on HIVE.下面主要是介绍一下如何通过SparkS ...
SparkSQL（源码阅读三）
额,没忍住,想完全了解sparksql,毕竟一直在用嘛,想一次性搞清楚它,所以今天再多看点好了~ 曾几何时,有一个叫做shark的东西,它改了hive的源码...突然有一天,spark Sql突然出现 ...
Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是 ...
Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.1 运行环境说明 1.1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软 ...
Spark入门实战系列--6.SparkSQL（下）--Spark实战应用
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMwa ...
大数据——sparksql
sparksql:http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool spark on yarn :http:// ...
SparkSql 不支持Date Format （支持Timestamp）
最近项目中需要用到sparksql ,需要查询sql Date类型, 无奈,官方现阶段 1.6.0 还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了. 1.解析 SimpleD ...

随机推荐

ASP.NET(C#) 使用 SqlBulkCopy 实现批量插入SQL（快捷简单）
业务需要,系统在处理数据时,每暂存一列数据将他插入到右侧的表格中,再执行批量保存,如图所示: //以前的做法可能是生成一堆 insert into xx values xxx 的sql语句,在程序中去 ...
shell一文入门通
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/hebtu666/article/deta ...
java-循环变量定义问题
第15行,这样就会报错.
【Linux开发】linux设备驱动归纳总结（七）：2.内核定时器
linux设备驱动归纳总结(七):2.内核定时器 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx ...
C#实现多线程的方式：使用Parallel类
简介在C#中实现多线程的另一个方式是使用Parallel类. 在.NET4中 ,另一个新增的抽象线程是Parallel类 .这个类定义了并行的for和foreach的静态方法.在为 for和 f ...
再谈MV*(MVVM MVP MVC)模式的设计原理—封装与解耦
精炼并增补于:界面之下:还原真实的MV*模式图形界面的应用程序提供给用户可视化的操作界面,这个界面提供给数据和信息.用户输入行为(键盘,鼠标等)会执行一些应用逻辑,应用逻辑(application ...
[转帖]How does a CPU work?
How does a CPU work? https://milapneupane.com.np/2019/07/06/how-does-a-cpu-work/ CPU, also known as ...
NumPy进阶
数组算术任何两个等尺寸数组之间的算术操作都应用了逐元素操作的方式. arr1 = np.array([[1,2,3],[4,5,6]]) arr2 = np.array([[4,2,1],[7,2, ...
jdbc简单使用
1.代码 import java.sql.*; public class DBUtil { public static void main(String[] args) throws ClassNot ...
python3.7 安装Scrapy 失败问题
python的Scrapy框架,需要Twisted依赖以及VC++ 14 以上的环境,这些就不再赘述.讲讲今天安装Twisted和Scrapy遇到的其他问题. 首先就是直接安装Twisted成功后,安 ...

关于sparksql

关于sparksql的更多相关文章

随机推荐

热门专题