sparkSQL、dataframe

spark 读hive表：2.1.1

https://blog.csdn.net/qq_35741557/article/details/81135003

http://www.aboutyun.com/forum.php?mod=viewthread&tid=12358&page=1

空值填充：http://spark.apache.org/docs/1.5.0/api/python/_modules/pyspark/sql/dataframe.html

spark 将dataframe数据写入Hive分区表:http://www.cnblogs.com/longjshz/p/5414051.html

#df22.select("pkg","cnt01").sort("cnt01",ascending=False).show(100) #按照某一个字段进行排序，降序

#从数据表读取数据，把数据读为数据框
df=sqlContext.sql("select * from zhangb.gedeng limit 2")

#把整张数据表变成数据框
df1=sqlContext.table("zhangb.gedeng")

#把数据框转成rdd形式

dfrdd=df1.rdd #不正规
dfrdd1 =df1.rdd.map(tuple)
dfrdd2 =df1.rdd.map(list)

#把数据框注册为表
df1.registerTempTable("people")

# 将普通RDD转变为DataFrame
rdd = sparkContext.textFile("sex") \
.flatMap(lambda line: line.split()) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b) \
wordCounts = sqlContext.createDataFrame(rdd, ["word", "count"]

#实际数据练习rdd转换成df

rdd = sc.textFile("sex").map(lambda p :p.strip().split('\t')).\
filter(lambda p:len(p)==3).map(lambda p:((re.split(";|,",p[2])),int(p[1]))).\
flatMap(lambda p:[(p[0][i],p[1])for i in range(len(p[0])) if i%2==0]).filter(lambda p:p[0]!='')

pkg1 = sqlContext.createDataFrame(rdd, ["pkg", "sex"])

# 将本地数据容器转变为DataFrame
da = [("Alice", 21), ("Bob", 24)]
people = sqlContext.createDataFrame(da, ["name", "age"])

db=[("Alice", 100,46), ("Bob", 39,47),("cele", 89,30)]
score=sqlContext.createDataFrame(db,['name','math','eng'])

#join
dc=people.join(score,people.name==score.name,"left_outer")

# 将Pandas DataFrame转变为Spark DataFrame（Python API特有功能）
sparkDF = sqlContext.createDataFrame(pandasDF)

#=========对数据框进行查看操作

# 创建一个只包含"年轻"用户的DataFrame
young = users.filter(users.age < 21)

# 也可以使用Pandas风格的语法
young = users[users.age < 21]

# 将所有人的年龄加1

young2=young.select(young.name, young.age + 1)

# 统计年轻用户中各性别人数
young.groupBy("gender").count().show()

# 将所有年轻用户与另一个名为logs的DataFrame联接起来(合并）
young.join(logs, logs.userId == users.userId, "left_outer")

# 除DSL以外，我们当然也可以像以往一样，用SQL来处理DataFrame：

df1.registerTempTable("dd")

#==============保存输出

#最后，当数据分析逻辑编写完毕后，我们便可以将最终结果保存下来或展现出来：
# 保存为SQL表
young.saveAsTable(tableName="young", source="parquet" mode="overwrite")

# 转换为Pandas DataFrame（Python API特有功能）
pandasDF = young.toPandas()

#追加至HDFS上的Parquet文件
young.save(path="hdfs://path/to/data.parquet",
source="parquet",
mode="append")

#覆写S3上的JSON文件

young.save(path="s3n://path/to/data.json",
source="json",
mode="append")

#空值填充

 1 pyspark --master yarn-client --executor-memory 5G --num-executors 50

 2 import os

 3 import copy

 4 import codecs

 5 import operator

 6 import re

 7 from math import log

 8 from pyspark.sql import SQLContext,Row

 9 from pyspark.mllib.regression import LabeledPoint

10 from pyspark import SparkContext, SparkConf

11

12 #从数据表读取数据，把数据读为数据框

13 df=sqlContext.sql("select * from zhangb.gedeng limit 2")

14

15 #把整张数据表变成数据框

16 df1=sqlContext.table("zhangb.gedeng")

17

18 #把数据框注册为表

19 df1.registerTempTable("people")

20

21 # 将普通RDD转变为DataFrame

22 rdd = sparkContext.textFile("sex") \

23                   .flatMap(lambda line: line.split()) \

24                   .map(lambda word: (word, 1)) \

25                   .reduceByKey(lambda a, b: a + b) \

26 wordCounts = sqlContext.createDataFrame(rdd, ["word", "count"]

27

28 #实际数据练习rdd转换成df

29

30 rdd = sc.textFile("sex").map(lambda p :p.strip().split('\t')).\

31 filter(lambda p:len(p)==3).map(lambda p:((re.split(";|,",p[2])),int(p[1]))).\

32 flatMap(lambda p:[(p[0][i],p[1])for i in range(len(p[0])) if i%2==0]).filter(lambda p:p[0]!='')

33

34 pkg1 = sqlContext.createDataFrame(rdd, ["pkg", "sex"])

35

36 # 将本地数据容器转变为DataFrame

37 da = [("Alice", 21), ("Bob", 24)]

38 people = sqlContext.createDataFrame(da, ["name", "age"])

39

40 db=[("Alice", 100,46), ("Bob", 39,47),("cele", 89,30)]

41 score=sqlContext.createDataFrame(db,['name','math','eng'])

42

43 #join

44 dc=people.join(score,people.name==score.name,"left_outer")

45

46 # 将Pandas DataFrame转变为Spark DataFrame（Python API特有功能）

47 sparkDF = sqlContext.createDataFrame(pandasDF)

48

49 #=========对数据框进行查看操作

50

51 # 创建一个只包含"年轻"用户的DataFrame

52 young = users.filter(users.age < 21)

53

54 # 也可以使用Pandas风格的语法

55 young = users[users.age < 21]

56

57 # 将所有人的年龄加1

58

59 young2=young.select(young.name, young.age + 1)

60

61 # 统计年轻用户中各性别人数

62 young.groupBy("gender").count().show()

63

64 # 将所有年轻用户与另一个名为logs的DataFrame联接起来

65 young.join(logs, logs.userId == users.userId, "left_outer")

66

67 # 除DSL以外，我们当然也可以像以往一样，用SQL来处理DataFrame：

68

69 df1.registerTempTable("dd")

70

71 #==============保存输出

72

73 #最后，当数据分析逻辑编写完毕后，我们便可以将最终结果保存下来或展现出来：

74 # 保存为SQL表

75 young.saveAsTable(tableName="young", source="parquet" mode="overwrite")

76

77 # 转换为Pandas DataFrame（Python API特有功能）

78 pandasDF = young.toPandas()

79

80 #追加至HDFS上的Parquet文件

81 young.save(path="hdfs://path/to/data.parquet",

82            source="parquet",

83            mode="append")

84

85 #覆写S3上的JSON文件

86

87 young.save(path="s3n://path/to/data.json",

88            source="json",

89            mode="append")

sparkSQL、dataframe的更多相关文章

Spark之 SparkSql、DataFrame、DataSet介绍
SparkSql SparkSql是专门为spark设计的一个大数据仓库工具,就好比hive是专门为hadoop设计的一个大数据仓库工具一样. 特性: .易整合可以将sql查询与spark应用程序进 ...
SparkSQL 中 RDD 、DataFrame 、DataSet 三者的区别与联系
一.SparkSQL发展: Shark是一个为spark设计的大规模数据仓库系统,它与Hive兼容 Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来(by s ...
35、sparkSQL及DataFrame
一.saprkSQL背景 Spark 1.0版本开始,推出了Spark SQL.其实最早使用的,都是Hadoop自己的Hive查询引擎:但是后来Spark提供了Shark:再后来Shark被淘汰,推出 ...
谈谈RDD、DataFrame、Dataset的区别和各自的优势
在spark中,RDD.DataFrame.Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势共性: 1.RDD.DataFrame.Dataset全都是spar ...
Spark-SQL之DataFrame操作大全
Spark SQL中的DataFrame类似于一张关系型数据表.在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现.可以参考,Scala提供的DataFra ...
Spark-SQL之DataFrame操作
Spark SQL中的DataFrame类似于一张关系型数据表.在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现.可以参考,Scala提供的DataFra ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
SparkSQL和DataFrame
SparkSQL和DataFrame SparkSQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用.它 ...
RDD、DataFrame和DataSet
简述 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema.RDD是分布式的 Java对象的集 ...

随机推荐

Mongodb基础用法及查询操作
插入多条测试数据> for(i=1;i<=1000;i++){... db.blog.insert({"title":i,"content":&qu ...
mysqldump的single-transaction
先看一下--lock-tables和--lock-all-tables --lock-all-tables 一次性锁定所有数据库的所有表,在整个dump期间一直获取global read lock: ...
dede 添加自定义函数
include/extend.func.php里添加函数 function GetTopTags($str){$dsql = new Dedesql(false);$row = $dsql->G ...
win7 X64 使用VS2008 ->编译报错LINK : fatal error LNK1000: Internal error during Incr的解决
编译报错LINK : fatal error LNK1000: Internal error during Incr的解决 Win7 旗舰版 Microsoft Visual Studio 2008 ...
golang之void*类型可变数组例子
package main import ( "fmt" ) type TestStruct struct { aa string name string } type Object ...
samba 挂载windows共享文件夹
先转载一片文章 centOS下yum安装配置samba 地址 http://blog.csdn.net/linglongwunv/article/details/5212875 遇到问题1 # ...
Java技术专题之JVM逻辑内存回收机制研究图解版
一.引言 JVM虚拟机内存回收机曾迷惑了不少人,文本从JVM实现机制的角度揭示JVM内存回收的原理和机制. 一.Java平台逻辑架构二.JVM物理结构通过从JVM物理结构图我们可以看到: 1.JV ...
R语言学习——欧拉计划（1）Multiples of 3 and 5
[题目一]If we list all the natural numbers below 10 that are multiples of 3 or 5, we get 3, 5, 6 and 9. ...
什么是DSCP，如何使用DSCP标记搭配ROS策略
一.什么是DSCP DSCP:差分服务代码点(Differentiated Services Code Point),IETF于1998年12月发布了Diff-Serv(Differentiated ...
Fork/Join编程模型
1.一种并行计算的多线程编程模型 2.开始--任务分割--多线程异步执行---任务合并--阻塞等待合并结果.(分治算法) 3.work-stealing算法: 每个线程维护一个各自的双端的链表,有新任 ...

sparkSQL、dataframe

sparkSQL、dataframe的更多相关文章

随机推荐

热门专题