spark操作总结

一、sparkContext与sparkSession区别

任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数,sparkContext只能在driver机器上面启动;
SparkSession： SparkSession实质上是SQLContext和HiveContext的组合，SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成

val conf: SparkConf = new SparkConf().setAppName("test")

val spark: SparkSession = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()

二、repartition与coalesce区别

repartition一般是用来增加分区数（当然也可以减少），coalesce只能用来减少分区数。所以如果不介意保存的文件块大小不一样，可以使用coalesce来减少分区数，保存的时候一个分区就会生成一个文件块

三、Scala常用方法

1. StringBuilder

主要用于字符串的拼接，可作用于生成倒排序列，如：

val userItemScore = sc.parallelize(List((, , 0.8), (, , 0.7), (, , 0.5), (, , 0.9)))

userItemScore.map(x => (x._1, (x._2.toString, x._3.toString))).groupByKey()

.map{x =>

val userid = x._1

val item_score_list = x._2

val tmp_arr = item_score_list.toArray.sortWith(_._2 > _._2)

val watch_len = tmp_arr.length

val strbuf = new StringBuilder()

for (i <-  until watch_len - ) {

strbuf ++= tmp_arr(i)._1

strbuf.append(":")

strbuf ++= tmp_arr(i)._2

strbuf.append(" ")

}

strbuf ++= tmp_arr(watch_len - )._1

strbuf.append(":")

strbuf ++= tmp_arr(watch_len - )._2

userid + "\t" + strbuf

}.collect()

2. scala.collection.mutable.ArrayBuffer

相当于是一个大小可变数组，把需要的值添加进来，例如：

val tmpArray = new ArrayBuffer[String]()

val tmpArray = new ArrayBuffer[Int]()

val tmpArray = new ArrayBuffer[(String, Int)]()

scala> tmpArray.append(("wangzai", ))

scala> tmpArray

res11: scala.collection.mutable.ArrayBuffer[(String, Int)] = ArrayBuffer((wangzai,), (test,))

tmpArray.indexOf(("test",))为获取当前值的索引,返回类型为整型

tmpArray.slice(tmpArray.indexOf(("test", )), tmpArray.length)为切片,返回类型为ArrayBuffer

四、通过spark-shell来操作数据库中的表

1 启动(通过--jars指定包，后面reids包不需要，只是演示添加多个包的用法)

/xxx/spark/bin/spark-shell \

--master spark://xxx:7077 \

--executor-cores  \

--total-executor-cores  \

--driver-memory 2g \

--jars /xxx/jars/mysql-connector-java-5.1..jar,/xxx/jars/jedis-2.9..jar

2 在命令行中输入：:paste, 然后粘贴以下代码，最后ctrl+D退出之后，即可执行

import java.util.Properties
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.SparkConf
val conf: SparkConf = new SparkConf()
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
val mysqlUrl: String = "jdbc:mysql://ip:port/database?useUnicode=true&characterEncoding=UTF-8&useSSL=false"
val productTable: String = "product_info"
val orderTable: String = "order_info"
val properties: Properties = new Properties()
properties.put("user", user)
properties.put("password", password)

// 获取同事购配置表数据
val productDF: DataFrame = spark.read.jdbc(mysqlUrl, productTable, properties).select("id", "name")
val orderDF: DataFrame = spark.read.jdbc(mysqlUrl, orderTable, properties).select("product_id", "createTime")

val totalDataDF = productDF.join(orderDF, orderDF("product_id") === productDF("id")).drop("id")
//如果product_info对应的id为product_id，即关联id字段名不相同
//val totalDataDF = productDF.join(orderDF, Seq("product_id"))

3 把该DateFrame注册为临时表才能通过spark-sql操作

totalDataDF.createOrReplaceTempView("totalDataDF")

五、spark-sql的基本操作

//默认显示20条数据

scala> df.show()

//打印模式信息

scala> df.printSchema()

//选择多列

scala> df.select(df("name"),df("age")+).show()

// 条件过滤

scala> df.filter(df("age") >  ).show()

// 分组聚合

scala> df.groupBy("age").count().show()

// 排序

scala> df.sort(df("age").desc).show()

//多列排序

scala> df.sort(df("age").desc, df("name").asc).show()

//对列进行重命名

scala> df.select(df("name").as("username"),df("age")).show()
//对多个列重命名
scala> df.withColumnRenamed("id", "userId").withColumnRenamed("name", "userName")

spark操作总结的更多相关文章

spark 操作hbase
HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本.这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API.虽然 1.0.0 兼容旧版本的 API,不过还是应 ...
Spark操作hbase
于Spark它是一个计算框架,于Spark环境,不仅支持单个文件操作,HDFS档,同时也可以使用Spark对Hbase操作. 从企业的数据源HBase取出.这涉及阅读hbase数据,在本文中尽快为了尽 ...
Spark操作实战
1. local模式 $SPARK_HOME/bin/spark-shell --master local import org.apache.log4j.{Level,Logger} // 导入ja ...
Spark操作算子本质-RDD的容错
Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群 ...
Spark操作MySQL，Hive并写入MySQL数据库
最近一个项目,需要操作近70亿数据进行统计分析.如果存入MySQL,很难读取如此大的数据,即使使用搜索引擎,也是非常慢.经过调研决定借助我们公司大数据平台结合Spark技术完成这么大数据量的统计分析. ...
Spark操作dataFrame进行写入mysql，自定义sql的方式
业务场景: 现在项目中需要通过对spark对原始数据进行计算,然后将计算结果写入到mysql中,但是在写入的时候有个限制: 1.mysql中的目标表事先已经存在,并且当中存在主键,自增长的键id 2. ...
spark操作Kudu之写 - 使用DataFrame API
在通过DataFrame API编写时,目前只支持一种模式“append”.尚未实现的“覆盖”模式 import org.apache.kudu.spark.kudu._ import org.apa ...
spark操作Kudu之读 - 使用DataFrame API
虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本身调用读/写API. 要设置读取,我们需要为Kudu表指定选项,命名我们要读取的表以及为表提供服务的Kudu ...
spark操作kudu之DML操作
Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成包括: INSERT - 将DataFrame的行插入Kudu表.请注意,虽然API完全支持INSERT,但不鼓励在 ...
使用spark操作kudu
Spark与KUDU集成支持: DDL操作(创建/删除) 本地Kudu RDD Native Kudu数据源,用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert ...

随机推荐

cf1199解题报告
目录 cf1199解题报告 A B C D E F cf1199解题报告发一波水题. A 模拟 #include <bits/stdc++.h> #define ll long long ...
【BZOJ3569】DZY Loves Chinese II
[BZOJ3569]DZY Loves Chinese II 题面 bzoj 题目大意: 给你一张$N(1\leq N\leq 10^5)$个点\(M(1\leq M\leq 5\times 10 ...
2019年底前的web前端面试题初级-web标准应付HR大多面试问题
作者 | Jeskson来源 | 达达前端小酒馆问:你知道在css中,html的标签元素分多少中不同的类型吗? 答:大体可分三种:1,块状元素,2,内联元素,3,内联块状元素块级元素:就是每个块级 ...
vb.net 改变 excel 底色
Dim excelApplication AsNew Excel.Application Dim excelWorkBook As Excel.Workbook = excelApplication. ...
Golang（六）time 包的用法整理
1. 常用结构体 Duration:type Duration int64,时间长度,对应单位包括 Nanosecond(纳秒).Microsecond(微妙).Millisecond(毫秒).Sec ...
【2019年05月20日】A股滚动市盈率PE历史新低排名
2010年01月01日到 2019年05月20日之间,滚动市盈率历史新低排名. 上市三年以上的公司, 2019年05月20日市盈率在300以下的公司. 1 - 阳光照明(SH600261) - 历 ...
关于nginx proxy_next_upstream 重试和 max_fails的那些事
背景及简要分析前几天一次故障定位的时候发现,后端服务(java)在从故障中恢复之后,会出现大量499,且会持续较长时间无法自行恢复.根本原因是服务容量问题,处理太慢导致客户端等不了了,主动断开.不过 ...
如何配置maven的环境变量
安装maven后,这是maven的安装路径打开:我的电脑——右键——属性——高级系统设置——环境变量第一步:点击“系统变量(S)”下面的“新建(W)...”按钮,在“新建系统变量”中输入变量名MA ...
PHP发送邮箱的方法smtp方法
PHP发送邮箱的方法采用的smtp方式首先进入163邮箱设置 POP3/SMTP服务打勾然后会提示你设置授权密码就是SMTP服务器的用户密码smtp.php文件代码<pre>< ...
flume安装使用+根据数据源分类
安装搭建: 1)解压下载的flume(安装jdk1.6及其以上) 2)在conf文件夹里面建立example.conf文件 #example.conf:单节点Flume配置 #命名Agent a1的组 ...

spark操作总结

spark操作总结的更多相关文章

随机推荐

热门专题