【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版

铭文一级：

第8章 Spark Streaming进阶与案例实战

黑名单过滤

访问日志 ==> DStream
20180808,zs
20180808,ls
20180808,ww
==> (zs: 20180808,zs)(ls: 20180808,ls)(ww: 20180808,ww)

黑名单列表 ==> RDD
zs
ls
==>(zs: true)(ls: true)

==> 20180808,ww

leftjoin
(zs: [<20180808,zs>, <true>]) x
(ls: [<20180808,ls>, <true>]) x
(ww: [<20180808,ww>, <false>]) ==> tuple 1

第9章 Spark Streaming整合Flume

Push方式整合

Flume Agent的编写： flume_push_streaming.conf

simple-agent.sources = netcat-source
simple-agent.sinks = avro-sink
simple-agent.channels = memory-channel

simple-agent.sources.netcat-source.type = netcat
simple-agent.sources.netcat-source.bind = hadoop000
simple-agent.sources.netcat-source.port = 44444

simple-agent.sinks.avro-sink.type = avro
simple-agent.sinks.avro-sink.hostname = 192.168.199.203
simple-agent.sinks.avro-sink.port = 41414

simple-agent.channels.memory-channel.type = memory

simple-agent.sources.netcat-source.channels = memory-channel
simple-agent.sinks.avro-sink.channel = memory-channel

flume-ng agent \
--name simple-agent \
--conf $FLUME_HOME/conf \
--conf-file $FLUME_HOME/conf/flume_push_streaming.conf \
-Dflume.root.logger=INFO,console

hadoop000:是服务器的地址
local的模式进行Spark Streaming代码的测试 192.168.199.203

本地测试总结
1）启动sparkstreaming作业
2) 启动flume agent
3) 通过telnet输入数据，观察IDEA控制台的输出

spark-submit \
--class com.imooc.spark.FlumePushWordCount \
--master local[2] \
--packages org.apache.spark:spark-streaming-flume_2.11:2.2.0 \
/home/hadoop/lib/sparktrain-1.0.jar \
hadoop000 41414

铭文二级：

第8章 Spark Streaming进阶与案例实战

复制NetworkWordCount改成TransformApp：

1.构建黑名单

val blacks = List("zs","ls")

val blacksRDD = ssc.sparkContext.parallelize(blacks).map(x=>(x,true))

传入的数据：20180808,zs

需要构建的各种形式：(zs: 20180808,zs)(ls: 20180808,ls)(ww: 20180808,ww)

黑名单：(zs: true)(ls: true)

RDD=(zs: [<20180808,zs>, <true>]) x
(ls: [<20180808,ls>, <true>]) x
(ww: [<20180808,ww>, <false>])

val clicklog = lines.map(x => (x.split(",")(1),x)).transform(rdd => {

　　rdd.leftOuterJoin(blacksRDD)

　　.filter(x => x._2._2.getOrElse(flase) != true)

　　.map(x => x._2._1)

})

clicklog.print()　　　　//打印来看看

实战：整合Spark Streaming与Spark SQL的操作

直接拷贝官方源码来测试->点击

导入相应的包

在pom.xml导入SparkSQL的依赖（将Spark Streaming的改成sql即可）

官方关键代码：

// Convert RDD[String] to RDD[case class] to DataFrame

val wordsDataFrame = rdd.map(w => Record(w)).toDF()

// Creates a temporary view using the DataFrame

wordsDataFrame.createOrReplaceTempView("words")

运行监测即可

第9章 Spark Streaming整合Flume（push与pull方式）

push方式（看官网）：

一、Flume配置->二、导入依赖->三、FlumeUtils->四、spark-submit提交

一、cp exec-memory-avro.conf flume-push-streaming.conf

修改agent、source、channel、sink名称（官网点击）

exec source改成netcat source因为等下从端口获取数据

type、bind、port：44444

sink改成avro sink：

type、hostname、port：41414

二、导入依赖（官网模板）：

资源依赖参考对比：

Source     Artifact

Kafka      spark-streaming-kafka-0-8_2.11

Flume      spark-streaming-flume_2.11

Kinesis    spark-streaming-kinesis-asl_2.11 [Amazon Software License]

三、FlumeUtils（参数由Edit Configurations传入）返回值为JavaReceiverInputDStream：

/**

  * Spark Streaming整合Flume的第一种方式

  */

object FlumePushWordCount {

  def main(args: Array[String]): Unit = {

    if(args.length != 2) {

      System.err.println("Usage: FlumePushWordCount <hostname> <port>")

      System.exit(1)

    }

    val Array(hostname, port) = args

    val sparkConf = new SparkConf() //.setMaster("local[2]").setAppName("FlumePushWordCount")

    val ssc = new StreamingContext(sparkConf, Seconds(5))

    //TODO... 如何使用SparkStreaming整合Flume

    val flumeStream = FlumeUtils.createStream(ssc, hostname, port.toInt)

    flumeStream.map(x=> new String(x.event.getBody.array()).trim)

      .flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()

    ssc.start()

    ssc.awaitTermination()

  }

}

本机代码联调测试：

1、sink上的ip改成本机ip

2、本地测试的代码就修改成自己0.0.0.0，port为41414

3、启动顺序：

启动代码程序->Flume启动->telnet localhost 44444

四、spark-submit提交到生产：

打包：mvn clean package -DskipTests

可以得到路径：sparktrain-1.0.jar

传文件到虚拟机命令（仅适用于mac用户）：

scp sparktrain-1.0.jar hadoop@hadoop000:~/lib

完整指令：

spark-submit \

--class com.imooc.spark.FlumePushWordCount \
--master local[2] \
--packages org.apache.spark:spark-streaming-flume_2.11:2.2.0 \
/home/hadoop/lib/sparktrain-1.0.jar \
hadoop000 41414

【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版的更多相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版
铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phado ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理需求:统计主站每个(指定)课程访问的客户端.地域信息分布地域:ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础课程 ==&g ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息- ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

linux命令学习之：df
df命令用于显示磁盘分区上的可使用的磁盘空间.默认显示单位为KB.可以利用该命令来获取硬盘被占用了多少空间,目前还剩下多少空间等信息. 语法 df (选项) (参数) 选项 -a或--all:包含全部 ...
vue总结2
1. 给router-link添加事件之前用v-link 现在用 router-link 添加事件要用原生的.native修饰v-on <my-component v-on:click.nat ...
ThreadExecutorPool 线程池组件
ThreadExecutorPool是使用最多的线程池组件: Executor是用来执行提交的Runnable任务的对象,并以接口的形式定义,提供一种提交任务(submission task)与执行任 ...
Django模板如何用一个变量查找字典值
mydict = {"key1":"value1", "key2":"value2"} 在Django模板中查找字典值的 ...
Linux硬件相关
1)查看设备号/厂商号 http://blog.csdn.net/styshoo/article/details/51203881 二.硬件厂商 1)瑞传科技股份有限公司 https://www. ...
3F - Lowest Common Multiple Plus
求n个数的最小公倍数. Input 输入包含多个测试实例,每个测试实例的开始是一个正整数n,然后是n个正整数. Output 为每组测试数据输出它们的最小公倍数,每个测试实例的输出占一行.你可以假设最 ...
PAT 1005 继续(3n+1)猜想 (25)（代码）
1005 继续(3n+1)猜想 (25)(25 分) 卡拉兹(Callatz)猜想已经在1001中给出了描述.在这个题目里,情况稍微有些复杂. 当我们验证卡拉兹猜想的时候,为了避免重复计算,可以记录下 ...
hdu 1010(DFS) 骨头的诱惑
http://acm.hdu.edu.cn/showproblem.php?pid=1010 题目大意从S出发,问能否在时间t的时候到达终点D,X为障碍需要注意的是要恰好在t时刻到达,而不是在t时间 ...
BZOJ1079或洛谷2476 [SCOI2008]着色方案
一道记忆化搜索 BZOJ原题链接洛谷原题链接发现对于能涂木块数量一样的颜色在本质上是一样的,所以可以直接压在一个状态,而这题的数据很小,直接暴力开$6$维. 定义\(f[a][b][c][d] ...
jQuery实现多个ajax请求等待
通常,jQuery的函数ajax进行Ajax调用.函数ajax只能做一个Ajax调用.当Ajax调用成功时,执行回调函数.可选地,当Ajax调用返回错误时,调用另一个回调函数.但是,该功能不能根据这些 ...

【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版

【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版的更多相关文章

随机推荐

热门专题