Spark Streaming整合Flume + Kafka wordCount

flume配置文件 flume_to_kafka.conf

a1.sources = r1

a1.sinks = k1

a1.channels = c1 

a1.sources.r1.type = spooldir

a1.sources.r1.channels = c1

a1.sources.r1.spoolDir = /home/hadoop/logs/

a1.sources.r1.fileHeader = true 

a1.channels.c1.type = memory

a1.channels.c1.capacity = 10000

a1.channels.c1.transactionCapacity = 10000

a1.channels.c1.byteCapacityBufferPercentage = 20

a1.channels.c1.byteCapacity = 800000 

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.k1.topic = spark

a1.sinks.k1.brokerList = m1:9092,m2:9092,m3:9092

a1.sinks.k1.requiredAcks = 1

a1.sinks.k1.batchSize = 20

a1.sinks.k1.channel = c1

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

kafka

1、启动kafka

./bin/kafka-server-start.sh ./config/server.properties

2、创建spark topic

bin/kafka-topics.sh --create --zookeeper m1:2181 --replication-factor 2 --partitions 2 --topic spark

启动flume

flume-ng agent -c conf/ -f conf/flume_to_kafka.conf -n a1

测试是否可以正常消费到数据

bin/kafka-console-consumer.sh --bootstrap-server m1:9092,m2:9092,m3:9092 --from-beginning --topic spark

代码实现

object SparkStreamDemo {

  def main(args: Array[String]) {

    val conf = new SparkConf()

    conf.setAppName("spark_streaming")

    conf.setMaster("local[*]")

    val sc = new SparkContext(conf)

    sc.setCheckpointDir("D:/checkpoints")

    sc.setLogLevel("ERROR")

    val ssc = new StreamingContext(sc, Seconds(5))

    val topics = Map("spark" -> 2)

    val lines = KafkaUtils.createStream(ssc, "m1:2181,m2:2181,m3:2181", "spark", topics).map(_._2)

    val ds1 = lines.flatMap(_.split(" ")).map((_, 1))

    val ds2 = ds1.updateStateByKey[Int]((x:Seq[Int], y:Option[Int]) => {

      Some(x.sum + y.getOrElse(0))

    })

    ds2.print()

    ssc.start()

    ssc.awaitTermination()

  }

}

Spark Streaming整合Flume + Kafka wordCount的更多相关文章

Spark Streaming整合logstash + Kafka wordCount
1.安装logstash,直接解压即可测试logstash是否可以正常运行 bin/logstash -e 'input { stdin { } } output { stdout {codec = ...
Spark学习之路（十五）—— Spark Streaming 整合 Flume
一.简介 Apache Flume是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中.Spark Straming提供了以下两种方式用于Flu ...
Spark 系列（十五）—— Spark Streaming 整合 Flume
一.简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中.Spark Straming 提供了以下两种方式用于 ...
Spark Streaming 整合 Flume
Spark Streaming 整合 Flume 一.简介二.推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Strea ...
Spark学习之路（十六）—— Spark Streaming 整合 Kafka
一.版本说明 Spark针对Kafka的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8和spark-streaming-kafka-0-10,其主要区别如下: s ...
Spark 系列（十六）—— Spark Streaming 整合 Kafka
一.版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下 ...
spark streaming集成flume
1. 安装flume flume安装,解压后修改flume_env.sh配置文件,指定java_home即可. cp hdfs jar包到flume lib目录下(否则无法抽取数据到hdfs上): $ ...
spark streaming中维护kafka偏移量到外部介质
spark streaming中维护kafka偏移量到外部介质以kafka偏移量维护到redis为例. redis存储格式使用的数据结构为string,其中key为topic:partition, ...
flume+kafka+spark streaming整合
1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输 ...

随机推荐

luoguP1197 [JSOI2008]星球大战 x
P1197 [JSOI2008]星球大战题目描述很久以前,在一个遥远的星系,一个黑暗的帝国靠着它的超级武器统治者整个星系.某一天,凭着一个偶然的机遇,一支反抗军摧毁了帝国的超级武器,并攻下了星系中 ...
Codeforces Round #345 （Div 2）
最后两题是orzCJK学长帮忙代打的,不过总算是到蓝名了(上次睡迟了,只剩半个小时,结果作大死点开题目看,结果rating掉了100多),还有论代码风格的重要性!!!(没写空格被学长各种D) A题题 ...
vue 渲染是出现 Do not use built-in or reserved HTML elements as component id 的警告
情况1.是因为组件命名和引入不一致造成的. 命名组件(nav) export default { name: 'nav', data () { return { } } 引入组件(Navigation ...
好题Islands
Orz yjc 吊打候选队不好的思路是枚举森林的m块,这样DP显然会涉及n当做某一维,最多只能卷积优化一下生成函数什么的n太大不用想考虑m,k比较小,能不能把n变成一个系数,而不是维度所以就是 ...
[nginx] CORS配置多域名
如下 server { listen 80; server_name www.your.com; root /data/web/www.your.com; access_log /var/log/ng ...
enum简单使用
前台传入weightCode :1/2/3/4,获取不同的区间0~10 10~50 50~100 100~999999 0~999999 public void setWeight(){ this.m ...
SQL server 安装教程
双击sql server 2008的.exe安装文件,进入[SQL Server 安装中心]. 点击界面左侧的[安装],然后点击右侧的[全新SQL Server 独立安装或向现有安装添加功能],进 ...
zabbix 监控安装部署
今天尝试一下部署zabbix 官方文档包括多个版本,此处选择4.0版本 https://www.zabbix.com/documentation/4.0/manual 1.安装环境选择 zabbix4 ...
1、node-webkit 的概念，node-webkit 的下载
node-webkit是一个基于node.js和chromium的应用程序运行环境,通过它我们可以把建立在chrome浏览器和node.js上的web应用打包成桌面应用,而且还可以跨平台的哦.很显然比 ...
Octavia 项目加速 OpenStack LBaaS 落地大规模应用场景
目录文章目录目录 OpenStack LBaaS Octavia 软件架构网络架构操作对象基本概念功能实现基本概念 Ocatvia Daemon 列表部署 Ocatvia 手动方式集成 O ...

Spark Streaming整合Flume + Kafka wordCount

flume配置文件 flume_to_kafka.conf

kafka

启动flume

代码实现

Spark Streaming整合Flume + Kafka wordCount的更多相关文章

随机推荐

热门专题