[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）

1.启动zookeeper

2.启动kafka服务（broker）

[root@master kafka_2.11-0.10.2.1]# ./bin/kafka-server-start.sh config/server.properties

3.启动kafka的producer（前提：已经创建好topic

[root@master kafka_2.11-0.10.2.1]# ./bin/kafka-console-producer.sh --broker-list master:9092 --topic test

4.启动kafka的consumer

[root@master kafka_2.11-0.10.2.1]#./bin/kafka-console-consumer.sh --zookeeper master:2181 --topic test --from-beginning

5.打jar包，将带有依赖的jar包上传到集群上

mvn clean assembly:assembly

6.编写启动脚本，启动任务 sh run_receiver.sh

/usr/local/src/spark-2.0.2-bin-hadoop2.6/bin/spark-submit\

        --class com.skyell.streaming.ReceiverFromKafka\

        --master yarn-cluster \

        --executor-memory 1G \

        --total-executor-cores 2 \

        --files $HIVE_HOME/conf/hive-site.xml \

        ./Spark8Pro-2.0-SNAPSHOT-jar-with-dependencies.jar

监控任务及查看日志

http://master:8088/cluster

关闭spark streaming任务

yarn application -kill application_1539421032843_0093

数据驱动变革-云将个人博客地址

[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）的更多相关文章

spark streaming从指定offset处消费Kafka数据
spark streaming从指定offset处消费Kafka数据 -- : 770人阅读评论() 收藏举报分类: spark() 原文地址:http://blog.csdn.net/high ...
Vertica的这些事（十四）——Vertica实时消费kafka实现
一. 安装环境 Vertica官方提供了消费kafka的方法,需要注意版本对应消费kafka原理,是Vertica提供的Udx 首先需要安装相应的环境 /${vertica}/packages/ka ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once
一.概述上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章 ...
Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别
Receiver是使用Kafka的高层次Consumer API来实现的. Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
spark Streaming的Receiver和Direct的优化对比
Direct 1.简化并行读取:如果要读取多个partition,不需要创建多个输入DStream然后对它们进行union操作.Spark会创建跟Kafka partition一样多的RDD part ...
.Spark Streaming（上）--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...

随机推荐

从零开始入门 K8s | 应用存储和持久化数据卷：核心知识
作者 | 至天阿里巴巴高级研发工程师一.Volumes 介绍 Pod Volumes 首先来看一下 Pod Volumes 的使用场景: 场景一:如果 pod 中的某一个容器在运行时异常退出,被 ...
六、springboot 简单优雅是实现短信服务
前言上一篇讲了 springboot 集成邮件服务,接下来让我们一起学习下springboot项目中怎么使用短信服务吧. 项目中的短信服务基本上上都会用到,简单的注册验证码,消息通知等等都会用到.所 ...
js时间查询补充
先来看下JS中的日期操作: var myDate = new Date(); myDate.getYear(); //获取当前年份(2位) myDate.getFullYear(); //获取完整的年 ...
mac上git安装与github基本使用
目录安装git 创建ssh key.配置git 提交本地项目到GitHub 一.安装Git MAC安装Git 首先查看电脑是否安装Git,终端输入: git 1.通过homebrew安装Git 1. ...
Orecle基本概述(2)
1.视图1.1 视图介绍*一种虚拟的表,不是真实存在的表,以多种方式展示数据给用户看,1.2 视图使用*创建视图语法一(非只读): create or replace view 视图名字 as sql ...
MySQL学习（三）MySQL锁与事务
本章我们着重讨论MySQL锁机制的特点,常见的锁问题,以及解决MySQL锁问题的一些方法或建议. 一.MySQL锁概述相对其他数据库而言,MySQL的锁机制比较简单,其最显著的特点是不同的存储引擎支 ...
公共DNS性能大比拼
今天中午,访问Gitee突然访问不进去,然后收到红薯通知:阿里云停止了 Gitee.com 的域名解析. 码云官方也随后给出解决办法没有任何提示,没有任何提前通知,阿里云停止了 Gite ...
Oracle联合注入总结
Oracle常规联合注入 Oracle Database,又名Oracle RDBMS,或简称Oracle.是甲骨文公司的一款关系数据库管理系统. Oracle对于MYSQL.MSSQL来说意味着更大 ...
PHP array_udiff_uassoc
1.函数的参数:返回数组的差集.用定义的函数比较键值和值. 2.函数的参数: @params array $array @params array $array1 ... @params callab ...
python编程系列---Pycharm快捷键(更新中....)
以下是我常用到的Pycharm快捷键(还有很多,只是我暂时用的最多的就这些): 在开发过程中,经常使用一些快捷键会大大提高开发效率,不要因为看这多而不用,常用的就那些,用得多就都记住了,脱离鼠标,逼格 ...

[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）

1.启动zookeeper

2.启动kafka服务（broker）

3.启动kafka的producer（前提：已经创建好topic

4.启动kafka的consumer

5.打jar包，将带有依赖的jar包上传到集群上

6.编写启动脚本，启动任务 sh run_receiver.sh

监控任务及查看日志

关闭spark streaming任务

[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）的更多相关文章

随机推荐

热门专题