Spark的Streaming + Flume进行数据采集（flume主动推送或者Spark Stream主动拉取）

1、针对国外的开源技术，还是学会看国外的英文说明来的直接，迅速，这里简单贴一下如何看：

2、进入到flume的conf目录，创建一个flume-spark-push.sh的文件：

[hadoop@slaver1 conf]$ vim flume-spark-push.sh

配置一下这个文件，flume使用avro的。

# example.conf: A single-node Flume configuration

# Name the components on this agent

#定义这个agent中各组件的名字，给那三个组件sources，sinks，channels取个名字,是一个逻辑代号:

#a1是agent的代表。

a1.sources = r1

a1.channels = c1

a1.sinks = k1

# Describe/configure the source 描述和配置source组件：r1

#类型, 从网络端口接收数据,在本机启动, 所以localhost, type=spoolDir采集目录源,目录里有就采

#type是类型，是采集源的具体实现，这里是接受网络端口的，netcat可以从一个网络端口接受数据的。netcat在linux里的程序就是nc，可以学习一下。

#bind绑定本机localhost。port端口号为44444。

a1.sources.r1.type = exec

a1.sources.r1.bind = tail -f /home/hadoop/data_hadoop/spark-flume/wctotal.log

a1.sources.r1.shell = /bin/bash -c

# Describe the sink 描述和配置sink组件：k1

#type，下沉类型，使用logger，将数据打印到屏幕上面。

#a1.sinks.k1.type = logger

# Use a channel which buffers events in memory 描述和配置channel组件，此处使用是内存缓存的方式

#type类型是内存memory。

#下沉的时候是一批一批的, 下沉的时候是一个个eventChannel参数解释：

#capacity：默认该通道中最大的可以存储的event数量，1000是代表1000条数据。

#trasactionCapacity：每次最大可以从source中拿到或者送到sink中的event数量。

a1.channels.c1.type = memory

a1.channels.c1.capacity =

a1.channels.c1.transactionCapacity = 

# define sink

a1.sinks.k1.type= avro

a1.sinks.k1.hostname = slaver1

a1.sinks.k1.port = 

# Bind the source and sink to the channel 描述和配置source  channel   sink之间的连接关系

#将sources和sinks绑定到channel上面。

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

3、然后去Spark的github查看项目demo：https://github.com/apache/spark

具体案例如：https://github.com/apache/spark/blob/v1.5.1/examples/src/main/scala/org/apache/spark/examples/streaming/FlumeEventCount.scala

代码如下所示：

import org.apache.spark._

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.streaming.flume._

import org.apache.spark.util.IntParam

val ssc = new StreamingContext(sc, Seconds())

val stream = FlumeUtils.createStream(ssc, slaver1, , StorageLevel.MEMORY_ONLY_SER_2)

stream.count().map(cnt => "Received " + cnt + " flume events." ).print()

ssc.start()             // Start the computation

ssc.awaitTermination()  // Wait for the computation to terminate

导入flume的包的时候出现问题，找不到包：import org.apache.spark.streaming.flume._

scala> import org.apache.spark.streaming.flume._

<console>:: error: object flume is not a member of package org.apache.spark.streaming

       import org.apache.spark.streaming.flume._

由于没有搭建maven项目，在命令行需要导入jar包，这里先放置一下，稍后继续记笔记。

待续.......

Spark的Streaming + Flume进行数据采集（flume主动推送或者Spark Stream主动拉取）的更多相关文章

百度链接提交-主动推送Python版
百度目前提供自动提交链接和手动提交链接两种方式,其中自动提交又分为主动推送.自动推送和sitemap三种形式,按百度的说法,主动推送的效果最好,百度站长平台后台也提供了curl.php.ruby的推送 ...
PHP版微信公共平台消息主动推送,突破订阅号一天只能发送一条信息限制
2013年10月06日最新整理. PHP版微信公共平台消息主动推送,突破订阅号一天只能发送一条信息限制微信公共平台消息主动推送接口一直是腾讯的私用接口,相信很多朋友都非常想要用到这个功能. 通过学习 ...
SEO 百度后台主动推送链接
实践步骤,先用爬虫程序将本网站的所有连接爬取出来,再用python文件处理程序把爬虫来的东东整理成一行一个链接的文本格式.再用postman接口测试工具,使用post方式,将所有的链接post过去,这 ...
asp.net 实现微信公众平台的主动推送信息
通过学习借鉴朋友的实现方法进行整理(微信公众帐号主动发送消息给用户,asp.net版本). /// <summary> /// MD5 32位加密 /// </summary> ...
1.使用SignalR实现页面即时刷新（服务端主动推送）
模块功能说明: 实现技术:sqlserver,MVC,WebAPI,ADO.NET,SignalR(服务器主动推送) 特殊车辆管理--->移动客户端采集数据存入数据库---->只要数据库数 ...
Django2.0.4 + websocket 实现实时通信，主动推送，聊天室及客服系统
webSocket是一种在单个TCP连接上进行全双工通信的协议. webSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据.在WebSocket API中,浏览器 ...
Python 版百度站长平台链接主动推送脚本
如果自己的网站需要被百度收录,可以在搜索结果中找到,就需要将网站的链接提交给百度.依靠百度的爬虫可能无法检索到网站所有的内容,因此可以主动将链接提交给百度. 在百度的站长平台上介绍了链接提交方法,目前 ...
【SpringBoot】服务器端主动推送SSE技术讲解
=====================16.高级篇幅之SpringBoot2.0服务器端主动推送SSE技术讲解 ============================ 1.服务端推送常用技术介绍 ...
使用SignalR实现页面即时刷新（服务端主动推送）
模块功能说明: 实现技术:sqlserver,MVC,WebAPI,ADO.NET,SignalR(服务器主动推送) 特殊车辆管理--->移动客户端采集数据存入数据库---->只要数据库数 ...

随机推荐

【转】Python之系统交互（subprocess）
[转]Python之系统交互(subprocess) 本节内容 os与commands模块 subprocess模块 subprocess.Popen类总结我们几乎可以在任何操作系统上通过命令行指 ...
eMMC基础技术1：MMC简介
[转]http://www.wowotech.net/basic_tech/mmc_sd_sdio_intro.html 1. 前言熟悉Linux kernel的人都知道,kernel使用MMC s ...
Cola Cloud 基于 Spring Boot, Spring Cloud 构建微服务架构企业级开发平台
Cola Cloud 基于 Spring Boot, Spring Cloud 构建微服务架构企业级开发平台: https://gitee.com/leecho/cola-cloud
sublime修改侧边栏字体
安装了sublime的material主题后,侧边栏的字体特别小,设置方法如下: 安装插件用上面的插件打开 Material-Theme.sublime-theme 如下 { "class ...
hibernate框架学习第六天：QBC、分页查询、投影、数据加载策略、二级缓存
QBC查询 1.简单查询 Criteria c = s.createCriteria(TeacherModel.class); 2.获取查询结果多条:list 单挑:uniqueResult 3.分 ...
[PHP]常量的一些特性
1. define()函数如果定义了两个名称一模一样的常量,那么它将不会抛出错误,并且只有第一次的定义是生效的,再次定义并不会覆盖先前的值: define('ABC', 0); define('ABC ...
[MySql]索引的一些技巧
一.多表子从查询多表查询时,子查询可能会出现触发不了索引的情况 ,)); 上面语句,test_1和test_public都WHERE了主键id,常理来说这个查询不存在问题,事实上主语句并不会触发索引 ...
02 编程语言、python变量
一编程语言介绍(***) 1.1机器语言:直接用计算机能理解的二进制指令编写程序,直接控制硬件优点:执行效率高,跨平台性低缺点:开发效率低 1.2汇编语言:用英文标签取代二进制指令编写程序,本质 ...
Tornado学习笔记(三) 请求方式/状态码
本章我们来学习 Tornado 支持的请求方式请求方式 Tornado支持任何合法的HTTP请求(GET.POST.PUT.DELETE.HEAD.OPTIONS).你可以非常容易地定义上述任一种方 ...
32)django-modelform
一:mdoelform modelform是model和form结合 model+form =>验证+数据库 class A(model): user= pass= Form: class Lo ...

Spark的Streaming + Flume进行数据采集（flume主动推送或者Spark Stream主动拉取）

Spark的Streaming + Flume进行数据采集（flume主动推送或者Spark Stream主动拉取）的更多相关文章

随机推荐

热门专题