Flume_初识
企业架构
数据源 webserver RDBMS
数据的采集 shell、flume、sqoop job
监控和调度 hue、oozie
数据清洗及分析 mapreduce、hive
数据保存 sqoop
概念: 三大功能 collecting(收集),aggregating(聚合),moving(传输)
Flume是一个分布式的,可靠的,可用的,健壮且高容错性的框架,非常有效率的对大数据量
的日志数据进行收集,聚集,传输信息的服务,但老版本仅仅运行在Linux环境中
特点: on streaming data flows(基于流式的数据)
数据流: job 不断获取数据
任务流:job1 --> job2 --> job3&job4 --> job5
在线实时收集应用分析,简单表现为:写个source、channel、sink,之后一条命令
就能操作成功了,实际情况下flume、kafka实时进行数据收集
spark、storm实时去处理,impala实时去查询
Flume-ng只有一个角色节点: agent的角色,agent有source、channel、sink组成
其中
source 用于采集数据,source是产生数据流的地方,同时Source会将产生的数据流传输到channel
channel 连接source和sink,有点像队列
sink 用于从channel收集数据,将数据写到目标源,可以是下一个source也可以是HDFS或是HBASE
Events(封装数据)
Event是Flume数据传输的基本单元
Flume以事件的形式将数据从源头传送到最终的目的地
Event由可选的header和body构成(类似http协议)
载有的数据对flume是不透明的
Header是容纳了key-value字符串对的无序组合,key在集合内是唯一的
Header可以在上下文路由中使用扩展
Flume安装部署
下载对应的cdh版本
解压后进行配置文件
-> env:修改java_home
-> 连接Hadoop
--> 启动flume时会先加载全局HADOOP_HOME变量,再去读取core/hdfs-site.xml
--> 将hdfs的配置文件放到conf目录
--> 在agent配置文件中写明hdfs的绝对路径
--> 既然在HDFS上读写数据,需要hdfs的API,即需要导入Hadoop对应部分jar包
commons-configuration-1.6.jar
hadoop-auth-2.5.0-cdh5.3.6.jar
hadoop-common-2.5.0-cdh5.3.6.jar
hadoop-hdfs-2.5.0-cdh5.3.6.jar
-> 命令格式
bin/flume-ng agent -c conf/ -n agentname -f agent_file
-c flume配置文件目录
-f properties文件目录
企业中常用的类型
-> source
--> exec
--> spoolingdir
--> kafaka source
--> syslog source
--> http source
-> channel
--> memory channel (不安全)
--> file channel
--> kafaka channel
-> sink
--> hdfs sink
--> hbase sink
--> hive sink
Flume_初识的更多相关文章
- Android动画效果之初识Property Animation(属性动画)
前言: 前面两篇介绍了Android的Tween Animation(补间动画) Android动画效果之Tween Animation(补间动画).Frame Animation(逐帧动画)Andr ...
- 初识Hadoop
第一部分: 初识Hadoop 一. 谁说大象不能跳舞 业务数据越来越多,用关系型数据库来存储和处理数据越来越感觉吃力,一个查询或者一个导出,要执行很长 ...
- python学习笔记(基础四:模块初识、pyc和PyCodeObject是什么)
一.模块初识(一) 模块,也叫库.库有标准库第三方库. 注意事项:文件名不能和导入的模块名相同 1. sys模块 import sys print(sys.path) #打印环境变量 print(sy ...
- 初识IOS,Label控件的应用。
初识IOS,Label控件的应用. // // ViewController.m // Gua.test // // Created by 郭美男 on 16/5/31. // Copyright © ...
- UI篇(初识君面)
我们的APP要想吸引用户,就要把UI(脸蛋)搞漂亮一点.毕竟好的外貌是增进人际关系的第一步,我们程序员看到一个APP时,第一眼就是看这个软件的功能,不去关心界面是否漂亮,看到好的程序会说"我 ...
- Python导出Excel为Lua/Json/Xml实例教程(一):初识Python
Python导出Excel为Lua/Json/Xml实例教程(一):初识Python 相关链接: Python导出Excel为Lua/Json/Xml实例教程(一):初识Python Python导出 ...
- 初识SpringMvc
初识SpringMvc springMvc简介:SpringMVC也叫Spring Web mvc,属于表现层的框架.Spring MVC是Spring框架的一部分,是在Spring3.0后发布的 s ...
- 初识redis数据类型
初识redis数据类型 1.String(字符串) string是redis最基本的类型,一个key对应一个value. string类型是二进制安全的.意思是redis的string可以包含任何数据 ...
- Redis初识、设计思想与一些学习资源推荐
一.Redis简介 1.什么是Redis Redis 是一个开源的使用ANSI C 语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value 数据库,并提供多种语言的API.从2010 年 ...
随机推荐
- Pandas-数据选取
Pandas包对数据的常用数据切片功能 目录 [] where 布尔查找 isin query loc iloc ix map与lambda contains DataFrame的索引选取 [] 只能 ...
- PHP安装模式cgi、fastcgi、php_mod比较
先了解一下普通cgi的工作流程: web server收到用户请求,并把请求提交给cgi程序,cgi程序根据请求提交的参数作相应处理,然后输出标准的html语句返回给web server,web se ...
- 利用 autoconf 和 automake 生成 Makefile 文件
一.相关概念的介绍 什么是 Makefile?怎么书写 Makefile?竟然有工具可以自动生成 Makefile?怎么生成啊?开始的时候,我有这么多疑问,所以,必须得先把基本的概念搞个清楚. 1.M ...
- Linux进程间通信(六):共享内存 shmget()、shmat()、shmdt()、shmctl()
下面将讲解进程间通信的另一种方式,使用共享内存. 一.什么是共享内存 顾名思义,共享内存就是允许两个不相关的进程访问同一个逻辑内存.共享内存是在两个正在运行的进程之间共享和传递数据的一种非常有效的方式 ...
- SSI指令
1.SSI定义 SSI是英文Server Side Includes的缩写, 即“服务器端包含”或“服务器端嵌入”技术. SSI在HTML文件中,可以通过注释行调用的命令或指针,是一种基于服务器端的网 ...
- 四种浏览器对 clientHeight、offsetHeight、scrollHeight、clientWidth、offsetWidth 和 scrollWidth 的解释差异
网页可见区域宽:document.body.clientWidth 网页可见区域高:document.body.clientHeight 网页可见区域宽:document.body.offsetWid ...
- linux下ssh的几种验证方式
ssh的认证方式有很多种,大概可以概括为以下几类: 1.pam认证方式 在配置文件/etc/ssh/sshd_config中对应参数:UsePAM 2.密钥认证方式 配置文件/etc/ssh/sshd ...
- Cannot find the Word template:WordToRqm.dot
方案一: 如果你的word中没有“开发工具”,就在“选项”中找到“自定义功能区”,右侧列表中找到“开发工具”,添加. 转到“开发工具”选项卡,com加载项,里面有个关于Powerdesigner的,反 ...
- 使用jquery实现单选框、多选框取消选中状态
function radioReset(){ /*方式一*/ /* var radios = $("input[type='radio']"); for (i=0; i<ra ...
- myeclipse(2015)中创建简单的Maven项目的步骤(用于生成可执行jar文件)------》myeclipse2015
利用MyEclipse的引导,可以很方便的创建简单的.用于生成可执行jar文件的Maven项目: 1.New -> Project... 选择 Maven Project, 点击Next > ...