flume将数据写入各个组件

一、flume集成hdfs，将数据写入到hdfs

a1.sources = r1

a1.sinks = k1

a1.channels = c1

a1.sources.r1.type =avro

a1.sources.r1.bind=0.0.0.0

a1.sources.r1.port=8888

#存储在本地的hdfs

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path = /flume/hdfs_sinkData/%y-%m-%d/%H%M/%S

a1.sinks.k1.hdfs.filePrefix = events-

a1.sinks.k1.hdfs.round = true

a1.sinks.k1.hdfs.roundValue = 10

a1.sinks.k1.hdfs.roundUnit = minute

a1.sinks.k1.hdfs.useLocalTimeStamp = true

#中间管道

a1.channels.c1.type = file

a1.channels.c1.checkpointDir = /yang/flume_source/checkpoint

a1.channels.c1.dataDirs = /yang/flume_source/data

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

二、flume集成kafka，将数据写到kafka

　　a1.channels = c1

a1.sources =s1

a1.sinks = k1

# 定义channel

a1.channels.c1.type = memory

# 定义source

a1.sources.s1.channels = c1

a1.sources.s1.type = avro

a1.sources.s1.bind = 0.0.0.0

a1.sources.s1.port = 8888

# 定义sink

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.k1.topic = testtopic

a1.sinks.k1.brokerList = 172.20.237.111:9092

a1.sinks.k1.requiredAcks = 1

a1.sinks.k1.batchSize = 20

a1.sinks.k1.channel = c1

三、flume集成hive,将数据写入到hive

# Name the components on this agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# Describe/configure the source

a1.sources.r1.type = netcat

a1.sources.r1.bind = localhost

a1.sources.r1.port = 44444

# Describe the sink

a1.sinks.k1.type = hive

a1.sinks.k1.hive.metastore = thrift://master:9083

a1.sinks.k1.hive.database = default

a1.sinks.k1.hive.table = t_pages

　a1.sinks.k1.useLocalTimeStamp = false

　a1.sinks.k1.round = true

　a1.sinks.k1.roundValue = 10

　a1.sinks.k1.roundUnit = minute

　a1.sinks.k1.serializer = DELIMITED

　a1.sinks.k1.serializer.delimiter = "\t"

　a1.sinks.k1.serializer.serdeSeparator = '\t'

　a1.sinks.k1.serializer.fieldnames 　　　　=date,user_id,session_id,page_id,action_time,search_keyword,click_category_id,click_product_id,order_category_ids,order_product_ids,pay_category_ids,pay_product_ids,city_id

　# Use a channel which buffers events in memory

　a1.channels.c1.type = memory

　a1.channels.c1.capacity = 1000

　a1.channels.c1.transactionCapacity = 100

　# Bind the source and sink to the channel

　a1.sources.r1.channels = c1

　a1.sinks.k1.channel = c1

四、flume集成hbase

a1.sinks.k1.type = org.apache.flume.sink.hbase.AsyncHBaseSink
a1.sinks.k1.table = Router #设置Hbase的表名
a1.sinks.k1.columnFamily = log #设置Hbase的columnFamily
a1.sinks.k1.serializer.payloadColumn=serviceTime,browerOS,clientTime,screenHeight,
screenWidth,url,userAgent,mobileDevice,gwId,mac #设置Hbase的column
a1.sinks.k1.serializer = org.apache.flume.sink.hbase.BaimiAsyncHbaseEventSerializer
# 设置serializer处理类

flume将数据写入各个组件的更多相关文章

flume学习（三）：flume将log4j日志数据写入到hdfs（转）
原文链接:flume学习(三):flume将log4j日志数据写入到hdfs 在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中.配置文件如下: tier1.sources=sou ...
flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去
1. openrestry的安装 OpenResty = Nginx + Lua,是⼀一个增强的Nginx,可以编写lua脚本实现⾮非常灵活的逻辑 (1)安装开发库依赖 yum install -y ...
log4j实时将数据写入到kafka,Demo和相关的配置详解
一:在项目中引入对应的JAR包,如下,注意对应的包与之前包的冲突 <dependencies> <dependency> <groupId>junit</gr ...
Flink RichSourceFunction应用，读关系型数据(mysql)数据写入关系型数据库(mysql)
1. 写在前面 Flink被誉为第四代大数据计算引擎组件,即可以用作基于离线分布式计算,也可以应用于实时计算.Flink的核心是转化为流进行计算.Flink三个核心:Source,Transforma ...
亿级用户下的新浪微博平台架构前端机（提供 API 接口服务），队列机（处理上行业务逻辑，主要是数据写入），存储（mc、mysql、mcq、redis 、HBase等）
https://mp.weixin.qq.com/s/f319mm6QsetwxntvSXpKxg 亿级用户下的新浪微博平台架构炼数成金前沿推荐 2014-12-04 序言新浪微博在2014年3月 ...
flink---实时项目--day02-----1. 解析参数工具类 2. Flink工具类封装 3. 日志采集架构图 4. 测流输出 5. 将kafka中数据写入HDFS 6 KafkaProducer的使用 7 练习
1. 解析参数工具类(ParameterTool) 该类提供了从不同数据源读取和解析程序参数的简单实用方法,其解析args时,只能支持单只参数. 用来解析main方法传入参数的工具类 public c ...
flink-----实时项目---day07-----1.Flink的checkpoint原理分析 2. 自定义两阶段提交sink（MySQL） 3 将数据写入Hbase（使用幂等性结合at least Once实现精确一次性语义） 4 ProtoBuf
1.Flink中exactly once实现原理分析生产者从kafka拉取数据以及消费者往kafka写数据都需要保证exactly once.目前flink中支持exactly once的sourc ...
将Oracle数据库中的数据写入Excel
将Oracle数据库中的数据写入Excel 1.准备工作 Oracle数据库"TBYZB_FIELD_PRESSURE"表中数据如图: Excel模板(201512.xls): 2 ...
JavaIO 将数据写入到文件中去
package com.Practice_FileWriter; import java.io.FileWriter; import java.io.IOException; public class ...

随机推荐

第15.12节PyQt(Python+Qt)入门学习：可视化设计界面组件布局详解
一.引言在Qt Designer中,在左边部件栏的提供了界面布局相关部件,如图: 可以看到共包含有四种布局部件,分别是垂直布局(Vertical Layout).水平布局(Horizontal La ...
谈Vite在Electron环境下吃花卷拉馒头的现象
缘起在Electron的渲染进程中(也就是页面代码中), 我们常常使用process.env来携带一些环境变量, 比如HTTP服务地址的基质,本地静态资源的路径等这样做主要有两个目的一个是方便开 ...
软工项目WordCount
1.Github项目地址:https://github.com/JameMo/WordCount-for-C 2.在程序的各个模块的开发上耗费的时间: PSP2.1 Personal S ...
ThreadLocal原理记录，别被坑了！！
简介 ThreadLocal的用处 ThreadLocal是为了将数据记录一份到某个线程里,确保该数据线程安全例如数据库的Connection放入ThreadLocal,一个事务会用到很多DAO,但 ...
Codeforces Edu Round 62 A-E
A. Detective Book 模拟题,有一些细节需要注意. #include <cstdio> #include <iostream> #include <cmat ...
题解-FJOI2014 树的重心
FJOI2014 树的重心 \(Q\) 组测试数据.给一棵树大小为 \(n\),求有多少个子树与其重心相同.重心可能有多个. 数据范围:\(1\le Q\le 50\),\(1\le n\le 200 ...
GaussDB(DWS)磁盘维护：vacuum full执行慢怎么办？
摘要:在数据库中用于维护数据库磁盘空间的工具是VACUUM,其重要的作用是删除那些已经标示为删除的数据并释放空间. vacuum的功能回收空间数据库总是不断地在执行删除,更新等操作.良好的空间管理 ...
在Chrome、Firefox等高版本浏览器中实现低延迟播放海康、大华RTSP
一.背景现在到处是摄像头的时代,随着带宽的不断提速和智能手机的普及催生出火热的网络直播行业,新冠病毒的大流行又使网络视频会议系统成为商务会议的必然选择,因此RTSP实时视频流播放及处理不再局限于安防 ...
JavaSE11-多态&抽象类&接口
1.多态 1.1 多态的概述什么是多态同一个对象,在不同时刻表现出来的不同形态多态的前提要有继承或实现关系要有方法的重写要有父类引用指向子类对象 1.2 多态中的成员访问特点成员访问特点 ...
springMVC基础讲解
一.初识三层架构: 在讲解springMVC之前,先来了解一下什么是三层架构.我们的开发架构一般都是基于两种形式,一种是C/S架构(客户端/服务器),另一种是B/S架构(浏览器服务器).在javaEE ...

flume将数据写入各个组件

flume将数据写入各个组件的更多相关文章

随机推荐

热门专题