《OD学Flume》20160806Flume和Kafka】的更多相关文章

一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信息的服务. 1. 架构方式 1)所有应用使用一台flume服务器: 2)所有应用共享flume集群: 3)每个应用使用一台flume,然后使用一个flume节点收集分散的flume数据: 2. flume组件 1)启动的每个flume进程(jvm进程),称为agent 每个flume agent:…
The new integration between Flume and Kafka offers sub-second-latency event processing without the need for dedicated infrastructure. In this previous post you learned some Apache Kafka basics and explored a scenario for using Kafka in an online appl…
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spark: 2. 如何学习大数据技术 上课时候,认真听,勤做笔记: 遇到难理解的概念,马上记录下来: 课后多动手,操作过程遇到问题,多思考: 不要遇到问题,首先就问别人: 珍惜问问题的机会: 讲究问题的技巧与方式,提出自己的大概思考思路: 多总结: 总结成文档,作为以后的参考: 归档成自己的知识库: 每个…
http://flume.apache.org/FlumeUserGuide.html#custom-channel-selector 官方文档上channel selectors 有两种类型: Replicating Channel Selector (default) Multiplexing Channel Selector 这两种selector的区别是:Replicating 会将source过来的events发往所有channel,而Multiplexing 可以选择该发往哪些cha…
第一步:数据源 手写程序实现自动生成如下格式的日志文件: 15837312345,13737312345,2017-01-09 08:09:10,0360 打包放到服务器,使用如下命令执行,模拟持续不断的日志文件: java -cp ct_producter-1.0-SNAPSHOT.jar producter.ProductLog ./awen.tsv 第二步:监听log.tsv日志 使用Flume监控滚动的awen.tsv日志,编写flume # Name the components on…
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 (1)广告投入:网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一个可以报价的广告位信息给所有的广告公司(报价是否.价格多少) ->广告公司接受到这个报价信息,根据携带的用户信息计算用户点击的概率(用户点击模型)->广告公司将是否报价信息以及报价…
一.Storm项目 1. 架构 javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs -> kafka -> storm -> hbased kafka吞吐量达,可以被不同的消费者重复消费 2. 项目需求 电商 用户提交订单并且成功支付 收集订单详情 分析: (1)每天(每小时.每分钟)电商网站的总销售额.订单笔数 (2)基于地域(国家.省份.城市).时段 (3)从客户角度,统计客户消费情况 (4)客…
1:如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数据仍然会被写入到Source中指定的Topic中. 2:Kafka Topic覆盖问题解决方案,利用flume的拦截器 #拦截器处理,topic覆盖问题 agent_log.sources.kafka0.interc…
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较短  128~512M -Xmn128M 老生代内存空间:数据停留时间比较长,几GB 内存碎片  GC清理 -->进程停顿 当垃圾过多,GC进程限制应用程序进程的进行 GC垃圾回收策略: Parral…
官网: 参考文档: Kafka入门经典教程 Kafka工作原理详解 一.安装zookeeper 1. 下载zookeeper-3.4.5-cdh5.3.6.tar.gz 下载地址为: http://archive.cloudera.com/cdh5/cdh/5/ 2. 解压到/opt/modules/cdh目录 -cdh5.3.6.tar.gz -C /opt/modules/ 3. 修改配置 cd /opt/modules/cdh/zookeeper--cdh5.3.6 mkdir dataD…
一.引入 MapReduce Job Hive 脚本任务 同一个业务:先后.定时调度 工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架 专门定义与调度MapReduce Job工作流程 拓展:shell.hive.sqoop.hdfs oozie演变过程: v1 Workflow 工作流定义 v2 Coordinator 调度 基于时间.基于数据集是否可用 v3 bundle 将某些相关的Cordinator集成在一块 调度批量执行 案例: nginx…
一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> <value>10000</value> <description>Port number of HiveServer2 Thrift interface. Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</…
一. 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二.大数据协作框架 对日志类型的海量数据进行分析 hdfs mapreduce/hive 1. 数据来源 (1)RDBMS(Oracle.MySQL.DB2...)  ->   sqoop(SQL to Hadoop) (2)文件(apache,nginx日志数据)  ->   Flume(实时抽取数据) 2. 任务调度 对数据的分析任务Job,至少都是上千(互联网公司) 任务调…
hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hadoop-01:8088/cluster 历史服务器可视化界面:http://beifeng-hadoop-01:19888/ sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daem…
拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分: 第一部分:基础篇 SCALA:1天 SparkCore:2天 - MapReduce SparkSQL:1天 - Hive Shark = Hive on Spark 关键,企业中必用的,必须掌握…
kafka 由于它自身的高性能发送与消费能力,而受到广大企业的喜欢,所以我们就先看看kafka 一些源码实现如下: public void run() { int messageNo = 1; while (true) { String messageStr = "Message_" + messageNo; long startTime = System.currentTimeMillis(); if (isAsync) { producer.send(new ProducerRec…
http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/20830329 http://shiyanjun.cn/archives/1472.html 一.topology拓扑图 Storm在集群上运行一个Topology时,主要通过以下3个实体来完成Topology的执行工作:(1)Worker(进程)(2)Executor(线程)(3)Task 1个w…
一.案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数据库实现微博系统数据的存储 表的设计: 命名空间:weibo 1. 微博内容表 TableName: weibo:weibo-content RowKey:用户ID_timestamp 列簇:cf 列标签: cf:content,cf:title,cf:photo 版本设计:只需要保留一个版本 2.…
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据库 BigTable:一种分布式海量结构化数据存储系统 HBase基于google论文实现的开源数据库框架 场景: 对海量数据进行随机读写.实时查询(对上亿条数据能够在秒级进行访问) 表:上亿行百万列 ———TB级别甚至PB级别 设备:廉价的商用服务器 HBase:真正存储数据还是在HDFS,数据分…
一.日志收集项目案例 1. oozie中依赖jar包 在工作目录下创建lib目录,上传依赖包的lib目录下 2. 作业 将日志收集与处理项目案例使用oozie的workflow执行 3. coordinator 在workflow基础上添加了一个coordinator.xml coordinator时区 UTC GMT CST  ==> GMT+0800  东八区时间 1)将本地服务器的时间设置为GMT+0800 date -R date ln -sf /usr/share/zoneinfo/A…
一.hive的压缩 1. hadoop的压缩 1)为什么需要压缩 MapReduce的性能瓶颈:网络IO.磁盘IO 数据量:对于MapReduce的优化,最主要.根本就是要能够减少数据量 Combiner:减少跨网络传输的数据量 压缩:将数据量减少,但是需要消耗CPU计算功能 2)哪些地方可以压缩 (1)输入文件进行压缩 (2)map的输出进行压缩 (3)reduce的输出进行压缩 3)压缩方式 gzip,lzo,snappy,bzip2 10G -->128M 10G -->压缩gizp -…
https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一.创建表 create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; describe formatted student; load data local inpath '/opt/datas/student.txt' into table tes…
7.16 一.回顾 二.HDFS Federation(联盟) Hadoop 2.2.0发布新特性 很多的大公司都在使用:BAT HDFS Federation + HDFS HA架构 互相隔开,但是数据存储共用 1.新特性介绍 ViewFs Guide 视图文件系统 HDFS Snapshots 快照 在某一时刻某一个瞬间在整个文件系统中,它存储的文件具体的情况 比如:存储多少文件.它的副本数...一些信息 好处:备份.恢复 Edits Viewer Image Viewer 用来查看fsim…
一.分布式集群安装1. Hadoop模式本地模式.伪分布模式.集群模式datanode 使用的机器上的磁盘,存储空间nodemanager使用的机器上的内存和CPU(计算和分析数据) 2. 搭建环境准备工作(1)克隆虚拟机,达到3台机器,分布式的架构即可重新搭建一个hadoop环境(2)克隆完成后,需要修改ip.主机名.映射.网络eth1->eth0(3)服务组件的规划senior01: 4G内存,1核CPU,50G,namenode,datanode, nodemanager, history…
一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key…
一.打包压缩 知识点: tar -zxvf -C PATH tar -jxvf tar -zcvf tar -jcvf tar:打包命令 -z 打包同时gzip压缩 -j 打包同时bzip2 -c 打包 -x 解压 -v 显示过程信息 -f 对普通文件进行操作 -C 指定解压路径 -t 查看包内容 (1)tar -zcvf `date +"%Y_%m_%d"`etc.tar.gz /etc (2)tar -zxvf 2016_07_01etc.tar.gz -C /tmp (3)tar…
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915BF.html 勤奋的男人和爱笑的女人运气都不会太差. 1. 什么是Hadoop 2. hadoop生态系统架构功能与原理 3. hadoop核心模块组成 4. hadoop 2.x伪分布式环境搭建与配置.测试 一.前置课程: Linux: Java: 应用程开发>系统层开发 数据库: SQL on…
linux下tar命令解压到指定的目录 :#tar zxvf /bbs.tar.zip -C /zzz/bbs //把根目录下的bbs.tar.zip解压到/zzz/bbs下,前提要保证存在/zzz/bbs这个目录 这个和cp命令有点不同,cp命令如果不存在这个目录就会自动创建这个目录!附:用tar命令打包例:将当前目录下的zzz文件打包到根目录下并命名为zzz.tar.gz#tar zcvf /zzz.tar.gz ./zzz----------------------------------…
1. 1) vim /etc/udev/rules.d/-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=Ethernet UUID=57d4c2c9-9e9c-48f8-a654-8e5bdbadafb8 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAME=…
一.磁盘管理 Linux添加新硬盘.分区.格式化.自动挂载 http://lxsym.blog.51cto.com/1364623/321643 给Linux系统新增加一块硬盘 http://www.linuxidc.com/Linux/2011-02/31868.htm 二.压缩和解压 linux下解压命令大全  http://www.cnblogs.com/eoiioe/archive/2008/09/20/1294681.html 三. 七.克隆虚拟机 1. 修改网络 (1)vi /etc…