《OD学storm》20160828】的更多相关文章

一.Storm项目 1. 架构 javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs -> kafka -> storm -> hbased kafka吞吐量达,可以被不同的消费者重复消费 2. 项目需求 电商 用户提交订单并且成功支付 收集订单详情 分析: (1)每天(每小时.每分钟)电商网站的总销售额.订单笔数 (2)基于地域(国家.省份.城市).时段 (3)从客户角度,统计客户消费情况 (4)客…
http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/20830329 http://shiyanjun.cn/archives/1472.html 一.topology拓扑图 Storm在集群上运行一个Topology时,主要通过以下3个实体来完成Topology的执行工作:(1)Worker(进程)(2)Executor(线程)(3)Task 1个w…
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spark: 2. 如何学习大数据技术 上课时候,认真听,勤做笔记: 遇到难理解的概念,马上记录下来: 课后多动手,操作过程遇到问题,多思考: 不要遇到问题,首先就问别人: 珍惜问问题的机会: 讲究问题的技巧与方式,提出自己的大概思考思路: 多总结: 总结成文档,作为以后的参考: 归档成自己的知识库: 每个…
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 (1)广告投入:网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一个可以报价的广告位信息给所有的广告公司(报价是否.价格多少) ->广告公司接受到这个报价信息,根据携带的用户信息计算用户点击的概率(用户点击模型)->广告公司将是否报价信息以及报价…
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较短  128~512M -Xmn128M 老生代内存空间:数据停留时间比较长,几GB 内存碎片  GC清理 -->进程停顿 当垃圾过多,GC进程限制应用程序进程的进行 GC垃圾回收策略: Parral…
一.引入 MapReduce Job Hive 脚本任务 同一个业务:先后.定时调度 工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架 专门定义与调度MapReduce Job工作流程 拓展:shell.hive.sqoop.hdfs oozie演变过程: v1 Workflow 工作流定义 v2 Coordinator 调度 基于时间.基于数据集是否可用 v3 bundle 将某些相关的Cordinator集成在一块 调度批量执行 案例: nginx…
一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信息的服务. 1. 架构方式 1)所有应用使用一台flume服务器: 2)所有应用共享flume集群: 3)每个应用使用一台flume,然后使用一个flume节点收集分散的flume数据: 2. flume组件 1)启动的每个flume进程(jvm进程),称为agent 每个flume agent:…
拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分: 第一部分:基础篇 SCALA:1天 SparkCore:2天 - MapReduce SparkSQL:1天 - Hive Shark = Hive on Spark 关键,企业中必用的,必须掌握…
一.案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数据库实现微博系统数据的存储 表的设计: 命名空间:weibo 1. 微博内容表 TableName: weibo:weibo-content RowKey:用户ID_timestamp 列簇:cf 列标签: cf:content,cf:title,cf:photo 版本设计:只需要保留一个版本 2.…
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据库 BigTable:一种分布式海量结构化数据存储系统 HBase基于google论文实现的开源数据库框架 场景: 对海量数据进行随机读写.实时查询(对上亿条数据能够在秒级进行访问) 表:上亿行百万列 ———TB级别甚至PB级别 设备:廉价的商用服务器 HBase:真正存储数据还是在HDFS,数据分…
一.日志收集项目案例 1. oozie中依赖jar包 在工作目录下创建lib目录,上传依赖包的lib目录下 2. 作业 将日志收集与处理项目案例使用oozie的workflow执行 3. coordinator 在workflow基础上添加了一个coordinator.xml coordinator时区 UTC GMT CST  ==> GMT+0800  东八区时间 1)将本地服务器的时间设置为GMT+0800 date -R date ln -sf /usr/share/zoneinfo/A…
一.hive的压缩 1. hadoop的压缩 1)为什么需要压缩 MapReduce的性能瓶颈:网络IO.磁盘IO 数据量:对于MapReduce的优化,最主要.根本就是要能够减少数据量 Combiner:减少跨网络传输的数据量 压缩:将数据量减少,但是需要消耗CPU计算功能 2)哪些地方可以压缩 (1)输入文件进行压缩 (2)map的输出进行压缩 (3)reduce的输出进行压缩 3)压缩方式 gzip,lzo,snappy,bzip2 10G -->128M 10G -->压缩gizp -…
一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> <value>10000</value> <description>Port number of HiveServer2 Thrift interface. Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</…
一. 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二.大数据协作框架 对日志类型的海量数据进行分析 hdfs mapreduce/hive 1. 数据来源 (1)RDBMS(Oracle.MySQL.DB2...)  ->   sqoop(SQL to Hadoop) (2)文件(apache,nginx日志数据)  ->   Flume(实时抽取数据) 2. 任务调度 对数据的分析任务Job,至少都是上千(互联网公司) 任务调…
https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一.创建表 create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; describe formatted student; load data local inpath '/opt/datas/student.txt' into table tes…
7.16 一.回顾 二.HDFS Federation(联盟) Hadoop 2.2.0发布新特性 很多的大公司都在使用:BAT HDFS Federation + HDFS HA架构 互相隔开,但是数据存储共用 1.新特性介绍 ViewFs Guide 视图文件系统 HDFS Snapshots 快照 在某一时刻某一个瞬间在整个文件系统中,它存储的文件具体的情况 比如:存储多少文件.它的副本数...一些信息 好处:备份.恢复 Edits Viewer Image Viewer 用来查看fsim…
一.分布式集群安装1. Hadoop模式本地模式.伪分布模式.集群模式datanode 使用的机器上的磁盘,存储空间nodemanager使用的机器上的内存和CPU(计算和分析数据) 2. 搭建环境准备工作(1)克隆虚拟机,达到3台机器,分布式的架构即可重新搭建一个hadoop环境(2)克隆完成后,需要修改ip.主机名.映射.网络eth1->eth0(3)服务组件的规划senior01: 4G内存,1核CPU,50G,namenode,datanode, nodemanager, history…
一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key…
hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hadoop-01:8088/cluster 历史服务器可视化界面:http://beifeng-hadoop-01:19888/ sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daem…
一.打包压缩 知识点: tar -zxvf -C PATH tar -jxvf tar -zcvf tar -jcvf tar:打包命令 -z 打包同时gzip压缩 -j 打包同时bzip2 -c 打包 -x 解压 -v 显示过程信息 -f 对普通文件进行操作 -C 指定解压路径 -t 查看包内容 (1)tar -zcvf `date +"%Y_%m_%d"`etc.tar.gz /etc (2)tar -zxvf 2016_07_01etc.tar.gz -C /tmp (3)tar…
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915BF.html 勤奋的男人和爱笑的女人运气都不会太差. 1. 什么是Hadoop 2. hadoop生态系统架构功能与原理 3. hadoop核心模块组成 4. hadoop 2.x伪分布式环境搭建与配置.测试 一.前置课程: Linux: Java: 应用程开发>系统层开发 数据库: SQL on…
linux下tar命令解压到指定的目录 :#tar zxvf /bbs.tar.zip -C /zzz/bbs //把根目录下的bbs.tar.zip解压到/zzz/bbs下,前提要保证存在/zzz/bbs这个目录 这个和cp命令有点不同,cp命令如果不存在这个目录就会自动创建这个目录!附:用tar命令打包例:将当前目录下的zzz文件打包到根目录下并命名为zzz.tar.gz#tar zcvf /zzz.tar.gz ./zzz----------------------------------…
1. 1) vim /etc/udev/rules.d/-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=Ethernet UUID=57d4c2c9-9e9c-48f8-a654-8e5bdbadafb8 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAME=…
一.磁盘管理 Linux添加新硬盘.分区.格式化.自动挂载 http://lxsym.blog.51cto.com/1364623/321643 给Linux系统新增加一块硬盘 http://www.linuxidc.com/Linux/2011-02/31868.htm 二.压缩和解压 linux下解压命令大全  http://www.cnblogs.com/eoiioe/archive/2008/09/20/1294681.html 三. 七.克隆虚拟机 1. 修改网络 (1)vi /etc…
一. NAT模式网络访问 (1)在linux中输入命令ifconfig查看网络信息 (2)在mac中输入命令ifconfig查看网络信息 lo0: flags=<UP,LOOPBACK,RUNNING,MULTICAST> mtu options=<RXCSUM,TXCSUM> inet6 :: prefixlen inet 127.0.0.1 netmask 0xff000000 inet6 fe80::%lo0 prefixlen scopeid 0x1 nd6 options…
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统  www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1-3版: Hadoop1系列 4版(目前仅有英文原版):Hadoop2系列 yarn高可用性,HA 2. <Hive权威指南> 3. <MapReduce设计模式> 4. <HBase权威指南> 5. <鸟哥的Linux私房菜> 6. <Vim使用技巧>…
一.Linux基本环境 1. Linux常见版本及VMware虚拟机安装Linux系统 2. 虚拟机网络配置(IP地址.主机名.防火墙) 3. 文件基本命令操作 4. 四大远程连接工具使用 二.Linux基础命令 1. 用户和组创建.删除.更改和授权 2. 文件/目录创建.删除.移动和拷贝重命名 3. 编辑器VI/VIM基本使用 4. 文件常用操作(内容查看.追加等) 三.Linux系统管理 1. 磁盘基本命令(df.du.fdisk.mount) 2. 内存使用监控命令(top.free) 3…
一.Hadoop 前置课程 1. Linux系统,基本命令 2. Java语言,JavaSE相关知识 3. MySQL基本的DML和DDL SQL on Hadoop…
1. 排序 (1)冒泡 (2)选择 (3)插入 (4)归并 2. 位运算 Bitmask provide an efficient way to manipulate a small set of Booleans. By using bitwise operations, Boolean flags can be checked, turned on (or turned off) easily and quickly. It can be used in various algorithms…
冒泡排序 一语中的:丢一把沙子,轻的物体往上浮. 基本思想:通过无序区中相邻记录关键字间的比较和位置的交换,使关键字最小的记录如气泡一般逐渐往上“漂浮”直至“水面”. 代码示例: import java.util.Arrays; public class BubbleSort { public int[] bubbleSort(int[] array) { int length = array.length; boolean swapped = true; int compareCount =…