《OD学storm》20160827

【《OD学storm》20160827】的更多相关文章

《OD学storm》20160827

http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/20830329 http://shiyanjun.cn/archives/1472.html 一.topology拓扑图 Storm在集群上运行一个Topology时,主要通过以下3个实体来完成Topology的执行工作:(1)Worker(进程)(2)Executor(线程)(3)Task 1个w…

《OD学storm》20160828

一.Storm项目 1. 架构 javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs -> kafka -> storm -> hbased kafka吞吐量达,可以被不同的消费者重复消费 2. 项目需求电商用户提交订单并且成功支付收集订单详情分析: (1)每天(每小时.每分钟)电商网站的总销售额.订单笔数 (2)基于地域(国家.省份.城市).时段 (3)从客户角度,统计客户消费情况 (4)客…

《OD学hive》第四周0717

一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spark: 2. 如何学习大数据技术上课时候,认真听,勤做笔记: 遇到难理解的概念,马上记录下来: 课后多动手,操作过程遇到问题,多思考: 不要遇到问题,首先就问别人: 珍惜问问题的机会: 讲究问题的技巧与方式,提出自己的大概思考思路: 多总结: 总结成文档,作为以后的参考: 归档成自己的知识库: 每个…

《OD学hadoop》20160903某旅游网项目实战

一.大数据的落地点 1.数据出售数据商城:以卖数据为公司的核心业务 2. 数据分析百度统计友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 (1)广告投入:网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一个可以报价的广告位信息给所有的广告公司(报价是否.价格多少) ->广告公司接受到这个报价信息,根据携带的用户信息计算用户点击的概率(用户点击模型)->广告公司将是否报价信息以及报价…

《OD学HBase》20160821

一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存初生代内存空间:数据停留时间较短 128~512M -Xmn128M 老生代内存空间:数据停留时间比较长,几GB 内存碎片 GC清理 -->进程停顿当垃圾过多,GC进程限制应用程序进程的进行 GC垃圾回收策略: Parral…

《OD学Oozie》20160807Oozie

一.引入 MapReduce Job Hive 脚本任务同一个业务:先后.定时调度工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架专门定义与调度MapReduce Job工作流程拓展:shell.hive.sqoop.hdfs oozie演变过程: v1 Workflow 工作流定义 v2 Coordinator 调度基于时间.基于数据集是否可用 v3 bundle 将某些相关的Cordinator集成在一块调度批量执行案例: nginx…

《OD学Flume》20160806Flume和Kafka

一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信息的服务. 1. 架构方式 1)所有应用使用一台flume服务器: 2)所有应用共享flume集群: 3)每个应用使用一台flume,然后使用一个flume节点收集分散的flume数据: 2. flume组件 1)启动的每个flume进程(jvm进程),称为agent 每个flume agent:…

《OD学spark》20160924scala基础

拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分: 第一部分:基础篇 SCALA:1天 SparkCore:2天 - MapReduce SparkSQL:1天 - Hive Shark = Hive on Spark 关键,企业中必用的,必须掌握…

《OD学HBase》20160820

一.案例微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户查看关注用户的微博内容微博数据存储: 响应时间秒级无延迟 (1)mysql分布式 (2)hbase数据库使用HBase数据库实现微博系统数据的存储表的设计: 命名空间:weibo 1. 微博内容表 TableName: weibo:weibo-content RowKey:用户ID_timestamp 列簇:cf 列标签: cf:content,cf:title,cf:photo 版本设计:只需要保留一个版本 2.…

《OD学HBase》20160814

一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据库 BigTable:一种分布式海量结构化数据存储系统 HBase基于google论文实现的开源数据库框架场景: 对海量数据进行随机读写.实时查询(对上亿条数据能够在秒级进行访问) 表:上亿行百万列 ———TB级别甚至PB级别设备:廉价的商用服务器 HBase:真正存储数据还是在HDFS,数据分…