一. 模块开发----数据采集 1. 需求 在网站web流量日志分析这种场景中,对数据采集部分的可靠性.容错能力要求通常不会非常严苛,因此使用通用的flume日志采集框架完全可以满足需求. 2. Flume日志采集系统 2.1. Flume采集 Flume采集系统的搭建相对简单: 1.在服务器上部署agent节点,修改配置文件 2.启动agent节点,将采集到的数据汇聚到指定的HDFS目录中 针对nginx日志生成场景,如果通过flume(1.6)收集,无论是Spooling Directory…
0: jdbc:hive2://node03:10000> select * from ods_click_stream_visit limit 2;+---------------------------------------+-------------------------------------+--------------------------------+---------------------------------+-----------------------------…
一.hive级联求和的简单例子: create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/export/servers/hivedatas/accumulate/t_salary_detail.dat' into table t_salary_detail; 用户 时间 收…
四. 模块开发----统计分析 select * from ods_weblog_detail limit 2;+--------------------------+--------------------------------+--------------------------------+-------------------------------+---------------------------+----------------------------+-----------…
项目的数据分析过程在hadoop集群上实现,主要应用hive数据仓库工具,因此,采集并经过预处理后的数据,需 要加载到hive数据仓库中,以进行后续的挖掘分析. ETL:用来描述将数据从来源端经过抽取(extract).交互转换(transform).加载(load)至目的端的过程 6.1创建原始数据表 --在hive仓库中建贴源数据表 drop table if exists shizhan.ods_weblog_origin; create table shizhan.ods_weblog_…
1.安装并配置zk 2.安装并配置Kafka 3.启动zk 4.启动Kafka 5.创建topic [root@mini3 kafka]# bin/kafka-console-producer. --topic cyf-test 程序代码 package org.apache.spark import java.net.InetSocketAddress import org.apache.spark.HashPartitioner import org.apache.spark.SparkCo…
1.jdk问题解决:jdk配置参考:http://blog.csdn.net/superit401/article/details/72847110 2.build path:项目右键——Build Path——Config Build Path...——重点看Libraries标签页,JRE的版本有没有不兼容包小红叉的,还有就是看看有没有包小红叉的jar包,有的 话删除,或重新导入 3.Deployment Assembly:在项目右键——Properties——左侧面板有这个配置项,这里是配…
mac下安装git 安装过程: 1.下载Git installer http://git-scm.com/downloads 2.下载之后打开,双击.pkg安装 3.打开终端,使用git --version或者which git命令查看安装版本,有就是安装成功了 4.创建一个全球用户名.全球邮箱 git config --global user.name "lanxixixi" git config --global user.email "MY_NAME@example.c…
精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第四章:点击流分析的奇妙世界:实际的解决方案 到开始实际工作的时候了.哦耶! 在本章中,您将了解到一些最重要的网络分析报告,我将介绍如何对SEO.网站搜索.微件分析等应用酷炫而有效的报告. 然后你将进入分析忍者的下一个段位.您将学习如何应对一些最困难的挑战:作为在网络上留有数据信息的人,那些困扰着我们的生活,. 如果你直接跳到了这一章,我建议至少去浏览一下第3章,因为它是这一章的基础. 章节内容 一.  Web分析入门 二.…
精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第三章:点击流分析的奇妙世界:指标 新的Web Analytics 2.0心态:搞定它.新的闪亮系列工具:是的.准备好了吗?当然! 现在是时候开始构建度量和关键绩效指标(KPI)模块来探索Clickstream分析这个美呆了的世界. 我将捣碎一些神话,摒弃(友好地)一些强烈推荐但却不可行的方法,并且帮助你更好地诊断性能低下的根源. 也意味着,在本章你将开始磨练你的技能以成为一个分析忍者! 章节内容 一.  重新访问标准的指标…