1.概述

　　本课程的视频教程地址：《Kafka实战项目之分析与设计》

　本课程我通过一个用户实时上报日志案例作为基础，带着大家去分析Kafka这样一个项目的各个环节，从而对项目的整体设计做比较合理的规划，最终让大家能够通过本课程去掌握类似Kafka项目的分析与设计。下面，我给大家介绍本课程包含的课时内容，如下图所示：

　　接下来，我们开始第一课时的学习：《项目整体概述》。

2.内容

2.1 项目整体设计

　　项目整体概述主要讲解一个项目产生的背景，以及该项目背后的目的，从而让大家更好的去把握项目的需求。

　　本课时所涉及的主要知识点，如下图所示：

　　那么，接下来，我就先从背景来给大家简述一个项目，背景包含一下知识点，如下图所示:

　　前面我已经给大家说明了，这是一个实时统计项目，我们可以实时的访问记录，通过实时流式计算后，得到用户实时的访问行迹。这个和离线计算有所区别，离线计算任务，不能立马得到我们想要的结果。

　　那么，这样一个项目我们能得到什么好处，举个例子：

　　业绩部门的同事需要知道当天的用户实时浏览行迹，而针对这一需求，我们可以通过实时计算后，将统计后的结果通过图表可视化出来，让业绩部门的同事可以非常清晰的知道，公司的用户对公司的那些业务模块赶兴趣，需求量比较大，那么业绩部门的同事，可以这一块重点投入，对那些不是很赶兴趣，需求量较小的模块，业绩部门的同事可以投入的成本相对低一些。

　　以上便是我为大家介绍的项目背景，下面我给大家介绍项目的目的。

　　项目的目的所包含的内容，如下图所示：

　　关于详细的目的内容，这里我就不多做赘述了。《观看地址》

2.2 Producer 模块分析

　　Producer模块分析一课给大家介绍数据生产环节，我带着大家去分析生产数据来源，让大家掌握数据如何收集到 Kafka 的 Producer 模块。

　　其主要知识点包含以下内容，如下所示：

　　下面，我们先去分析数据来源。我们知道，在日志记录中一条日志记录代表用户的一次活动形迹，下面我我从实时日志记录中抽取的一条用户记录，如下所示：

121.40.174.237 yx12345 [/July/ :: +] chrome appid_5 "http://www.***.cn/sort/channel/2085.html"

　　那么通过观察分析这条记录，我们可以从示例数据中得到那些信息量，这里我给大家总结到一张图上了，如下图所示：

　　在分析了日志记录的信息量，我们接下来去看看是如何收集到这些数据的，整个收集数据的流程是怎么样的，下面我用一张图来给大家，如下图所示：

　　从图中，我们可以看出，数据的产生的源头是用户，从图的左边开始看起，用户通过自己手上的终端（有可能是： PC机，手机，pad等设备去访问公司的网站），而这里访问的记录都会被实时的记录到服务器，我们在部署网站的的节点上添加 Flume的Agent代理，将这些实时记录集中收集起来，然后我们在Flume的Sink组件处添加输送的目标地址，这里我们是要将这些实时的记录输送到Kafka集群的，所以在Sink组件处填写指向Kafka集群的信息，这样收集的实时记录就被存储在Kafka的 Producer端，然后，这部分数据我们就可以在下一个阶段，也就是消费阶段去消费这些数据。

　　以上就是整个实时数据的采集过程，由用户产生，Flume收集并传输，最后存放与Kafka集群的Producer端等待被消费。

　　关于具体细节，这里就不赘述了。《观看地址》

2.3 Consumer 模块分析

　　该课时我给大家介绍数据消费环节，带着大家从消费的角度去分析消费的数据源，让大家掌握数据如何在Kafka中被消费。

　　其主要知识点包含以下内容，如下所示：

　　那么，下面我先带着大家去分析消费数据来源，关于消费数据来源的统计的KPI指标，如下图所示：

　　从图中，我们可以看出，由以下KPI指标：

业务模块的访问量：这里通过记录中的App Id来统计相关指标。
页面的访问量：关于PV，这里我们可以使用浏览记录来完成这部分的指标统计。
当天时段模块的访问量：而时间段的访问量，可以通过用户访问的时间戳，来完成这部分的指标统计。
访问者的客户端类型：在每条访问记录中，都含有对应的访问浏览设备类型，我们提取这部分内容来完成相应的统计指标。

　　以上便是我给大家分析消费数据的相关信息所设计的内容。

　　接下来，我带着大家去看看本课时的另一个比较重要的知识点，那就是关于数据源的消费流程。这里，我用一张图来给大家描述了整个消费过程，如下图所示：

　　我们先从图的最左边看起，这个是Kafka的集群，在这个集群中，存放着我们即将要被消费的数据，这里，我们通过KafkaSpout 将Kafka和Storm联系起来，将Kafka集群中要消费的数据，通过KafkaSpout输送到Storm集群，然后数据进入到Storm集群后，通过Storm的实时计算模型，按照业务指标做对应的计算，并将计算之后的结果持久化到DB库当中去，这里同时采用MySQL和Redis 来做持久化。

　　以上，便是我给大家描述的如何去消费Kafka集群中数据的流程。《观看地址》

2.4 项目整体设计

　　该课时我给大家介绍设计一个项目的整体架构和流程开发，以及 KPI 的设计，让大家能够通过本课时去掌握一个项目的设计流程。

　　其主要知识点包含以下内容，如下所示：

　　下面，我先给大家去分析本项目的详细设计流程，这里我绘制了一张图来描述整个项目设计流程的相关信息，如下图所示：

　　从图的最左边开始，依次是：

数据源：这部分数据在用户访问公司网站的时候就会产生对应的记录，我们只需要在各个网站节点添加对应的Flume的Agent代理即可。
数据收集：这里我们使用Flume集群去收集访问的日志记录，在收集完数据后，进入到下一阶段。
数据接入：在该模块下，使用Kafka来充当一个消息数据的核心中间件，通过Flume的Sink组件，将数据发送到Kafka集群，这样在Kafka的生产端就有了数据，这些数据等待去被消费。那么接下来，通过KafkaSpout 将Kafka集群和Storm集群关联起来，将Kafka集群中的数据，由KafkaSpout输送到Storm集群，这样消费端的数据就流向了Storm集群。
流式计算：在数据进入到Storm集群后，通过Storm的实时计算模型，将数据按照业务需要完成对应的指标计算，并将统计的结果持久化到DB库当中。
持久化层：在持久化层，这里选用MySQL和Redis来做持久化存储，统计结果出来后，进入到下一阶段。
数据接口层：这里我们可以编写一个RPC服务，统一的将统计结果共享出去，这里RPC服务所采用的是Thrift，完成数据的共享。
可视化层：这里由前端统一查询Thrift数据共享接口，将统计结果展示出来，完成数据的可视化。

　　以上，便是我给大家介绍本项目的整个流程设计的相关内容。关于其他的细节内容，这里就不多赘述了。《观看地址》

3.总结

　　本课程我们对项目进行了整体分析，并指导大家去分析 Kafka 的 Producer 模块和 Consumer 模块，以及帮助大家去设计项目的开发流程等知识，我们应该掌握以下知识点，如下图所示：

4.结束语

　　这就是本课程的主要内容，主要就对 Kafka 项目做前期准备，对后续学习 Kafka 项目实战内容奠定良好的基础。

　　如果本教程能帮助到您，希望您能点击进去观看一下，谢谢您的支持！

　　转载请注明出处，谢谢合作！

　 本课程的视频教程地址：《Kafka实战项目之分析与设计》

Kafka项目实战－用户日志上报实时统计之分析与设计的更多相关文章

六、Kafka 用户日志上报实时统计之分析与设计
一.项目整体概述简述项目的背景背景:用户行迹企业运营分析项目的目的通过对项目的分析,可以初步得到以下目的: •实时掌握用户动态 •根据实时统计结果,适度推广 •统计分析效果,快速合理的调整二 ...
Kafka项目实战－用户日志上报实时统计之应用概述
1.概述本课程的视频教程地址:<Kafka实战项目之应用概述> 本课程是通过一个用户实时上报日志来展开的,通过介绍 Kafka 的业务和应用场景,并带着大家搭建本 Kafka 项目的实战 ...
Kafka项目实战－用户日志上报实时统计之编码实践
1.概述本课程的视频教程地址:<Kafka实战项目之编码实践> 该课程我以用户实时上报日志案例为基础,带着大家去完成各个KPI的编码工作,实现生产模块.消费模块,数据持久化,以及应用调 ...
七、Kafka 用户日志上报实时统计之编码实践
一.数据生产实现 1.配置数据生产模块项目基础配置所包含的内容,如下所示: •项目工程的文件配置 •集群连接信息配置 •开发演示 2.实现 Flume 到 Kafka 模块实现 Flume 到 K ...
五、Kafka 用户日志上报实时统计之应用概述
一.kafka 回顾 1.简介 Kafka 的业务业务场景: 解除耦合增加冗余提高可扩展性 Buffering 异步通信 2.介绍 Kafka 的应用场景 Push Message Websit ...
Spark大型项目实战：电商用户行为分析大数据平台
本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分 ...
基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析
Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志.文件.网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据.面对这种需求当然我们可以通过 ...
项目实战14—ELK 企业内部日志分析系统
一.els.elk 的介绍 1.els,elk els:ElasticSearch,Logstash,Kibana,Beats elk:ElasticSearch,Logstash,Kibana ① ...
ASP.NET MVC + ADO.NET EF 项目实战（一）：应用程序布局设计
什么叫上下文? 在你设计一个方法的时候,无法直接从方法参数或实例成员(字段或属性)获得的所有信息都是上下文.例如: 当前用户是谁? 刚才提供操作的数据库连接实例从哪里拿到? 这个方法从哪个 View ...

随机推荐

Shell脚本中"command not found"报错处理
字符串的定义与赋值 # 定义STR1变量,值为abc STR1 = "abc"(错误写法) STR1="abc"(正确写法) 在编写java代码时会考虑到格式化 ...
Linux下Mysql安装（tar安装）
1.为数据库创建软件目录以及数据存放目录 #mysql软件目录 mkdir /software/ #mysql数据文件目录 mkdir /data/mysql 2.上传mysql-XXXXXX.tar ...
查看sql 语句io执行情况
set statistics io,time on 表 'xx'.扫描计数 1,逻辑读取 19 次,物理读取 0 次,预读 0 次,lob 逻辑读取 76 次,lob 物理读取 0 次,lob 预读 ...
Web常见安全漏洞-SQL注入
SQL注入攻击(SQL Injection),简称注入攻击,是Web开发中最常见的一种安全漏洞. 可以用它来从数据库获取敏感信息,或者利用数据库的特性执行添加用户,导出文件等一系列恶意操作, 甚至有可 ...
github管理项目
1.在GitHub上创建一个项目,然后拷贝git地址. 2.在本地打开GIT CMD,然后建立一个文件夹,输入git clone 上面拷贝的git地址. 3.文件夹下会多出一个以你创建的项目名字的文件 ...
WPF图片拖拉变形、合成
使用WPF的装饰器(Adorner)实现图片拖拉变形,DrawingVisual高保真合成图片.效果如下: 源码:https://gitee.com/orchis/ImageFotoMix.git
《C#从现象到本质》读书笔记（九）第11章C#的数据结构
<C#从现象到本质>读书笔记(九)第11章C#的数据结构 C#中的数据结构可以分为两类:非泛型数据结构和泛型数据结构. 通常迭代器接口需要实现的方法有:1)hasNext,是否还有下一个元 ...
ActiveMQ_2安装
Linux安装环境JDK7以上 gz文件拷贝到 /usr/local/目录下解压后缀为 .tar.gz的压缩包进入解压后的文件夹 cd apache-activemq-x.xx.x/ cd b ...
HashMap TreeMap的区别
Map主要用于存储健值对,根据键得到值,因此不允许键重复(重复就覆盖了),但允许值重复.Hashmap 是一个最常用的Map,它根据键的HashCode 值存储数据,根据键可以直接获取它的值,具有很快 ...
web安全基础
web安全备忘主机系统安全防护:防火墙控制 Web是一个分布式系统,一个站点多个主机布置,一主机布置多个站点:并发,异步,同步主机安全配置文件修改与强化 web站点数据验证逻辑的常用技巧:功能性代 ...

Kafka项目实战－用户日志上报实时统计之分析与设计

1.概述

2.内容

2.1 项目整体设计

2.2 Producer 模块分析

2.3 Consumer 模块分析

2.4 项目整体设计

3.总结

4.结束语

Kafka项目实战－用户日志上报实时统计之分析与设计的更多相关文章

随机推荐

热门专题