【kafka KSQL】游戏日志统计分析（1）

以游戏结算日志为例，展示利用KSQL对日志进行统计分析的过程。

启动confluent

cd ~/Documents/install/confluent-5.0.1/

bin/confluent start

查看kafka主题列表

bin/kafka-topics --list --zookeeper localhost:2181

创建接受游戏结算日志的topic

bin/kafka-topics --create --zookeeper localhost:2181 --replication-factor 1 --partitions 4 --topic score-normalized

使用生产者命令行工具往topic中写日志

bin/kafka-console-producer --broker-list localhost:9092 --topic score-normalized

> 

{"cost":7, "epoch":1512342568296,"gameId":"2017-12-04_07:09:28_高手1区_200_015_185175","gameType":"situan","gamers": [{"balance":4405682,"delta":-60,"username":"0791754000"}, {"balance":69532,"delta":-60,"username":"70837999"}, {"balance":972120,"delta":-60,"username":"abc6378303"}, {"balance":23129,"delta":180,"username":"a137671268"}],"reason":"xiayu"}

使用消费者命令行工具查看日志是否正常写入

bin/kafka-console-consumer --bootstrap-server localhost:9092 --topic score-normalized --from-beginning

;; 可以看到

{"cost":7, "epoch":1512342568296,"gameId":"2017-12-04_07:09:28_高手1区_200_015_185175","gameType":"situan","gamers": [{"balance":4405682,"delta":-60,"username":"0791754000"}, {"balance":69532,"delta":-60,"username":"70837999"}, {"balance":972120,"delta":-60,"username":"abc6378303"}, {"balance":23129,"delta":180,"username":"a137671268"}],"reason":"xiayu"}

启动KSQL客户端

bin/ksql http://localhost:8088

可以看到ksql启动后的图标，和操作终端。

ksql终端查看kafka topic列表

ksql> show topics;

打印topic中的消息

PRINT 'score-normalized';

可以看到：

Format:STRING

19-1-5 下午11时59分31秒 , NULL , {"cost":7, "epoch":1512342568296,"gameId":"2017-12-04_07:09:28_\xE9\xAB\x98\xE6\x89\x8B1\xE5\x8C\xBA_200_015_185175","gameType":"situan","gamers": [{"balance":4405682,"delta":-60,"username":"0791754000"}, {"balance":69532,"delta":-60,"username":"70837999"}, {"balance":972120,"delta":-60,"username":"abc6378303"}, {"balance":23129,"delta":180,"username":"a137671268"}],"reason":"xiayu"}

其中：

第一个逗号19-1-5 下午11时59分31秒表示消息时间。
第二个逗号NULL为消息的Key，因为是从kafka-console-producer推送的，默认为NULL。
后面的就是推送过来的消息内容。

从topic score-normalized创建一个Stream

CREATE STREAM SCORE_EVENT \

 (epoch BIGINT, \

  gameType VARCHAR, \

  cost INTEGER, \

  gamers ARRAY< \

              STRUCT< \

                      username VARCHAR, \

                      balance BIGINT, \

                      delta BIGINT \

                      > \

               >, \

  gameId VARCHAR, \

  tax BIGINT, \

  reason VARCHAR) \

  WITH ( KAFKA_TOPIC='score-normalized', \

         VALUE_FORMAT='JSON', \

         TIMESTAMP='epoch');

其中TIMESTAMP='epoch'表示以epoch的时间为事件的时间戳。

删除一个STREAM

DROP  STREAM stream_name ;

如果有查询语句在查询该流，则会出现错误：

Cannot drop USER_SCORE_EVENT.

The following queries read from this source: [].

The following queries write into this source: [CSAS_USER_SCORE_EVENT_2, InsertQuery_4, InsertQuery_5, InsertQuery_3].

You need to terminate them before dropping USER_SCORE_EVENT.

需要用TERMINATE命令停止这些查询语句，然后再删除流：

TERMINATE CSAS_USER_SCORE_EVENT_2;

TERMINATE InsertQuery_4;

从最早记录开始查询

ksql> SET 'auto.offset.reset' = 'earliest';

从Stream中查询所有数据

ksql> SELECT * FROM SCORE_EVENT;

可以看到：

1546702389664 | null | 1512342568296 | situan | 7 | [{USERNAME=0791754000, BALANCE=4405682, DELTA=-60}, {USERNAME=70837999, BALANCE=69532, DELTA=-60}, {USERNAME=abc6378303, BALANCE=972120, DELTA=-60}, {USERNAME=a137671268, BALANCE=23129, DELTA=180}] | 2017-12-04_07:09:28_高手1区_200_015_185175 | null | xiayu

其中：

第1列为记录的时间戳。
第2列为记录的key。
第3列以后就是消息中的各个字段的值，对应创建流时的顺序。
倒数第2列的null，是因为消息中tax字段不存在。

统计`2017-12-04`日的对局总数

;; 增加一个game_date字段，用于统计

CREATE STREAM SCORE_EVENT_WITH_DATE AS \

    SELECT SUBSTRING(gameId, 0, 10) AS game_date, * \

    FROM SCORE_EVENT;

SELECT game_date, COUNT(*) \

    FROM SCORE_EVENT_WITH_DATE \

    WHERE game_date = '2017-12-04' AND reason = 'game' \

    GROUP BY game_date;

目前KSQL还不支持类似下面的查询：

SELECT COUNT(*) \

  FROM SCORE_EVENT \

  WHERE gameId LIKE '2017-12-04_%';

统计参与对局的总玩家数（去重）

因为一条日志中包含多个玩家的对局信息，所以想法把每个玩家拆分成单独的事件

整合各个玩家的事件到一个统一的流USER_SCORE_EVENT：

CREATE STREAM USER_SCORE_EVENT AS \

    SELECT epoch, gameType, cost, gameId, tax, reason, gamers[0]->username AS username, gamers[0]->balance AS balance, gamers[0]->delta AS delta \

    FROM SCORE_EVENT;

INSERT INTO USER_SCORE_EVENT \

    SELECT epoch, gameType, cost, gameId, tax, reason, gamers[1]->username AS username, gamers[1]->balance AS balance, gamers[1]->delta AS delta \

    FROM SCORE_EVENT;

INSERT INTO USER_SCORE_EVENT \

    SELECT epoch, gameType, cost, gameId, tax, reason, gamers[2]->username AS username, gamers[2]->balance AS balance, gamers[2]->delta AS delta \

    FROM SCORE_EVENT;

INSERT INTO USER_SCORE_EVENT \

    SELECT epoch, gameType, cost, gameId, tax, reason, gamers[3]->username AS username, gamers[3]->balance AS balance, gamers[3]->delta AS delta \

    FROM SCORE_EVENT;

为了后续用于玩家名username的连接JOIN查询，需要重新设置Key：

CREATE STREAM USER_SCORE_EVENT_REKEY AS \

SELECT * FROM USER_SCORE_EVENT \

PARTITION BY username;

输出：

ksql> SELECT * FROM USER_SCORE_EVENT_REKEY;

4000 | lzc | 4000 | situan | 7 | 2017-12-04_07:09:28_高手2区_500_015_185175 | null | game | lzc | 972120 | -60

4000 | lzb | 4000 | situan | 7 | 2017-12-04_07:09:28_高手2区_500_015_185175 | null | game | lzb | 69532 | -60

注意：

实践过程中发现：只有对STREAM的field进行PARTITION BY才能生效。

统计各个玩家总的对局数、输赢总数、贡献的总税收，并以此创建一个表USER_SCORE_TABLE：

CREATE TABLE USER_SCORE_TABLE AS \

    SELECT username, COUNT(*) AS game_count, SUM(delta) AS delta_sum, SUM(tax) AS tax_sum \

    FROM USER_SCORE_EVENT_REKEY \

    WHERE reason = 'game' \

    GROUP BY username;

查看USER_SCORE_TABLE所有数据：

ksql> SELECT * FROM USER_SCORE_TABLE;

1546709338711 | 70837999 | 70837999 | 4 | -240 | 0

1546709352758 | 0791754000 | 0791754000 | 4 | -240 | 0

1546709338711 | a137671268 | a137671268 | 4 | 720 | 0

1546709352758 | abc6378303 | abc6378303 | 4 | -240 | 0

查询某个玩家的对局数、输赢总数、贡献的总税收：

ksql> SELECT * FROM USER_SCORE_TABLE WHERE username = '70837999';

输出：

1546709338711 | 70837999 | 70837999 | 4 | -240 | 0

统计玩家总数（去重）

添加一个傀儡列用于统计：

CREATE TABLE USER_SCORE_WITH_TAG AS \

    SELECT 1 AS tag, * FROM USER_SCORE_TABLE;

统计去重后的玩家总数

SELECT tag, COUNT(username) \

FROM USER_SCORE_WITH_TAG \

GROUP BY tag;

续

KSQL WINDOW 功能。

【kafka KSQL】游戏日志统计分析（1）的更多相关文章

scribe、chukwa、kafka、flume日志系统对比
scribe.chukwa.kafka.flume日志系统对比 1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一 ...
Nginx Access Log日志统计分析常用命令
Nginx Access Log日志统计分析常用命令 IP相关统计统计IP访问量 awk '{print $1}' access.log | sort -n | uniq | wc -l 查看某一时 ...
spark读取 kafka nginx网站日志消息并写入HDFS中（转）
原文链接:spark读取 kafka nginx网站日志消息并写入HDFS中 spark 版本为1.0 kafka 版本为0.8 首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用 ...
项目01-flume、kafka与hdfs日志流转
项目01-flume.kafka与hdfs日志流转 1.启动kafka集群 $>xkafka.sh start 3.创建kafka主题 kafka-topics.sh --zookeeper s ...
一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F ...
Kafka学习笔记之Kafka自身操作日志的清理方法(非Topic数据)
0x00 概述本文主要讲Kafka自身操作日志的清理方法(非Topic数据),Topic数据自己有对应的删除策略,请看这里. Kafka长时间运行过程中,在kafka/logs目录下产生了大量的ka ...
转 Nginx Access Log日志统计分析常用命令
Nginx Access Log日志统计分析常用命令Nginx Access Log日志统计分析常用命令IP相关统计统计IP访问量 awk '{print $1}' access.log | sor ...
kafka对接Rancher日志
kafka对接Rancher日志目录 kafka对接Rancher日志概述环境准备正常对接kafka集群 1.helm添加bitnami库 2.下载 kafka 对应的chart压缩文件 3. ...
【转载】scribe、chukwa、kafka、flume日志系统对比
原文地址:http://www.ttlsa.com/log-system/scribe-chukwa-kafka-flume-log-system-contrast/ 1. 背景介绍许多公司的平台每天 ...

随机推荐

Spring Framework之事务管理
目录问题数据库事务事务的定义事务的目的事务的特性事务隔离级别数据并发问题事务隔离级别对数据并发问题的作用快照读 Spring事务管理事务管理接口 TransactionDefini ...
SI24R2F新一代2.4G超低功耗单发射有源RFID芯片 SI24R2E升级版智能充电安全管理方案首选
目前全国有很多电动车因在充电时电池温度过高,而导致爆炸引起火灾的情况.作为国内RFID行业的推动者,动能世纪联合中科微向IOT应用领域推出新款大功率2.4G射频芯片,并针对电动车防盗.电动车充电桩市场 ...
MySQL数据库三
MySQL数据库三多表查询: 有条件的内连接将两张表根据相同的id连接起来 select * from info join details on info.id = details.id sele ...
json.dumps() 和 json.loads()
转载: https://blog.csdn.net/qinglingls/article/details/96476368
Python之 module安装
如出现这种错误 ModuleNotFoundError: No module named 'numpy' 这种错误通常不会出现,因为Python的模块,通常在你安装Python shell的时候,就已 ...
CKEDITOR (FCKEDITOR) --- 目前最优秀的可见即可得网页编辑器之一
FCKEDITOR 编辑同义词 CKEditor一般指FCKEDITOR FCKeditor是目前最优秀的可见即可得网页编辑器之一,它采用JavaScript编写.具备功能强大.配置容易.跨浏览器. ...
数据结构和算法(Golang实现)(4)简单入门Golang-结构体和方法
结构体和方法一.值,指针和引用我们现在有一段程序: package main import "fmt" func main() { // a,b 是一个值 a := 5 b : ...
python初学（三）
1.以软科中国最好大学排名为分析对象,基于requests库和bs4库编写爬虫程序,对2015年至2019年间的中国大学排名数据进行爬取,并按照排名先后顺序输出不同年份的前10位大学信息,要求对输出结 ...
vs 类型定义及语句,随机数
1 类型定义: 1)小数: 类型变量名赋值 decimal d : d=1.2m float ...
12. 前后端联调 + ( proxy代理 ) + ( axios拦截器 ) + ( css Modules模块化方案 ) + ( css-loader ) + ( 非路由组件如何使用history ) + ( bodyParser,cookieParser中间件 ) + ( utility MD5加密库 ) + ( nodemon自动重启node ) + +
(1) proxy 前端的端口在:localhost:3000后端的端口在:localhost:1234所以要在webpack中配置proxy选项 (proxy是代理的意思) 在package.jso ...

【kafka KSQL】游戏日志统计分析（1）

【kafka KSQL】游戏日志统计分析（1）

启动confluent

查看kafka主题列表

创建接受游戏结算日志的topic

使用生产者命令行工具往topic中写日志

使用消费者命令行工具查看日志是否正常写入

启动KSQL客户端

ksql终端查看kafka topic列表

打印topic中的消息

从topic score-normalized创建一个Stream

删除一个STREAM

从最早记录开始查询

从Stream中查询所有数据

统计2017-12-04日的对局总数

统计参与对局的总玩家数（去重）

因为一条日志中包含多个玩家的对局信息，所以想法把每个玩家拆分成单独的事件

统计玩家总数（去重）

续

【kafka KSQL】游戏日志统计分析（1）的更多相关文章

随机推荐

热门专题

统计`2017-12-04`日的对局总数