客户端埋点实时OLAP指标计算方案】的更多相关文章

背景 产品经理想要实时查询一些指标数据,在新版本的APP上线之后,我们APP的一些质量指标,比如课堂连接掉线率,课堂内崩溃率,APP崩溃率等指标,以此来看APP升级之后上课的体验是否有所提升,上课质量是否有所提高,为下一步的APP升级做准备. 客户端埋点 1.0版本设计 流程 按照需求打点,如果想知道某一指标如进入教室成功率,点击进入教室这一动作上报数据,进入教室结果上报数据,同时上报课程id,用户id等属性. 缺点 埋点规范全靠Excel,产品经理编写Excel埋点文档,开发按照文档埋点,测试…
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案. 一.背景介绍 ​ QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听.看.玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库.优质服务的背后,是每…
本文转载自公众号 DBAplus社群 , 作者:谢麟炯 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作. 海量数据实时OLAP场景的困境 大数据 首先来看一下我们在最初几年遇到的问题.第一就是大数据,听起来好像蛮无聊的,但大数据到底是指什么呢?最主要的问题就是数据大,唯品会在这几年快速发展,用户流量数据从刚开始的几百万.几千万发展到现在…
使用ElasticSearch作为大数据平台的实时OLAP框架 – lxw的大数据田地 http://lxw1234.com/archives/2015/12/588.htm 一直想找一个用于大数据平台实时OLAP(甚至是实时计算)的框架,之前调研的Druid(druid.io)太过复杂,整个Druid由5.6个服务组成,而且加载数据也不太方便,性能一般,亦或是我还不太会用它.后来发现使用ElasticSearch就可以满足海量数据实时OLAP的需求. ElasticSearch相信大家都很熟悉…
一.背景 上篇SSM项目使用GoEasy 实现web消息推送服务是GoEasy的一个用途,今天我们来看GoEasy的第二个用途:订阅客户端上下线实时状态变化.获取当前在线客户数量和在线客户列表.截止我发文时间,此功能处于试用阶段,如果要使用,需要找他们的客服开通此功能.由于已经在上篇中介绍了GoEasy,那么我们就直接开始了. 二.注册账号 官网地址:http://goeasy.io 三.创建应用 应用分免费版的和收费版(免费版最多只能创建2个应用),我这里用的是免费版.创建完应用之后如下图.…
概述 量化中,我们经常会遇到各种量化指标的计算,对于zipline来说,也会对这部分计算进行处理,由于指标计算的通用性比较强,所以,zipline单独封装了 empyrical 这个模块,可以处理类似的计算,由于这个模块并不依赖其它zipline模块,我们可以在我么的项目中单独使用它. 安装 pip install empyrical 它会依赖安装 numpy, scipy, pandas 等模块 使用 导入 from empyrical import ( alpha, beta, alpha_…
介绍 我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年3月就开始使用, 见链接: http://blog.csdn.net/chenyi8888/article/details/37594771 druid是个很新的平台, 2013年底才开源出来, 虽然出现的比较晚, 但druid发展很快, 中国有几个公司开始使用, 2015年druid将会是爆发的一…
介绍 我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年3月就开始使用, 见链接: http://blog.csdn.net/chenyi8888/article/details/37594771 druid是个很新的平台, 2013年底才开源出来, 虽然出现的比较晚, 但druid发展很快, 中国有几个公司开始使用, 2015年druid将会是爆发的一…
概念 实时流式计算: 大数据环境下,流式数据将作为一种新型的数据类型,这种数据具有连续性.无限性和瞬时性.是实时数据处理所面向的数据类型,对这种流式数据的实时计算就是实时流式计算. 特征 实时流式计算与传统的数据处理技术不同,其具有一下特点: 低延迟:从处理的数据角度来看,每一条数据都可以在有限的时间内由系统成功处理完成,就是响应的时间很短. 高吞吐:从处理的过程角度来看,系统节点在单位时间内能够成功处理的数据量比较多,也就是高吞吐量.对于数据处理的目标本质来说高吞吐量和低延迟是一样的. 高容错…
1.概述 1.1.基于UDP的帧同步方案 在技术选型方面,之所以选择帧同步方案,在Kevin的一篇介绍PVP帧同步后台实现的文章中已经做了详细叙述,这里简单摘要如下: 高一致性.如果每一帧的输入都同步了,在同样的上下文中,计算得出的结果应该也是同步的. 低流量消耗.除了帧同步,其它方案(比如状态同步)想做到高一致性,需要同步非常大量的数据.无论是对于移动网络,还是固络都是不合适的. 服务器逻辑简化.采用帧同步方案,服务器只需要做简单的帧同步,不需要关心太多的业务细节.有利于客户端功能的扩展和服务…
所就职的公司是一家互联网视频公司,存在大量的实时计算需求,计算uv,pv等一些经典的实时指标统计.由于要统计当天的实时 UV,当天的uv由于要存储当天的所有的key,面临本地内存不够用的问题,异常重启后会丢失本地缓存,造成计算结果不准确的问题.:如果使用外部缓存比如redis,memcache等,在高并发时会出现效率问题. 在不断的实践中,不断改进方案,积累了如下经验: 1.使用bitMap可以节约内存. 使用redis的bitMap,并发时候会有问题. a .只使用本地内存 由于reidis在…
================================================================================ BI传统实现原理: 1.涉及维度管理(唯一路径,一张网) 2.依据分析维度要求,创建临时表,计算数据,创建缓存表,把计算的结果存储到缓存表中,删除临时表 3.保存生成临时表的SQL语句.缓存计算的SQL语句.查询缓存表的SQL语句 4.完成 总结:维度建模-打包计算数据-显示 ==============================…
场景 k12在线教育公司的业务场景中,有一些业务场景需要实时统计和分析,如分析在线上课老师数量.学生数量,实时销售额,课堂崩溃率等,需要实时反应上课的质量问题,以便于对整个公司的业务情况有大致的了解. 方案对比 对比了很多解决方案,如下几种,列出来供参考. 方案 实时入库 SQL支持度 Spark+CarbonData 支持 Spark SQL语法丰富 Kylin 不支持 支持join Flink+Druid 支持 0.15以前不支持SQL,不支持join 上一篇文章所示,使用Spark+Car…
文章目录 前言 Druid介绍 主要特性 基础概念 数据格式 数据摄入 数据存储 数据查询 查询类型 架构 运维 OLAP方案对比 使用场景 使用建议 参考 近期主题 前言 项目早期.数据(报表分析)的生产.存储和获取业务,MySQL基本上可以满足需要,但是随着业务的快速增长,数据量翻至亿为单位时,MySQL无法满足例如:快速实时返回“分组+聚合计算+排序聚合指标”查询需求.记得还是2017年之后,对当时的几款OLAP进行了调研,用线上数据训练.当时Druid在性能和功能上基本上能够满足需要,下…
在日常数据处理过程中避免不了要计算跨长周期数据指标统计需求,类似于如下: 1.  统计每个城市(过去30天)用户浏览次数: 统计每个城市(本年)用户浏览次数: 统计每个城市(历史至今)用户浏览次数: 2.统计每个城市(过去30天|本年|历史至今)交易用户数: 3.数据集部分数据行存在状态变化数据指标需求. 通常面对以上数据指标需求,最大的问题是跨长周期数据量往往是巨大的或者数据周期范围不固定.下面依次求解. 场景1:统计(过去30天|本年|历史至今)用户浏览次数? 常规解决方案如下: selec…
我是3y,一年CRUD经验用十年的markdown程序员‍常年被誉为职业八股文选手 最近如果拉过austin项目代码的同学,可能就会发现多了一个austin-stream模块.其实并不会意外,因为这一切都在计划当中进行. 这个模块主要是接入流式处理平台(flink),用于实时计算清洗数据给到业务以及系统维护者更方便去使用消息推送平台austin. 这篇文章主要来聊聊接入的背景以及我浅薄的经验吧 01.为什么流式处理平台 我在老东家有过处理数据相关的经验,也看到过站内广告「效果数据」的发展历程.…
需求描述:当用户的账户在另一个浏览器中登录的时候,需要把当前浏览器的登录强制下线.这种需求在业务系统,或付费视频服务网站中比较常见. 这种需求我称之为"单客户端(浏览器)"登录,与单点登录(SSO)有本质的区别,关于SSO的实现方案可以参考我的另外一篇文章:谁都能看懂的单点登录(SSO)实现方式(附源码) 关于这个功能的实现,我分为三个环节: 用户登录. 处理用户请求. 心跳请求,Keep Alive. 用户登录 我们采用Forms Authentication来实现用户的登录,网上有…
Spark的安装基于HDFS,所以我们要设置hadoop的配置文件,所以spark的存储不是其主要的功能点,而spark作为分布式生态中的角色是一种计算模式(其他 的计算 模式,比如MR,Storm,spark,tez). vim spark-env.shexport SCALA_HOME=/path/to/scala-2.10.4 export JAVA_HOME=/usr/java/jdkexport HADOOP_HOME=/usr/local/hadoop-2.7.0export HAD…
项目有个需求,需要把ios设备上的操作画面实时传输出去,也就是类似推流手机直播画面的方案. 一番调研后发现在ios中,我们可以通过ios自带ReplayKit框架实现. 关于ReplayKit的讲解,这篇文章写的很好,可以看一下 iOS端使用replaykit录制屏幕的技术细节 文章详细介绍了ReplayKit的发展历程,从ios9-ios12的每个版本的功能迭代都有写,包括如何录制当前app内容,还是制系统层次的内容等. 不过由于我的需求是只录制当前App内容,所以下面只讲解这方面的. 我的测…
此文讲述的内容是一个实际项目开发中的一部分内容,笔者将亲身经历写成文章. [背景] 现 需要实现这样的功能:有多个客户端连着同一个服务器.服务器和客户端之间需要“互相”知道彼此的连接状态.比如在某一时刻,服务器需要知道当前有多少个客 户端正在和其通信:某一个时刻,某个客户端需要知道自己是否和服务器保持连接.如果在某一时刻,一个客户端关闭了,服务端应能及时感觉到:同样,如果服务 端被关闭,所有的客户端应能及时感觉到,并作出一些反应. [思考] 看 到这个需求,直观上的反应就是在服务端维护一个在线列…
此文讲述的内容是一个实际项目开发中的一部分内容,笔者将亲身经历写成文章. [背景] 现需要实现这样的功能:有多个客户端连着同一个服务器.服务器和客户端之间需要“互相”知道彼此的连接状态.比如在某一时刻,服务器需要知道当前有多少个客户端正在和其通信:某一个时刻,某个客户端需要知道自己是否和服务器保持连接.如果在某一时刻,一个客户端关闭了,服务端应能及时感觉到:同样,如果服务端被关闭,所有的客户端应能及时感觉到,并作出一些反应. [思考] 看到这个需求,直观上的反应就是在服务端维护一个在线列表.当服…
PV(Planning Value) 含义:计划价值,截至到某个时间计划工作经批准的成本预算. 公式:PV=计划工作数X计划单价. BAC 含义:完工预算,截至到完工时间计划工作经批准的成本预算,即完工那天的PV. AC(Actual Cost) 含义:实际成本,截至到某个时间实际成本. 公式:AC=实际工作数X实际单价. EV(Earned Value) 含义:挣值,截至到某个时间实际已完成工作应分配的预算. 公式:EV=实际工作数X计划单价. CV(Cost Value) 含义:成本偏差,评…
开源Linux 长按二维码加关注~ 上一篇:2020年MySQL数据库面试题总结 快照和复制技术的结合可以保证我们得到一个实时的在线MySQL备份解决方案. 当主库发生误操作时,只需要恢复备库上的快照,然后再根据binlog执行point-in-time的恢复即可. 下面假定一个场景:主从架构,没有延迟,某DBA误操作:drop database接下来我们按照以上场景进行备份恢复模拟测试 1.主库准备测试数据 mysql> create database cnfol; Query OK, 1 r…
Storm0.9.0发布通知中文翻译版(2013/12/10 by 富士通邵贤军 有错误一定告诉我 shaoxianjun@hotmail.com^_^) 我们很高兴宣布Storm 0.9.0已经成功发布,你可以从the downloads page下载. 本次发布对茁壮成长的Storm来说是一次巨大的进步. 我们追加了一些新特性,你会在下面看到详细的介绍, 此外这次发布的另一个着重点是修复了大量跟稳定性相关的 bug. 虽然很多用户已经在自己的环境中把0.9.x版本的Storm成功运行起来,但…
1.     PDA手持设备按键说明 [Tab]键:使输入焦点在控件上切换. [ESC]键:弹出是否退出确认对话框,退出操作界面或程序. [OK]键:确认输入或选择,进入下一步操作. [C]键:删除键.或者回退上一步操作. [#]键:高速切换和隐藏/显示输入法对.通过[#]号键能够在各种输入法之间进行切换. 2.     门店盘点前准备工作 2.1.  登记帐存并生成盘点单号和盘点页码(在ERP管理软件中) 1.       在ERP医药管理软件上进行盘点登记:注:每次盘点之前首先要对将要盘点的…
1.本地调试 a.步骤:生成Topology——实现Spout接口——实现Bolt接口——编译运行 b.加入依赖 <!-- JStorm --> <dependency> <groupId>com.alibaba.jstorm</groupId> <artifactId>jstorm-core</artifactId> <version>2.1.1</version> <exclusions> &l…
导语 | OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案. 一.背景介绍 QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了"听.看.玩"的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库.优质…
克拉克拉(KilaKila):大规模实时计算平台架构实战 一.产品背景:克拉克拉(KilaKila)是国内专注二次元.主打年轻用户的娱乐互动内容社区软件.KilaKila推出互动语音直播.短视频配音.对话小说等功能,满足当下年轻用户个性化.碎片化的文娱需求.App用户等级体系作为克拉克拉社区化打造的核心业务,在增强社区活跃度.提高产品留存方面起到至关重要的作用.随着业务规模增长,海量用户行为日志实时采集与计算的瓶颈也日益突出,由于单台服务器的处理能力有限,海量数据分析需要分布式计算模型来替代.通…
Flink 1.9.0及更高版本支持Python,也就是PyFlink. 在最新版本的Flink 1.10中,PyFlink支持Python用户定义的函数,使您能够在Table API和SQL中注册和使用这些函数.但是,听完所有这些后,您可能仍然想知道PyFlink的架构到底是什么?作为PyFlink的快速指南,本文将回答这些问题. 为什么需要PyFlink? Python上的Flink和Flink上的Python 那么,PyFlink到底是什么?顾名思义,PyFlink就是Apache Fli…
不多说,直接上干货! 什么是实时流计算?    1.实时流计算背景 2.实时计算应用场景 3.实时计算处理流程 4.实时计算框架 什么是实时流计算? 所谓实时流计算,就是近几年由于数据得到广泛应用之后,在数据持久性建模不满足现状的情况下,急需数据流的瞬时建模或者计算处理.这种实时计算的应用实例有金融服务.网络监控.电信数据管理. Web 应用.生产制造.传感检测,等等.在这种数据流模型中,单独的数据单元可能是相关的元组(Tuple),如网络测量.呼叫记录.网页访问等产生的数据.但是,这些数据以大…