作为推送行业领导者,截止目前个推SDK累计安装覆盖量达100亿(含海外),接入应用超过43万,独立终端覆盖超过10亿 (含海外)。个推系统每天会产生大量的日志和数据,面临许多数据处理方面的挑战。

首先数据存储方面,个推每天产生10TB以上的数据,并且累积数据已在PB级别。其次,作为推送技术服务商,个推有很多来自客户和公司各部门的数据分析和统计需求,例如:消息推送和数据报表。虽然部分数据分析工作是离线模式,但开源数据处理系统稳定性并不很高,保障数据分析服务的高可用性也是一个挑战。另外,推送业务并不是单纯的消息下发,它需帮助客户通过数据分析把合适的内容在合适的场景送达给合适的人,这要求系统支持数据挖掘,并保证数据实时性。最后,个推要求快速响应数据分析需求。因此,个推大数据系统面临着数据存储、日志传输、日志分析处理、大量任务调度和管理、数据分析处理服务高可用、海量多维度报表和快速响应分析和取数需求等方面的挑战。

大数据系统演进之路

面临诸多挑战,个推大数据系统在逐步发展中不断完善。其发展可分为三个阶段。一是统计报表,即传统意义的BI;二是大数据系统的基础建设阶段;三是工具、服务和产品化。

个推大数据系统演进第一阶段:统计报表计算

早期由于数据处理无太复杂的需求,个推选择几台高性能的机器,把所有数据分别放在这些机器上计算。只需在机器上多进程运行PHP或Shell脚本即可完成处理和统计。数据处理更多关注客户今天推送多少条消息,某个推送任务有多少回执等,执行相对较简单的报表。

此阶段个推大数据系统的特点是,只需运维定时脚本传输到指定中间节点;用户虽然有亿级别但日志种类较单一;只需使用PHP、Shell脚本来运行和数据只需短期保存(结果集长期保存、中间数据和原始数据保存很短时间)。

个推大数据系统演进第二阶段:大数据基础建设,离线批处理系统

2014年个推推出智能推送解决方案。用户体量大的明星App接入,系统覆盖用户数爆增。且客户接入个推系统后,提出了很多新的需求如:报表统计维度更丰富,它要求在数据量翻倍的情况下进行更复杂的计算,计算压力增大。其次,智能推送本质是数据深度挖掘,数据保存周期越长,覆盖维度越多越好。

这样的情况下,个推引进Hadoop生态体系,用HDFS基本解决存储的问题,使用Hive做数据仓库和离线分析,并且使用Mahout做机器学习。个推完成了由单机或多机模式向集群方向的转变。整个运转流程和原来类似,差别在于将日志传输到中转节点之后,使用hdfs命令put数据到hdfs,并添加hive表分区,然后对日志做进一步的处理,导入到数据仓储里去。最后个推对数据仓库中数据进行挖掘,给用户打标签,入库到HBase和线上ES等。这是离线批处理系统的基本建设。

个推大数据系统演进第二阶段:大数据基础建设,实时处理系统

随着业务不断发展,需求也相应增加。如很多统计分析任务提出了要求在T+0的时间内满足,或者客户上午推送的消息,下午要求给到反映推送效果的数据报表,而不能等到T+1的时间,这些需求都对数据处理实时性提出了更高要求。而且很多客户会提出要检索一些数据,或查看某种标签相关数据,这类取数需要快速响应。于是个推对原有的架构进行了一些调整,引入了一个主要包含离线处理、实时处理和数据服务(包含检索)的架构模式。

从上方看,原有的数据存到HDFS,使用Spark,MR等进行离线批处理。引入Kafka来解决日志收集问题,用Flume收集各个业务节点的日志,并写入到Kafka集群,再依照业务的分级进行小时级别和秒级别处理。最终个推会落地一份数据,将它同步给业务线的DB或ES中使用。

基础建设阶段个推完成几项工作:采用Lambda架构(Batch Layer、Speed Layer、ServingLayer);引入Hadoop(Hdfs、Hive/MR、Hbase、Mahout等);采用ES、SolrCloud+ HBase方案 实现多维度检索;引入Flume 、Kafka、Camus和优化改造日志传输和引入和优化国产开源的Redis集群方案-Codis 。

个推大数据系统演进第三阶段:工具化+服务化+产品化

基础建设过程中,个推发现虽有了整体框架,但依然不能比较便捷地响应业务方的需求。所以个推选择提供工具给业务方,并增加一个服务代理层,也就是上图红色部分,把批处理任务等抽象成任务模板,配置到代理层,最终提给业务方调用,他们只要做简单的二次开发,就可以使用个推集群的计算服务,提高业务开发速度。

这个阶段,个推在架构上主要完成了以下工作增加Job调度管理:引入Azkaban和进行改造(变量共享、多集群支持等);增加服务代理层:引入DataService和Job Proxy(开放给更多产品线使用并解耦);增加应用层:基于服务代理层研发相应的工具和取数产品。

个推大数据系统演进的经验与总结

第一,探索数据和理解数据是开发前必备工作。数据处理之前需要探索有哪些脏数据,这些脏数据的分布,以及无效数据和缺省情况的发现等。第二,数据存储方案向分析和计算需要靠拢。可以考虑使用类似Carbondata等带有索引的文件格式。第三,数据标准化是提高后续处理首要手段。绝大部分数据需要标准化后供给后续使用(基本清洗、统一内部ID、增加必备属性),如对实时性数据,应先做标准化处理后,再发布到Kafka里,最后供所有其他实时系统做处理,减少常规清洗和转化处理在多个业务中重复做,并且统一ID,便于和数据打通。第四,工具化、服务化、产品化提高整体效率。在开发层面可以将MR、Spark进行API封装并且提供足够的工具包。第五,大数据系统全链路监控很重要。批处理监控主要包括:日常任务运行时间监控、是否出现倾斜、结果集每日曲线、异常数据曲线,GC监控;流式处理监控包括:原数据波动监控、消费速率监控报警、计算节点delay监控等。

如何打造100亿SDK累计覆盖量的大数据系统的更多相关文章

  1. 横瓜先生关于如何利用MYSQL数据库设计CMS系统处理100亿级TB规模的数据量

    遥执乾坤(44758121)  18:21:23 mysql据说只能使用一个索引,我这里几乎所有字段都有索引. 但每个字段就算用索引,也需要扫描至少100w以上记录. 横瓜(601069289)  1 ...

  2. 假设一个大小为100亿个数据的数组,该数组是从小到大排好序的,现在该数组分成若干段,每个段的数据长度小于20「也就是说:题目并没有说每段数据的size 相同,只是说每个段的 size < 20 而已」

    假设一个大小为100亿个数据的数组,该数组是从小到大排好序的,现在该数组分成若干段,每个段的数据长度小于20「也就是说:题目并没有说每段数据的size 相同,只是说每个段的 size < 20 ...

  3. PayPal高级工程总监:读完这100篇论文 就能成大数据高手(附论文下载)

    100 open source Big Data architecture papers for data professionals. 读完这100篇论文 就能成大数据高手 作者 白宁超 2016年 ...

  4. linux下df查看空间已经占用%100,但是找不到大文件的解决方法

    有时候在linux下会遇到这种情况:df查看空间已经占用%100,但是找不到大文件,怎么回事呢,经过网上查找资料,得到解决方法: 1.使用lsof查看已删除但未释放的文件 lsof -n | grep ...

  5. 支持100+业务线、累计发布17万次|宜信容器云的A点与B点(分享实录)

    宜信公司从2018年初开始建设容器云,至今,容器云的常用基本功能已经趋于完善,主要包括服务管理.应用商店.Nginx配置.存储管理.CI/CD.权限管理等,支持100+业务线.3500+的容器运行.伴 ...

  6. 使用Swift打造动态库SDK和DemoAPP时所遇到的(Xcode7.3)

    使用Swift开发SDK的优点是,生成的SDK对于Obj-C或是Swift调用都不需要自己去建桥接文件,因为Swift的SDK打包时默认已经自动生成供OC调用的.h文件.OC调用时直接import,s ...

  7. 阿里云POLARDB如何助力轻松筹打造5亿用户信赖的大病筹款平台?

    轻松筹首创了“大病救助”模式,帮助了众多病患在第一时间解決了医疗资金等问题,为了从源头解决了医疗资金问题.而在轻松筹这样全球5.5亿用户信赖的大病筹款平台的背后,是日益增长的各种数据.面对这样数据量所 ...

  8. 如何从 100 亿 URL 中找出相同的 URL?

    题目描述 给定 a.b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G.请找出 a.b 两个文件共同的 URL. 解答思路 每个 URL 占 64B,那么 50 亿 ...

  9. 许家印67亿买下FF恒大是要雪中送炭吗?

    从大环境来看,当下新能源汽车已经是备受投资者青睐的领域.据不完全统计,当下国内已经有300余家电动汽车企业.而蔚来.小鹏.威马等动辄都融资上百亿元,显现出火爆的发展趋势.甚至就连董明珠董大姐也有着自己 ...

随机推荐

  1. 酒旗少年狂暖风,至0基本的前端开发project教师们学习计划

    酒旗风暖少年狂,为0基础前端开发project师做学习计划 夜幕降暂时.走到一张废弃已久的书桌前,打开台灯,看到书桌上已经布满灰尘,而桌上的那盆羸弱的文竹已经枝繁叶茂.我擦干净了桌面,坐了下来,把买回 ...

  2. 基于低压电力采集平台DW710C的基础开发

    实验课题 (1)自己定义通信规约,採用java或C++编写简单的PC端上位机软件,实现採集器与PC机的通信.实验可在DW710C-PCproject下进行. (2)实现LCD显示字符.数字.汉字和简单 ...

  3. SendRedirect和forward差分

    (1)重定向JSP实现JSP/Servlet跳转到目标资源的方法中,基本的想法是:server目标资源完成URL通过HTTP 在回答本报发client浏览器.收到的浏览器URL更新到地址栏后,而目标资 ...

  4. IntelliJ IDEA于Make Project时报:子字符串不是票面金额的结束、非法的表达式显示启动

    IntelliJ IDEA于Make Project当系统提示很多错误,什么孩子不是字符串票面金额的结束.非法的表达式显示启动-- 解决方法是改变File Encoding,更改方法:File > ...

  5. 虚拟化(一):虚拟化和vmware产品描述

    由于公司最近取得了虚拟化监控,因此,我们需要虚拟化的认识,总结学习,对于虚拟化的概念.从百度百科,例如下列:         虚拟化.是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机.在一台计算机上 ...

  6. EF 增删改查 泛型方法、类

    1.定义泛型类 namespace Crm.Data.Logic.Repository{    public abstract class AbstractRepository<TC, T> ...

  7. 收藏的一些javascript片段

    原文:收藏的一些javascript片段 学习js也很有一段时间,收集了一些js的片段.特地整理排版了一下,以一个js初学者的视界来分析注释了这些代码段,暂且不去讨论它的性能和优化问题,相信会对一些初 ...

  8. jQuery自定义右键菜单

    首先看下效果,效果在最下面: 代码: body { font-size: 12px; margin: 0px; padding: 0px; } form,div,ul,li { margin: 0px ...

  9. SimpleInjector与MVC4集成,与Web Api集成,以及通过属性注入演示

    SimpleInjector与MVC4集成,与Web Api集成,以及通过属性注入演示   1,与MVC集成 见http://simpleinjector.codeplex.com/wikipage? ...

  10. 前端学习笔记(zepto或jquery)—— 布局技巧(一)

    html5中有一些标签我们很难改变其样式,例如input=file,select等.这个时候我们需要改变一下思路,将原有透明度置为0,借助于div或span等以控制样式的标签来代替. 效果图: < ...