本文由  网易云发布. 4月8日晚,DTalk邀请到了网易互联网分析产品.可视化 BI 产品的负责人—郑栋老师,进行了一次关于<网易郑栋:数据采集与分析的那些事第一弹: 数据篇>的主题分享.分享共两个部分,第一部分是郑栋老师分享关于数据采集与分析大家关心的问题,第二部分是Q&A互动环节. 郑栋老师, 网易互联网分析产品.可视化 BI 产品负责人.多年从事大数据技术相关工作,目前在网易管理互联网分析.敏捷BI两个数据分析产品线,在大数据技术.互联网业务数据体系建设.团队管理方面有丰富的经…
作者:网易有数郑栋. 一.为什么企业需要一套完善的用户行为埋点和分析平台 产品初创期间,需要分析天使用户的行为来改进产品,甚至从用户行为中得到新的思路或发现来调整产品方向:产品成长过程,通过对用户行为的多角度(多维)分析.对用户群体的划分以及相应行为特征的分析和比较,来指导产品设计.运营活动,并对市场渠道效果进行评估. 配合上A/B试验平台,可以加速产品的迭代,更快得到用户的真实反馈.同时,这些数据沉淀下来,对业务的数据仓库建设.数据智能应用等方面也能起到促进作用,比如做实时推荐,需要能更快获得…
1.数据埋点的重要性     在现实工作中,数据的整体流程为:数据生产-数据采集-数据处理-数据分析和挖掘-数据可视化,其中,数据采集是很重要的一个环节,数据采集得全不全.对不对,直接决定数据广度和质量,影响后续所有的环节.如果采集的数据维度很少,那我们想要进行深入分析的时候就会显得无处着手,比如我们想要分析某个APP某个功能的使用情况,但是却根本没有采集相关的数据,那我们也不能进行后续的分析了.如果数据采集是错误的,如漏报.误报等,那这肯定是很致命的,会误导我们基于数据的决策. 在互联网行业,…
本文以B2B电商产品“亿订”为实例,与大家一同谈谈数据中台的数据埋点. 笔者所在公司为富力环球商品贸易港,是富力集团旗下汇聚原创设计师品牌及时尚买手/采购商两大社群,通过亿订B2B电商.RFSHOWROOM.环贸快版.环贸映像.富运通.富贸通等子品牌为时尚行业提供一站式产业+渠道服务的平台. 笔者所在部门为数据中台,职责就是为公司搭建数据中台,支撑各产品线数据化运营,通过数据中台打通各条产品线的数据,更精准的为产业的上下游客户服务.本文以B2B电商产品亿订为实战,谈数据中台的数据埋点. 图片来源…
使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录.埋点数据.服务器业务数据等.初期这套基于开源组件的体系有力支撑了数据统计.业务报表.风控等业务需求.但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板.同时期,唱吧开始尝试阿里云提供的ECS.OSS等云服务,大数据部门也开始使用 MaxCompute来弥补自建体系的不足. 在内部ELK实现的基础上,从自建机房向MaxCompute进…
1. 传统数据湖存在的问题与挑战 传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化.虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误.为了规避该问题,通常控制读写任务顺序调用,在保证写任务完成后才能启动读任务.但并不是所有读任务都能够被调度系统约束住,在读取时仍存在该问题.…
背景 声明,如果你不关心java缓存解决方案的全貌,只是急着解决问题,请略过背景部分. 在互联网应用中,由于并发量比传统的企业级应用会高出很多,所以处理大并发的问题就显得尤为重要.在硬件资源一定的情况下,在软件层面上解决高并发问题会比较经济实惠一些.解决并发的根本在于提高系统的响应时间与单位时间的吞吐量.解决问题的思路可分两个维度,一是提高系统的单位时间内的运算效率(比如集群),二是减少系统不必要的开支(比如缓存).缓存又会分为客户端缓存与服务器端缓存,本文就javaEE项目的服务器端缓存方案展…
为什么要在标题里加上一个业务数据的上报呢,因为在咱们前端项目中,可上报的数据维度太多,比如还有性能数据.页面错误数据.console捕获等.这里我们只讲解业务数据的埋点. 业务数据的上报主要分为: 各个路由的PV上报: 用户的点击行为上报: 用户操作结果(分享是否成功)的数据上报等: 通用和必须上报的数据,均在上报的代码中进行固定,比如设备信息.用户信息.cookie等都需要上报的数据,在上报前处理完成,需要异步获取且数据固定的,做好存储,防止每次都要重新获取:其他额外的数据,通过对外暴露的se…
表的要求表中使用的字段请尽量参照各模块的SAP字段标准使用习惯:  例:"ZXSLRZX销售组织对应的利润中心"中的销售组织应该使用VKORG.利润中心应该使用PRCTR.根据表的用途,需确定是否属于配置目的.还是业务目的.配置表的建议:需要加入MANDT字段  例: "ZQJQD缺件清单"就没有MANDT字段需提供相应的维护视图:例:如ZCHECK_MM01工厂和利润中心的对应为保证DEV/QAS/PRD系统的一致性,不应该对配置表提供批量维护的功能,而应该走Re…
一.Druid概述 1.Druid简介 Druid是一款基于分布式架构的OLAP引擎,支持数据写入.低延时.高性能的数据分析,具有优秀的数据聚合能力与实时查询能力.在大数据分析.实时计算.监控等领域都有相关的应用场景,是大数据基础架构建设中重要组件. 与现在相对热门的Clickhouse引擎相比,Druid对高并发的支持相对较好和稳定,但是Clickhouse在任务队列模式中的数据查询能力十分出色,但是对高并发支持不够友好,需要做好很多服务监控和预警.大数据组件中OLAP引擎的选型有很多,在数据…