今天看到了Avinash的一篇文章:Web Analytics 101: Definitions: Goals, Metrics, KPIs, Dimensions, Targets,正是我想在影响网站转化率的10大误区中准备给大家说说的,但Avinash写得更好,所以我直接翻译(意译,加上我的理解和一些其他补充资料)了,介绍给大家. 首先,我们要讨论的,是多个关于"尺度"的术语.这些术语容易混淆,包括: Business Objectives (商业目的) Goals(目标) Met…
事实表 在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”.一个按照州.产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似. Sate Product Mouth Units Dollars WA Mountain-100 January 3 7.95 WA Cable Lock January 4 7.32 OR Mountain-100 January 3 7.95 OR Cable Lock January 4 7.32 WA Mountain-100 F…
数仓建模首推书籍<数据仓库工具箱:维度建模权威指南>,本篇文章参考此书而作.文章首发公众号:五分钟学大数据,公众号中发送"维度建模"即可获取此书籍第三版电子书 先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术.面向数仓和BI设计人员,书中涉及到的内容非常广泛,围绕一系列的商业场景或案例研究进行组织.强烈建议买一本实体书研究,反复通读全书至少三遍以上,你的技术将会有质的飞跃. 数仓工具箱 因为本文是纯理论知识,密密…
目录 一.简介 二.度量是什么 三.实践 四.QA问答 一.简介 Wiki上讲:DevOps(Development和Operations的组合词)是一种重视"软件开发人员(Dev)"和"IT运维技术人员(Ops)"之间沟通合作的文化.运动或惯例 (这个是目标)透过自动化"软件交付"和"架构变更"的流程(这个是方法)来使得构建.测试.发布软件能够更加地快捷.频繁和可靠(这是结果). 所以对于企业来说的真正价值则在于通过团队间协…
1. 行为产生数据 先来谈一谈,自己对数据基础概念的思考.我认为首先要建立的核心观点是:行为产生数据. 翻译一下这个核心观点.意思就是,当我们在思考或描述数据相关需求的时候,必然要包含这样的语素:"物体A+动词+物体B".举个例子,比如我们想提一个生产的报表需求,那么思路就可能会总结成这么一句话:我想看,一月份玩具工厂(物体A)生产(动词)玩具汽车(物体B)的数量. 再举一个<图解网站分析>这本书的例子,如果你是一家711便利店的店长,想提升销售额.那你可能就要分析顾客进入…
精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第三章:点击流分析的奇妙世界:指标 新的Web Analytics 2.0心态:搞定它.新的闪亮系列工具:是的.准备好了吗?当然! 现在是时候开始构建度量和关键绩效指标(KPI)模块来探索Clickstream分析这个美呆了的世界. 我将捣碎一些神话,摒弃(友好地)一些强烈推荐但却不可行的方法,并且帮助你更好地诊断性能低下的根源. 也意味着,在本章你将开始磨练你的技能以成为一个分析忍者! 章节内容 一.  重新访问标准的指标…
8.4 Weex 双11会场大规模应用的秒开实战和稳定性保障 前言 Native 开发的诸多亮点中,流畅体验和系统调用是最多被提及的.流畅体验体现在页面滚动/动画的流畅性,背后是更好的内存管理和更接近原生的性能:同时又是 Web 的痛点:资源首次下载.长页面内存溢出和滚动性能.动画性能.传统 web 性能(如JS执行效率).Native 有丰富的系统调用能力,而 Web 痛点在于:W3C 标准太慢,有限的设备访问能力,API 兼容性问题较严重,如 Geolocation 在 Android We…
什么是BI? Business Intelligence(BI) = Data Warehouse(DW) + OLAP + Data Mining(DM) 商业智能=数据仓库+联机分析+数据挖掘 做BI的目的是帮助用户进行决策分析,从多维的角度来分析现状,给决策者做出正确的决策提供可靠的数据基础与背景,为企业的发展做出正确的导向.然而在国内做BI确走入了一个误区,通常客户拿BI当报表系统来用,这有点大才小用的感觉,还有就是各个公司水平不同,常常有个别公司拿着拿着非BI系统来欺骗客户给BI蒙上了…
在计算机视觉领域,"目标检测"主要解决两个问题:图像上多个目标物在哪里(位置),是什么(类别).围绕这个问题,人们一般把其发展历程分为3个阶段:1. 传统的目标检测方法2. 以R-CNN为代表的结合region proposal和CNN分类的目标检测框架(R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN, R-FCN)3. 以YOLO为代表的将目标检测转换为回归问题的端到端(End-to-End)的目标检测框架(YOLO, SSD) 传统的目标检测方法…
自动化测试体系不完善.缺少自助式的持续交付平台.系统间耦合度高服务拆分难度大.成熟的DevOps工程师稀缺,缺少敏捷文化--这些都是DevOps 在落地过程中,或多或少会碰到的问题,DevOps发展任重道远,不断学习前人经验完善自身是很好的选择. 11月23日,京东云开发者社区和英特尔联合举办的「京东云DevOps自动化运维技术实践」沙龙在上海落地,为开发者们分享京东云在DevOps上的经验. DevOps 自动化运维技术实践 01京东云持续交付演化之路 京东云工具产品研发部副总监 井亮亮 在行…
MDX函数(官方顺序) 1.  AddCalculatedMembers (MDX) 返回通过将计算成员添加到指定集而生成的集. 语法: AddCalculatedMembers(Set_Expression) 参数: Set_Expression 返回集的有效多维表达式 (MDX). 默认情况下,MDX在解析集函数时会排除计算成员.AddCalculatedMembers 函数会检查 Set_Expression, 中所指定的集表达式,并包括与该集表达式作用域内所含成员处于同级的计算成员. 此…
http://blog.csdn.net/yu616568/article/details/50365240 前言   在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就可以进行多次build,每一次的build会生成一个segment,每一个segment对应着一个时间区间的cube,这些…
有关不同版本的 SQL Server 2012 所支持的功能的详细信息. 功能名称 Enterprise 商业智能 Standard Web Express with Advanced Services Express with Tools Express 单个实例使用的最大计算能力(SQL Server 数据库引擎)1 操作系统最大值 限制为 4 个插槽或 16 核,取二者中的较小值 限制为 4 个插槽或 16 核,取二者中的较小值 限制为 4 个插槽或 16 核,取二者中的较小值 限制为 1…
本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:http://mp.weixin.qq.com/s/Ry-G0Nikh6m-h3ZVC2cLyQ 导语 2017年来了,新年开篇,就不跟大家聊技术啦,给大家分享一篇鹅厂技术总监在多年工作中总结出的教训和经验. 这篇文章自从在腾讯内部论坛发表后,精神哥每年都会拿出来重新研读一番,每次都有新的感悟和收获,所以强烈推荐给大家. 正文 资深程序员是团队中最强大的生产力,但往往被不合理的工作安排浪费掉.因此作为一个…
前言 上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分.然而完整的数据仓库系统还会涉及其他一些组件的开发,其中最主要的是ETL工程,在线分析处理工具(OLAP)和商务智能(BI)应用等. 本文将对这些方面做一个总体性的介绍(尤其是OLAP),旨在让读者对数据仓库的认识提升到一个全局性的高度. 创建数据仓库 数据仓库的创建方法和数据库类似,也是通过编写DDL语句来实现.在过去,数据仓库系统大都建立在RDBMS上,因为维度建模其实也可以看做是关系建模的一种.但如今随着开源分布式数据仓库工…
A tutorial on Principal Components Analysis 原著:Lindsay I Smith, A tutorial on Principal Components Analysis, February 26, 2002. 翻译:houchaoqun.时间:2017/01/18.出处:http://blog.csdn.net/houchaoqun_xmu  |  http://blog.csdn.net/Houchaoqun_XMU/article/details…
本章导读 机器学习(machine learning, ML)是一门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多领域的交叉学科.ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识.新技能,并重组已学习的知识结构使之不断改善自身. MLlib是Spark提供的可扩展的机器学习库.MLlib已经集成了大量机器学习的算法,由于MLlib涉及的算法众多,笔者只对部分算法进行了分析,其余算法只是简单列出公式,读者如果想要对公式进行推理,需要自己寻找有关概率论.数理统计.数理分析等方面的专…
Gram定义 n维欧式空间中任意k个向量之间两两的内积所组成的矩阵,称为这k个向量的格拉姆矩阵(Gram matrix) 根据定义可以看到,每个Gram矩阵背后都有一组向量,Gram矩阵就是由这一组向量两两内积得到的,先说一下向量内积是做什么的. 向量的内积,也叫向量的点乘,对两个向量执行内积运算,就是对这两个向量对应位一一相乘之后求和的操作,内积的结果是一个标量.例如对于向量a和向量b:                             a和b的内积公式为: 两个向量的内积有什么用呢?一…
非官方:InfluxDB 基本命令操作文档 原地址:https://docs.influxdata.com/influxdb/v1.6/query_language/data_exploration/#order-by-time-desc 警告!此页面记录了不再积极开发的InfluxDB的早期版本.InfluxDB v1.7是InfluxDB的最新稳定版本. InfluxQL是一种类似SQL的查询语言,用于与InfluxDB中的数据进行交互.以下部分详细介绍了InfluxQL SELECT用于探…
1:目标 基于已经做好的DW,利用SSAS实现一个多维数据模型的创建,通过浏览可以简单的实现订单数据的分析 2:步骤 2.1:添加数据源 如下图所示,创建一个数据仓库层的数据源连接 2.2:添加数据源视图 数据源视图是一个分析主题中包含的对象以及对象之间的关系 2.3:创建维度 日期维度(日期维度设计多层级,这里着重描述) 步骤1 步骤2 步骤3 a:日期维度属性设置(从regular改为Time) a:日期维度属性设置(日设置) b:日期维度属性设置(月设置) c:日期维度属性设置(年设置)…
查资料的时候看了一个不文明的事情,转载别人的东西而不标注出处,结果原创无人知晓,转载很多人评论~~标注了转载而不说出处这样的人有点可耻! 写在前面: Gaussian Mixture Model (GMM).事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于 density estimation ),简单地说,k-means 的结果是每个数据点被 assign 到其中某一个 cluster 了,而…
一.OLAP简介 1. 概念 OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理.此概念最早由关系数据库之父E.F.Codd于1993年提出.OLAP允许以一种称为多维数据集的结构,访问业务数据源经过聚合和组织整理后的数据.以此为标准,OLAP作为单独的一类技术同联机事务处理(On-Line Transaction Processing,OLTP)得以明显区分.        在计算领域,OLAP是一种快速应答多维分析查询的方法,也是商业智能的一个…
阅读目录 前言 创建数据仓库 ETL:抽取.转换.加载 OLAP/BI工具 数据立方体(Data Cube) OLAP的架构模式 小结 回到顶部 前言 上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分.然而完整的数据仓库系统还会涉及其他一些组件的开发,其中最主要的是ETL工程,在线分析处理工具(OLAP)和商务智能(BI)应用等. 本文将对这些方面做一个总体性的介绍(尤其是OLAP),旨在让读者对数据仓库的认识提升到一个全局性的高度. 回到顶部 创建数据仓库 数据仓库的创建方法和数据…
NumPy - 简介 NumPy 是一个 Python 包. 它代表 “Numeric Python”. 它是一个由多维数组对象和用于处理数组的例程集合组成的库. Numeric,即 NumPy 的前身,是由 Jim Hugunin 开发的. 也开发了另一个包 Numarray ,它拥有一些额外的功能. 2005年,Travis Oliphant 通过将 Numarray 的功能集成到 Numeric 包中来创建 NumPy 包. 这个开源项目有很多贡献者. NumPy 操作 使用NumPy,开…
转自:   https://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=402738153&idx=1&sn=af5e76aad269799e517607cdc2cfaf06&scene=0&key=ac89cba618d2d9764985895cc5dcd8413928f15cfa134812846b816487c1609c40778841d410e63dc802acd538e5cc5d&ascene=7&a…
有关不同版本的 SQL Server 2012 所支持的功能的详细信息. 功能名称 Enterprise 商业智能 Standard Web Express with Advanced Services Express with Tools Express 单个实例使用的最大计算能力(SQL Server 数据库引擎)1 操作系统最大值 限制为 4 个插槽或 16 核,取二者中的较小值 限制为 4 个插槽或 16 核,取二者中的较小值 限制为 4 个插槽或 16 核,取二者中的较小值 限制为 1…
直方图概述 简单来说,直方图就是对数据进行统计的一种方法,这些数据可以是梯度.方向.色彩或任何其他特征.它的表现形式是一种二维统计表,横纵坐标分别是统计样本和该样本对应的某个属性的度量. 计算直方图:calcHist 函数 calcHist 函数用于计算一个或多个阵列的直方图. void calcHist(const Mat* images, int nimages, const int* channels, InputArray mask, OutputArray hist, int dims…
  一.案例背景 在产品迭代过程中,通常需要根据用户的属性进行归类,也就是通过分析数据,对用户进行归类,以便于在推送及转化过程中获得更大的收益. 本案例是基于某互联网公司的实际用户购票数据为研究对象,对用户购票的时间,购买的金额进行了采集,每个用户用手机号来区别唯一性.数据分析人员根据用户购买的时间和金额,通过建立RFM模型,来计算出用户最近最近一次购买的打分,用户购买频率的打分,用户购买金额的打分,然后根据三个分数进行一个加权打分,和综合打分.业务人员可以根据用户的打分情况,对不同的用户进行个…
一个程序员,他写完了代码,在测试环境通过了测试,然后他把它发布到了线上生产环境,但很快就发现在生产环境上出了问题,有潜在的 bug. 事后分析,是生产环境的一些微妙差异,使得这种 bug 场景在线下测试中很难被发现.毕竟想要在测试环境完美的复制生产环境的所有情况也是不太可能的,导致出现了疏漏.对于这类情况,我们在想是否可以通过在线下做一些 Code Review(代码审查)假想线上的环境差异,通过在头脑中的假想上线运行来获得一些概念验证,这样是否能够减少上线后出现 bug 的概率呢? 感性 Co…
使用Pandas创建数据透视表 本文转载自:蓝鲸的网站分析笔记 原文链接:使用Pandas创建数据透视表 目录 pandas.pivot_table() 创建简单的数据透视表 增加一个行维度(index) 增加一个值变量(value) 更改数值汇总方式 增加数值汇总方式 增加一个列维度(columns) 增加多个列维度 增加数据汇总值 数据透视表是Excel中最常用的数据汇总工具,它可以根据一个或多个制定的维度对数据进行聚合.在python中同样可以通过pandas.pivot_table函数来…