Jike_Time
数据分析全景图
1. 数据采集。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据
源。
2. 数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数
据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据
的商业价值,也就是我们所谈的商业智能 BI。
3. 数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析
的结果。
数据采集:
数据挖掘:
数据可视化:
学习数据分析就是从“思
维”到“工具”再到“实践”的一个过程。今天我会从更多的角度来和你分享我的学习经
验,我们可以把今天的内容叫作“修炼指南”。
借用傅盛的话来说,人与人最大的差别在于“认知”,所谓成长就是认知的升级。
很多人存在对“认知“的误解,认为认知不就是概念么?那么你有没有想过,针对同一个
概念,为什么不同的人掌握的程度是不一样的呢?
我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程,
就是认知的过程。
先思考模型算法---选择工具---
画图软件SketchBook
数据挖掘知识清单
基本流程:
数据分析的基本概念
如今在超市中,我们还能看到不少组合的套装打包在一起卖,比如宝洁的产品:飘柔洗发水 + 玉兰油沐浴露、海飞丝洗发水 + 舒肤佳沐浴露等等。
商品的捆绑销售是个很有用的营销方式,背后都是数据分析在发挥作用。
商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系
数据挖掘的流程:
数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称KDD,也就是数据库中的知识发现
在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测和关联分析。我来解释下
这些概念。
分类属于监督学习,聚类属于无监督学习
(1)分类:
就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。
(2)聚类
人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在
一起的差异性大。我们往往利用聚类来做数据划分。
(3)预测
顾名思义,就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和
风险。
(4)关联分析
就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。
上帝不会告诉我们规律,而是展示给我们数据
用户画像:标签化就是数据的抽象能力
如果说互联网的上半场是粗狂运营,因为有流量红利不需要考虑细节。那么在下半场,精
细化运营将是长久的主题。有数据,有数据分析能力才能让用户得到更好的体验。
所以,用户是根本,也是数据分析的出发点。
为业务赋予能量
用户画像的准则
首先就是将自己企业的用户画像做个白描,告诉他这些用户“都是谁”“从哪来”“要去
哪”。
你可以这么和老板说:“老板啊,用户画像建模是个系统的工程,我们要解决三个问题。
第一,就是用户从哪里来,这里我们需要统一标识用户 ID,方便我们对用户后续行为进
行跟踪。我们要了解这些羊肉串的用户从哪里来,他们是为了聚餐,还是自己吃宵夜,这
些场景我们都要做统计分析。 第二,这些用户是谁?我们需要对这些用户进行标签化,
方便我们对用户行为进行理解。 第三,就是用户要到哪里去?我们要将这些用户画像与
我们的业务相关联,提升我们的转化率,或者降低我们的流失率。”
用户唯一标识是整个用户画像的核心。 设计唯一标识可以从这些项中选择:用户名、注册手机号、联系人手机号、邮箱、设备
号、CookieID 等。
其次,给用户打标签。是核心
用户消费行为分析”。我们可以从这 4 个维度来进行标签划
分。
1. 用户标签:它包括了性别、年龄、地域、收入、学历、职业等。这些包括了用户的基础
属性。
2. 消费标签:消费习惯、购买意向、是否对促销敏感。这些统计分析用户的消费习惯。 3. 行为标签:时间段、频次、时长、访问路径。这些是通过分析用户行为,来得到他们使
用 App 的习惯。
4. 内容分析:对用户平时浏览的内容,尤其是停留时间长、浏览次数多的内容进行分析,
分析出用户对哪些内容感兴趣,比如,金融、娱乐、教育、体育、时尚、科技等。 可以说,用户画像是现实世界中的用户的数学建模,我们正是将海量数据进行标签化,来
得到精准的用户画像,从而为企业更精准地解决问题。
最后,当你有了用户画像,可以为企业带来什么业务价值呢?
我们可以从用户生命周期的三个阶段来划分业务价值,包括:获客、粘客和留客。
1. 获客:如何进行拉新,通过更精准的营销获取客户。
2. 粘客:个性化推荐,搜索排序,场景运营等。
3. 留客:流失率预测,分析关键节点降低流失率。
如果按照数据流处理的阶段来划分用户画像建模的过程,可以分为数据层、算法层和业务
层。你会发现在不同的层,都需要打上不同的标签。
数据层指的是用户消费行为里的标签。我们可以打上“事实标签”,作为数据客观的记
录。
算法层指的是透过这些行为算出的用户建模。我们可以打上“模型标签”,作为用户画像
的分类标识。
业务层指的是获客、粘客、留客的手段。我们可以打上“预测标签”,作为业务关联的结
果。
所以这个标签化的流程,就是通过数据层的“事实标签”,在算法层进行计算,打上“模
型标签”的分类结果,最后指导业务层,得出“预测标签”。
分析:
用户画像:标签,是一个什么样的人
给羊肉串连锁店进行用户画像分析
消费者行为分析:
用户标签:性别、年龄、电话,家乡,公司、居住地、婚姻
消费标签:消费口味、喜欢类新,消费均价,团购
行为标签:用餐时间,进店消费,外卖消费,平均点藏用时,访问路径
内容标签:基于用户平时浏览的内容进行统计 朋友圈用户画像:
用户标签:性别、年龄、电话,家乡,公司、居住地、婚姻
行为标签:互动,点攒、评论
关系标签:同学、亲戚、
内容标签:原创,转发,文字、图片、视频
数据如何自动化采集
一个数据的走势,是由多个维度影响的。我们需要通过多源的数据
采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果
这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集
1、如何使用开放数据源
我们先来看下开放数据源,教你个方法,开放数据源可以从两个维度来考虑, 一个是单位的维度,比如政府、企业、高校;
一个就是行业维度,比如交通、金融、能源等领域。 这方面,国外的开放数据源比国内做得好一些,当然近些年国内的政府和高校做开放数据源
的也越来越多。一方面服务社会,另一方面自己的影响力也会越来越大。
2、如何使用爬虫做抓取
第三方爬取网站:
集搜客
3、如何使用日志采集工具
埋点是日志采集的关键步骤,那什么是埋点呢?
埋点就是在有需要的位置采集相应的信息,进行上报。
八爪鱼的基本操作--使用Xpath解析
Jike_Time的更多相关文章
随机推荐
- Ubuntu上的apt/apt-get等命令的实质意义和区别
Ubuntu上的apt/apt-get等命令的实质意义和区别 一.前言 在使用apt和apt-get命令的时候我们常常会疑惑这两者有什么区别,因为大多数时间这两个命令能做很多相同的事情. 二.APT/ ...
- oracle中如何更改一个表的一个字段属性(名称,类型)
修改字段的属性,名称方法 --修改某一个字段的类型,当该字段不为null时alter table 表名add 字段NUMBER(11,0) default 0 not null;--添加表一个字段 A ...
- 如何忽略Findbugs的bug
如何忽略Findbugs的bug 除了用xml的形式去忽略一些文件和bug.最好用的还是注解: 下面的方法会有MT_CORRECTNESS和STYLE的bug.注解忽略方法为: @edu.umd.cs ...
- Python 小案例实战 —— 简易银行存取款查询系统
Python 小案例实战 -- 简易银行存取款查询系统 涉及知识点 包的调用 字典.列表的混合运用 列表元素索引.追加 基本的循环与分支结构 源码 import sys import time ban ...
- JVM的监控工具之jvisual
VisualVM(All-in-One Java Trouble shootingTool)是到目前为止随JDK发布的功能最强大的运行监视和故障处理程序,并且可以预见在未来一段时间内都是官方主力发展的 ...
- tkinter中的messagebox
from tkinter import * from tkinter import messagebox def myMsg(): messagebox.showinfo("My Messa ...
- CTF挑战赛丨网络内生安全试验场第一季答题赛火热开启
前期回顾:挑战世界级“人机大战”,更有万元奖金等你来拿 网络内生安全试验场自上线以来,受到了业内的极大重视与关注. 自9月2日报名通道开启后,报名量更是持续高升,上百名精英白帽踊跃报名. 至此,网络内 ...
- Android源码分析(一)-----如何快速掌握Android编译文件
一 : Android.mk文件概述 主要向编译系统指定相应的编译规则.会被解析一次或多次.因此尽量减少源码中声明变量,因为这些变量可能会被多次定义从而影响到后面的解析.这个文件的语法会把源代码组织成 ...
- Struts2 Action的3种创建方式
Action是Strut2的核心内容,相当于Servlet,用于处理业务. Action是一个Java类,直接新建Java类即可. Action有3种实现方式. 1.使用POJO,设置成员变量,写对应 ...
- Hibernate基于注解实现自关联树形结构实现
很久没用过Hibernate了,项目需求需要使用,并建立树形结构,在开发中遇到一些问题,在这里记录一下. 1.创建数据库表,主要是设置标志信息,不然插入数据库会报id不能插入null的错误. 2.创建 ...