什么是数据挖掘?

  • 数据挖掘(Data Mining),又称信息发掘(Knowledge Discovery),是用自动或半自动化的方法在数据中找到潜在的,有价值的信息和规则。
  • 数据挖掘技术来源于数据库,统计和人工智能。

数据挖掘能够做什么

对企业中产生的大量的数据进行分析,找出其中潜藏的规则
更加清晰的了解目前的业务运行状况
使得决策者把握未来的决策方向有了科学的依据
预测销售额

  • 向特定客户发送邮件
  • 确定可能需要搭售的产品
  • 查找客户将产品放入购物车的顺序序列
  • ......

数据挖掘算法
数据挖掘是从特定形式的数据中提炼知识的过程,其主要任务是对数据的描述、分类和预测。数据挖掘常用的数据预测技术包括线性回归、最小二乘法和神经网络。

关于分析服务另外一个比较有意思的就是数据挖掘,在商业智能中,数据挖掘是其中最高的一个层次。现在流行的大数据,最终往往也要靠数据挖掘来体现其价值。

如果说,BI的过程可以看成是数据的昨天,今天和明天,数据的昨天,通过报表告诉你的业务之前发生了什么,数据的今天,通过多维分析等工具告诉你这些为什么会发生,那么数据的明天,就是通过数据挖掘算法,对已有的海量历史数据进行挖掘,从而让你知道你的业务未来会是什么样。

微软的数据挖掘工具包含了很多算法,比较常见的比如贝叶斯,决策树,关联规则和时序分析等。
数据挖掘会分析样本数据,从中发现规则,然后用于对未来未知数据的预测。通常用来比如电商网站的商品推荐,潜在客户分析,以及客户分类等问题之上。

序号

数据挖掘技术

说明

1

Microsoft Naive Bayes

贝叶斯模型

Microsoft Naive Bayes 算法将所有输入属性都看作是独立的,并计算每对输入属性值和预测属性值的概率。此算法可用于分类和预测。

2

Microsoft 关联规则

Microsoft 关联算法使用各属性值或事务项之间的相关性统计来分析数据。

3

Microsoft 聚类分析

Microsoft 聚类分析算法查找属性值的多维表示形式中数据的自然分组。此算法在需要发现一般分组时很有用。

4

Microsoft 决策树

Microsoft 决策树算法是一种适合预测性建模的分类算法。该算法支持离散属性和连续属性的预测。

5

Microsoft 逻辑回归

Microsoft 逻辑回归算法是一种适合回归建模的回归算法。该算法是 Microsoft 神经网络算法的一种,是通过消除隐藏层获得的。该算法支持对离散属性和连续属性进行预测。

6

Microsoft 神经网络

Microsoft 神经网络算法

7

Microsoft 时序

Microsoft 时序算法可以分析与时间相关的数据,以便根据时序分析发现各种模式,如月销售额模式和年利润模式。

8

Microsoft 顺序分析和聚类分析

Microsoft 顺序分析和聚类分析算法综合了其他两项数据挖掘技术: 顺序分析和聚类分析。此算法分析与顺序相关的模式并对进行聚类。

9

Microsoft 线性回归

Microsoft 线性回归算法是一种适合回归建模的回归算法。该算法是 Microsoft 决策树算法的一种,是通过禁用拆分(整个回归公式放在单个根节点中)获得的。该算法支持对连续属性进行预测。

数据挖掘的过程,跟其它IT项目一样,大概可以划分为如下几个过程。首先,定义问题,然后准备和浏览数据,然后生成和验证模型,最后部署和更新模型。

这个过程不一定是一口气道底的,比如在模型中发现没有需要的数据那么就需要重新对数据进行准备,或者在模型验证阶段发现有问题那么可能需要重新定义模型。
数据挖掘用到的查询语句是DMX,它可以用来创建和处理挖掘模型,并且做预测查询。

《BI那点儿事》数据挖掘初探的更多相关文章

  1. 《BI那点儿事—数据的艺术》目录索引

    原创·<BI那点儿事—数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便 ...

  2. 《BI那点儿事》数据挖掘的主要方法

    一.回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来.所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式).回 ...

  3. 《BI那点儿事》浅析十三种常用的数据挖掘的技术

    一.前沿 数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的但又是潜在有用的信息和知识的过程.数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种 ...

  4. 《BI那点儿事》数据挖掘各类算法——准确性验证

    准确性验证示例1:——基于三国志11数据库 数据准备: 挖掘模型:依次为:Naive Bayes 算法.聚类分析算法.决策树算法.神经网络算法.逻辑回归算法.关联算法提升图: 依次排名为: 1. 神经 ...

  5. 《BI那点儿事》Microsoft 决策树算法

    Microsoft 决策树算法是由 Microsoft SQL Server Analysis Services 提供的分类和回归算法,用于对离散和连续属性进行预测性建模.对于离散属性,该算法根据数据 ...

  6. 《BI那点儿事》Microsoft 线性回归算法

    Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测.该关系采用的表示形式是最能代表数据序列的线的公式.例如 ...

  7. 《BI那点儿事》Microsoft 神经网络算法

    Microsoft神经网络是迄今为止最强大.最复杂的算法.要想知道它有多复杂,请看SQL Server联机丛书对该算法的说明:“这个算法通过建立多层感知神经元网络,建立分类和回归挖掘模型.与Micro ...

  8. 《BI那点儿事》Microsoft 顺序分析和聚类分析算法

    Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法.您可以使用该算法来研究包含可通过下面的路径或“顺序 ...

  9. 《BI那点儿事》SQL Server 2008体系架构

    Microsoft SQL Server是一个提供了联机事务处理.数据仓库.电子商务应用的数据库和数据分析的平台.体系架构是描述系统组成要素和要素之间关系的方式.Microsoft SQL Serve ...

随机推荐

  1. 使用Xcode6创建EmptyProject

    多年不写文章,今天突然准备好好写一些博客,以记录自己在编程这条道路上的成长,与所学所悟.提起笔来,才发现,自己的语言之匮乏,思虑再三,始觉不顺.也罢,从头开始慢慢训练吧. 自Xcode6更新之后,默认 ...

  2. HDU 2068 RPG的错排

    要求答对一半或以上就算过关,请问有多少组答案能使他顺利过关. 逆向思维,求答错一半或以下的组数 1,错排 错排公式的由来 pala提出的问题: 十本不同的书放在书架上.现重新摆放,使每本书都不在原来放 ...

  3. 解剖SQLSERVER 第十二篇 OrcaMDF 行压缩支持(译)

    解剖SQLSERVER 第十二篇   OrcaMDF 行压缩支持(译) http://improve.dk/orcamdf-row-compression-support/ 在这两个月的断断续续的开发 ...

  4. 一、ASP.NET MVC 路由(一)--- ASP.NET WebForm路由模拟

    ASP.NET WebForm 应用,用户请求的是物理文件,其中包括静态页面和动态页面,在Url中的显示都是服务器中一个物理文件的相对路径.但是ASP.NET MVC就不同了,用户请求的是Contro ...

  5. ASP.NET 开发必备知识点(2):那些年追过的ASP.NET权限管理

    一.前言 在前一篇文章已经为大家介绍了OWIN和Katana,有了对他们的了解之后,才能更好地去学习Asp.net Identity,因为Asp.net Identity的实现集成了Owin.其实在A ...

  6. js操作Dom的一些方法简化

    众所周知JQ的选择符很强大,一些看起来很难实现的功能只要在$符号中传入简单的字符串就可以获取到各种层级关系的DOM,而却不用考虑浏览器的兼容性.但有时候在做小项目的时候并不需要引入JQ,而又不想频繁繁 ...

  7. 【吉光片羽】之 Web API

    1.在asp项目中直接添加apiController,需要新增Global.asax文件.再增加一个webapiConfig,如果需要访问方式为"api/{controller}/{acti ...

  8. 犀利的background-clip:text,实现K歌字幕效果

    今天学到了一个新的CSS3属性,更准确的说是属性值,那就是background-clip:text.利用此属性值可以制作出很神奇的效果.可惜只有chrome支持,不过今天可以先来玩玩这个属性. 先来介 ...

  9. FusionCharts简单教程(四)-----基本数字格式

          在统计图例中什么是最基本,最重要的元素?那就是数据.一个数据的统计图像那就是一堆空白.但是数据存在多种形式,比如小数,比如千分位等等.又如若一个数据是12.000000001,对于数据要求 ...

  10. Java中文编码小结

    Java中文编码小结 1. 只有 字符到字节 或者 字节到字符 的转换才存在编码转码; 2. Java String 采用 UTF-16 编码方式存储所有字符.unicode体系采用唯一的码点表示唯一 ...