数据挖掘算法（Analysis Services – 数据挖掘）

data mining algorithm is a set of heuristics and calculations that creates a data mining model from data.” xml:space=”preserve”>“数据挖掘算法”是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型，算法将首先分析您提供的数据，并查找特定类型的模式和趋势。算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后，这些参数应用于整个数据集，以便提取可行模式和详细统计信息。

算法根据您的数据创建的挖掘模型可以采用多种形式，这包括：

说明数据集中的事例如何相关的一组分类。
预测结果并描述不同条件是如何影响该结果的决策树。
预测销量的数学模型。
说明在事务中如何将产品分组到一起的一组规则，以及一起购买产品的概率。

Microsoft SQL Server Analysis Services 提供了多种在数据挖掘解决方案中使用的算法。这些算法是在数据挖掘中使用的一些最流行方法的实现方式。通过使用提供的 API 或者使用 SQL Server Integration Services 中的数据挖掘组件，所有 Microsoft 数据挖掘算法都是可以自定义且完全可编程的。

您还可以使用符合 OLE DB for Data Mining 规范的第三方算法，或者开发可注册为服务、然后在 SQL Server 数据挖掘框架中使用的自定义算法。

为特定的分析任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务，每个算法会生成不同的结果，而某些算法还会生成多种类型的结果。例如，您不仅可以将 Microsoft 决策数算法用于预测，而且还可以将它用作一种减少数据集的列数的方法，因为决策树能够识别出不影响最终挖掘模型的列。

按类型选择算法

Analysis Services 包括了以下算法类型：

Classification algorithms predict one or more discrete variables, based on the other attributes in the dataset. ” xml:space=”preserve”>分类算法基于数据集中的其他属性预测一个或多个离散变量。
Regression algorithms predict one or more continuous variables, such as profit or loss, based on other attributes in the dataset.” xml:space=”preserve”>回归算法基于数据集中的其他属性预测一个或多个连续变量，如利润或亏损。
Segmentation algorithms divide data into groups, or clusters, of items that have similar properties.” xml:space=”preserve”>分割算法将数据划分为组或分类，这些组或分类的项具有相似属性。
Association algorithms find correlations between different attributes in a dataset.” xml:space=”preserve”>关联算法查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。
Sequence analysis algorithms summarize frequent sequences or episodes in data, such as a Web path flow. ” xml:space=”preserve”>顺序分析算法汇总数据中的常见顺序或事件，如 Web 路径流。

但是，限制为您的解决方案中的一种算法是没有必要的。有经验的分析人员有时候将使用一种算法来确定最高效的输入（即变量），然后应用其他算法以便基于这些数据预测特定结果。 SQL Server 数据挖掘使您可以在单个挖掘结构的基础上生成多个模型，这样，在单个数据挖掘解决方案内，您可以使用聚类分析算法、决策树模型和 naïve Bayes 模型来针对您的数据获取不同视图。您还可以在单个解决方案内使用多种算法来执行单独的任务：例如，您可以使用回归来获取财务预测，并且使用神经网络算法执行销售影响因素分析。

按任务选择算法

为帮助您选择用于特定任务的算法，下表给出了每种算法在传统上用于的任务类型的建议。

任务示例	可使用的 Microsoft 算法
预测离散属性将预期购买者列表中的客户标记为好或差的潜在客户。计算服务器在未来 6 个月内将出现故障的概率。将患者结果分类并探讨相关因素。	决策树算法 Naive Bayes 算法聚类分析算法神经网络算法
预测连续属性预测下一年的销售额。根据过去的历史信息和季节趋势，预测网站访问者。根据人口统计信息生成风险评分。	决策树算法时序算法线性回归算法
预测顺序执行公司网站的点击流分析。分析导致服务器故障的因素。捕获和分析门诊访问期间活动的顺序，以便围绕一般的活动形成最佳做法。	顺序分析和聚类分析算法
查找事务中常见项的组使用市场篮分析来确定产品摆放。建议客户购买其他产品。分析来自事件访问者的调查数据，确定哪些活动或展台是相关的，以便计划将来的活动。	关联算法决策树算法
查找相似项的组基于人口统计信息和行为之类的属性，创建患者风险配置文件组。按照浏览和购买模式分析用户。标识具有相似使用特性的服务器。	聚类分析算法顺序分析和聚类分析算法

任务示例

可使用的 Microsoft 算法

预测离散属性

将预期购买者列表中的客户标记为好或差的潜在客户。
计算服务器在未来 6 个月内将出现故障的概率。
将患者结果分类并探讨相关因素。

决策树算法

Naive Bayes 算法

聚类分析算法

神经网络算法

预测连续属性

预测下一年的销售额。
根据过去的历史信息和季节趋势，预测网站访问者。
根据人口统计信息生成风险评分。

决策树算法

时序算法

线性回归算法

预测顺序

执行公司网站的点击流分析。
分析导致服务器故障的因素。
捕获和分析门诊访问期间活动的顺序，以便围绕一般的活动形成最佳做法。

顺序分析和聚类分析算法

查找事务中常见项的组

使用市场篮分析来确定产品摆放。
建议客户购买其他产品。
分析来自事件访问者的调查数据，确定哪些活动或展台是相关的，以便计划将来的活动。

关联算法

决策树算法

查找相似项的组

基于人口统计信息和行为之类的属性，创建患者风险配置文件组。
按照浏览和购买模式分析用户。
标识具有相似使用特性的服务器。

聚类分析算法

顺序分析和聚类分析算法

算法的明细，大家可以参考后续的文章，或者在MSDN的技术文档中心进行查找

来源：MSDN

摘自：http://www.datafew.com/archive/160.html

数据挖掘算法Analysis Services-基于SQL Server的数据挖掘的更多相关文章

最近帮客户实施的基于SQL Server AlwaysOn跨机房切换项目
最近帮客户实施的基于SQL Server AlwaysOn跨机房切换项目最近一个来自重庆的客户找到走起君,客户的业务是做移动互联网支付,是微信支付收单渠道合作伙伴,数据库里存储的是支付流水和交易流水 ...
基于SQL Server 2008 Service Broker构建企业级消息系统
注:这篇文章是为InfoQ 中文站而写,文章的地址是:http://www.infoq.com/cn/articles/enterprisemessage-sqlserver-servicebroke ...
基于Sql Server 2008的分布式数据库的实践（五）
原文基于Sql Server 2008的分布式数据库的实践(五) 程序设计 ------------------------------------------------------------- ...
基于Sql Server 2008的分布式数据库的实践（四）
原文基于Sql Server 2008的分布式数据库的实践(四) 数据库设计 1.E-R图 2.数据库创建 Win 7 1 create database V3 Win 2003 1 create ...
基于Sql Server 2008的分布式数据库的实践（三）
原文基于Sql Server 2008的分布式数据库的实践(三) 配置PHP 1.打开PHP配置文件,找到extension=php_mssql.dll,将前面的注释符号去掉 2.找到mssql.s ...
基于Sql Server 2008的分布式数据库的实践（二）
原文基于Sql Server 2008的分布式数据库的实践(二) 从Win7连接Win2003的Sql Server 2008 1.新建链接服务器链接到Win2003的Sql Server 2008 ...
基于Sql Server 2008的分布式数据库的实践（一）
原文基于Sql Server 2008的分布式数据库的实践(一) 配置Sql Server 2008(Win7) 1.打开SQL server2012,使用windows身份登录 2.登录后,右键选 ...
基于Sql Server 2008的分布式数据库的实践（终结）
学习.操作心得以前在做网站程序的时候一直用的是MYSQL,但是网上搜到MYSQL不支持分布式操作,然后便开始查询MSSQL的分布式数据库的设计与操作,后来在网上找到了<基于SQL SERVER ...
下载安装与配置Excel 2013数据挖掘加载项（SQL Server 2012 SP1 + SQLServer2012_DMAddin.msi）
一.系统要求在安装这个数据挖掘加载项前,你的机器必须要可以支持如下的相关系统设备: (1)操作系统:windows 7 和 windows 8,暂时不支持 windows 10. (2)excel ...

随机推荐

iframe下元素定位
1.iframe基础知识: <frameset>生成的框架结构是依赖上级空间尺寸的,它的宽度或者高度必须有一个和上级框架相同.而<iframe>浮动框架可以完全由指定宽度和高度 ...
Linux学习笔记（13）linux软件安装rpm与yum--理论篇
该文章linux知识点如下 1.linux中软件包介绍 2.linux源码软件安装 3.linux二进制软件安装 4.linux rpm软件包管理 5.linux yum软件包管理 1.linux中 ...
java开发的zimg客户端
1.zimg的安装部署最开始的时候是下载zimg的源码安装的,由于zimg依赖项众多,没有安装成功,刚好那期间在学习docker,于是docker search zimg一下,惊奇的发现有zimg镜 ...
C#多线程同步案例实操
好久没有写博客了,为了养成学习的习惯,培养积极年轻的心态,又回到了博客园这个平台继续撸起时隔多年未光顾的空间. 项目需求: 实现一个简单的获取始发目的耗时.距离,将结果输出表格. 方案思路: 通过多线 ...
HTTP协议简要介绍
1. 网络基础 TCP/IP 通常使用的网络是在TCP/IP协议簇基础上运作的. HTTP属于它内部的一个子集. TCP/IP分为4个层次, 应用层, 传输层, 网络层, 链路层. (Applicat ...
［设计模式］访问者 Visitor 模式
访问者模式是对象的行为模式. 访问者模式的目的是封装一些施加于某种数据结构元素之上的操作.一旦这些操作需要修改的话,接受这个操作的数据结构则可以保持不变.
C语言高级宏技巧
特殊符号#.## (1)# When you put a # before an argument in a preprocessor macro, the preprocessor turns t ...
微服务与SOA
微服务跟SOA有什么区别呢,可以把微服务当做去除了ESB的SOA.ESB是SOA架构中的中心总线,拓扑结构应该是星形的,而微服务是去中心化的分布式软件架构. 一.巨石(monolith) web应用程 ...
apache php 60 503
服务器端:apache php 文件上传,60秒后,返回Response 503 php-fpm.conf: request_terminate_timeout = 600 前算万算没想到这里还有个超 ...
AndroidDevTools下载
收集整理Android开发所需的Android SDK.开发中用到的工具.Android开发教程.Android设计规范,免费的设计素材等. http://www.androiddevtools.cn ...

数据挖掘算法Analysis Services-基于SQL Server的数据挖掘

数据挖掘算法（Analysis Services – 数据挖掘）

按类型选择算法

按任务选择算法

数据挖掘算法Analysis Services-基于SQL Server的数据挖掘的更多相关文章

随机推荐

热门专题