《BI那点儿事》Microsoft 神经网络算法
Microsoft神经网络是迄今为止最强大、最复杂的算法。要想知道它有多复杂,请看SQL Server联机丛书对该算法的说明:“这个算法通过建立多层感知神经元网络,建立分类和回归挖掘模型。与Microsoft决策树算法类似,在给定了可预测属性的每个状态时, Microsoft神经网络算法计算输入属性每个可能状态的概率。然后可以用这些概率根据输入属性预测被预测属性的输出。”
什么时候用这个算法呢?推荐在其他算法无法得出有意义的结果时再用,如提升图输出的结果。我们经常把Microsoft神经网络作为“压箱底”的最后一招,在其他算法处理巨大而复杂的数据集无法得到有意义的结果时才使用它。这个算法可以接受Discrete或Continuous数据类型作为输入。在大型数据源上使用Microsoft神经网络之前,一定要用生产级别的负载好好测试,因为处理这类模型的开支太大了。同其他算法一样,在“算法参数”对话框中也有多个参数可以配置。同其他一些开支比较大的算法一样,只有在业务理由非常充分的情况下才有必要修改默认值。
Microsoft神经网络算法的一个变体是Microsoft逻辑回归算法。
下面我们进入主题,同样我们继续利用上次的解决方案,依次步骤如下:
数据源视图:



键:序列
输入:统率、武力、智力、政治、魅力
可预测:身分
数据内容类型:
Continuous(连续型):统率、武力、智力、政治、魅力
Discrete(离散型):身分
建模完成,产生数据挖掘结构接口包含Mining Structure(挖掘结构)、Mining Models(挖掘模型)、Mining Model Viewer(挖掘模型查看器)、Mining Accuracy Chart(挖掘精确度图表)以及Mining Model Prediction(挖掘模型预测);其中在Mining Structure(挖掘结构)中,主要是呈现数据间的关联性以及分析的变量。
挖掘模型:
在Mining Models(挖掘模型)中,主要是列出所建立的挖掘模型,也可以新增挖掘模型,并调整变量,变量使用状况包含Ignore(忽略)、Input(输入变量)、Predict(预测变量、输入变量)以及Predict Only(预测变量),如图所示。
在挖掘模型上点击鼠标右键,选择“设置算法参数...”可修改模型参数设置,如图所示
其中包含:
HIDDEN_NODE_RATIO:指定用于判断隐藏层中的节点数目。隐藏层内的节点数计算公式为:HIDDEN_NODE_RATIO *sqrt({输入节点的数目} * {输出节点的数目})。
HOLDOUT_PERCENTAGE:指定用于计算测试组预测错误的百分比,作为停止准则的一部分。
HOLDOUT_SEED:指定用于随机产生测试组的种子数据。如果未指定,算法会依据模型名称产生随机种子,以保证在重新处理模型时保持测试组相同。
MAXIMUM_INPUT_ATTRIBUTES:指定算法可处理的最大输入变量数目。将此值设置为0,会停用输入变量。
MAXIMUM_OUTPUT_ATTRIBUTES:指定算法可处理的最大输出变量数目。将此值设置为0,会停用输出变量。
MAXIMUM_STATES:指定算法所支持变量取值状态的最大数目。如果属性状态数大于该值,算法会截取最常用的状态,并将超过最大值的其余状态视为遗漏。
SAMPLE_SIZE:指定用来训练模型的案例数目。算法会取小于以下两者:SAMPLE_SIZE或total_cases *(1-HOLDOUT_PERCENTAGE/100)。
挖掘模型查看器:
“挖掘模型查看器”展示该挖掘模型的结果,通过通过柱状图表示某一变量的取值状态对预测变量影响的方向和大小。





提升图:
分类矩阵:
参考文献:
Microsoft 神经网络算法
http://msdn.microsoft.com/zh-cn/library/ms174941(v=sql.105).aspx
《BI那点儿事》Microsoft 神经网络算法的更多相关文章
- 《BI那点儿事—数据的艺术》目录索引
原创·<BI那点儿事—数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便 ...
- 《BI那点儿事》数据挖掘初探
什么是数据挖掘? 数据挖掘(Data Mining),又称信息发掘(Knowledge Discovery),是用自动或半自动化的方法在数据中找到潜在的,有价值的信息和规则. 数据挖掘技术来源于数据库 ...
- 《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分
什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据 ...
- 《BI那点儿事》Microsoft 线性回归算法
Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测.该关系采用的表示形式是最能代表数据序列的线的公式.例如 ...
- 《BI那点儿事》Microsoft 顺序分析和聚类分析算法
Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法.您可以使用该算法来研究包含可通过下面的路径或“顺序 ...
- 《BI那点儿事》Microsoft 时序算法——验证神奇的斐波那契数列
斐波那契数列指的是这样一个数列 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233,377,610,987,1597,2584,4181,6765,10 ...
- 《BI那点儿事》数据挖掘各类算法——准确性验证
准确性验证示例1:——基于三国志11数据库 数据准备: 挖掘模型:依次为:Naive Bayes 算法.聚类分析算法.决策树算法.神经网络算法.逻辑回归算法.关联算法提升图: 依次排名为: 1. 神经 ...
- 目前所有的ANN神经网络算法大全
http://blog.sina.com.cn/s/blog_98238f850102w7ik.html 目前所有的ANN神经网络算法大全 (2016-01-20 10:34:17) 转载▼ 标签: ...
- 经典卷积神经网络算法(5):ResNet
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
随机推荐
- 插入排序-java
排序-插入排序 基本思想:将待排序表看作左右两部分,其中左边为有序区,右边为无序区, 整个排序过程就是将右边无序区中的元素逐个插入到左边的有序区中,以构成新的有序区. 平均时间:O(n2) 最好情况: ...
- C2解题报告合集~
定时更新~ http://www.cnblogs.com/newbe/ http://www.cnblogs.com/newbe/p/4069834.html http://www.cnblogs.c ...
- Top ShooterHDU2863&&继续xxx定律HDU3784
继续xxx定律 HDU3784 先看这个题目:HDU3782 #include<iostream> #include<algorithm> #include<stdio. ...
- linux shell 字符串操作
转:http://justcoding.iteye.com/blog/1963463 在做shell批处理程序时候,经常会涉及到字符串相关操作.有很多命令语句,如:awk,sed都可以做字符串各种操作 ...
- Highcharts 饼图 文字颜色设置
设置饼图对应的提示文字的颜色与饼图块状一样,demo如下: $(function () { $('#container').highcharts({ chart: { plotBackgroundCo ...
- iBeacon行为分析
研究iBeacon也有段时间了, 总结一下这段时间对于ibeaacon行为的分析. iOS 7.0及以后的版本开始支持iBeacon. 硬件方面, iPhone4S 及以后, ipad 3代及以后, ...
- dbstart和dbshut启动、关闭数据库报错ORACLE_HOME_LISTNER is not SET解决办法
dbstart启动数据库报错,如下: [oracle@wen ~]$ dbstartORACLE_HOME_LISTNER is not SET, unable to auto-start Oracl ...
- 分享:根据webservice WSDL地址自动生成java调用代码及JAR包
分享:根据webservice WSDL地址自动生成java调用代码及JAR包使用步骤:一.安装java 并配置JAVA_HOME 及 path二.安装ANT 并配置ANT_HOME三.解压WsdlT ...
- beetle.express针对websocket的高性能处理
客户需要对websocket服务应用,其要求每秒同时给3W个在线的websocket连接进行广播消息.以下针对beetle.express扩展websocket简单的性能测试.从测试结果来看基本没什么 ...
- Linux及文件系统基本介绍
Linux及文件系统基本介绍 1 互联网行业现状 在服务器端市场: 超级计算机 2014年11月的数据显示前500系统中的485个系统都在运行着 Linux 的发布系统,而仅仅只有一台运行着 Wi ...