Data Mining的十种分析方法——摘自《市场研究网络版》谢邦昌教授

Data Mining的十种分析方法：

记忆基础推理法（Memory-Based Reasoning；MBR）
        记忆基础推理法最主要的概念是用已知的案例（case）来预测未来案例的一些属性（attribute），通常找寻最相似的案例来做比较。
        记
忆基础推理法中有两个主要的要素，分别为距离函数（distance function）与结合函数（combination
function）。距离函数的用意在找出最相似的案例；结合函数则将相似案例的属性结合起来，以供预测之用。记忆基础推理法的优点是它容许各种型态的数
据，这些数据不需服从某些假设。另一个优点是其具备学习能力，它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据，有足够
的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时，不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预
测、医学诊疗、反应的归类等方面。
        市场购物篮分析（Market Basket Analysis）
        购物篮分析最主要的目的在于找出什么样的东西应该放在一起？商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品，找出相关的联想（association）
        规则，企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说，零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。
        购物篮分析基本运作过程包含下列三点：
        （1）选择正确的品项：这里所指的正确乃是针对企业体而言，必须要在数以百计、千计品项中选择出真正有用的品项出来。
        （2）经由对共同发生矩阵（co-occurrence matrix）的探讨挖掘出联想规则。
        （3）克服实际上的限制：所选择的品项愈多，计算所耗费的资源与时间愈久（呈现指数递增），此时必须运用一些技术以降低资源与时间的损耗。
        购物篮分析技术可以应用在下列问题上：
        （1）针对信用卡购物，能够预测未来顾客可能购买什么。
        （2）对于电信与金融服务业而言，经由购物篮分析能够设计不同的服务组合以扩大利润。
        （3）保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。
        （4）对病人而言，在疗程的组合上，购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。
        决策树（Decision Trees）
        决
策树在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树
顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元
树、三元树或混和的决策树型态。
        基因算法（Genetic Algorithm）
        基
因算法学习细胞演化的过程，细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似，它必须预先建立好一个模式，再经由
一连串类似产生新细胞过程的运作，利用适合函数（fitness
function）决定所产生的后代是否与这个模式吻合，最后仅有最吻合的结果能够存活，这个程序一直运作直到此函数收敛到最佳解。基因算法在群集
（cluster）问题上有不错的表现，一般可用来辅助记忆基础推理法与类神经网络的应用。
        群集侦测技术（Cluster Detection）
        这个技术涵盖范围相当广泛，包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体，在许许多多的分析中，刚开始都运用到群集侦测技术，以作为研究的开端。
        连结分析（Link Analysis）
        连
结分析是以数学中之图形理论（graph
theory）为基础，藉由记录之间的关系发展出一个模式，它是以关系为主体，由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉
连结分析收集到顾客使用电话的时间与频率，进而推断顾客使用偏好为何，提出有利于公司的方案。除了电信业之外，愈来愈多的营销业者亦利用连结分析做有利于
企业的研究。
        在线分析处理（On-Line Analytic Processing；OLAP）
        严
格说起来，在线分析处理并不算特别的一个数据挖掘技术，但是透过在线分析处理工具，使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一
般，透过图表或图形等方式显现，对一般人而言，感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。
        类神经网络（Neural Networks）
        类
神经网络是以重复学习的方法，将一串例子交与学习，使其归纳出一足以区分的样式。若面对新的例证，神经网络即可根据其过去学习的成果归纳后，推导出新的结
果，乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式，其学习效果十分正确并可做预测功能。
        区别分析（Discriminant Analysis）
        当
所遭遇问题它的因变量为定性（categorical），而自变量（预测变量）为定量（metric）
时，区别分析为一非常适当之技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体 — 区别分析（Two-Group
Discriminant Analysis）；若由多个群体构成，则称之为多元区别分析（Multiple Discriminant
Analysis；MDA）。
        （1）找出预测变量的线性组合，使组间变异相对于组内变异的比值为最大，而每一个线性组合与先前已经获得的线性组合均不相关。
        （2）检定各组的重心是否有差异。
        （3）找出哪些预测变量具有最大的区别能力。
        （4）根据新受试者的预测变量数值，将该受试者指派到某一群体。
        罗吉斯回归分析（Logistic Analysis）
        当
区别分析中群体不符合常态分配假设时，罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件（event）是否发生，而是预测该事件的机率。
它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零；当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开
始减小，故机率值介于0与1之间。

Data Mining的十种分析方法——摘自《市场研究网络版》谢邦昌教授的更多相关文章

数据挖掘(data mining)，机器学习(machine learning)，和人工智能(AI)的区别是什么？数据科学(data science)和商业分析(business analytics)之间有什么关系？
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...
data mining，machine learning，AI，data science，data science，business analytics
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...
数据融合（data fusion）原理与方法
数据融合(data fusion)原理与方法数据融合(data fusion)最早被应用于军事领域. 现在数据融合的主要应用领域有:多源影像复合.机器人和智能仪器系统.战场和无人驾驶飞机.图 ...
论文翻译：Data mining with big data
原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and dat ...
做Data Mining，其实大部分时间都花在清洗数据
做Data Mining,其实大部分时间都花在清洗数据时间 2016-12-12 18:45:50 51CTO 原文 http://bigdata.51cto.com/art/201612/52 ...
Linux内核分析方法谈
本文来自 http://blog.csdn.net/ouyang_linux007/article/details/7422346 Linux的最大的好处之一就是它的源码公开.同时,公开的核心源码也吸 ...
Time series data mining
from here 论文Timeseries data mining(2012)中提出:时间序列数据挖掘包括7个基本任务和3个基础问题: 7 tasks: query by content clust ...
利用水文分析方法提取山脊线和山谷线（ArcPy实现）
一.背景作为地形特征线的山脊线.山谷线对地形.地貌具有一定的控制作用.它们与山顶点.谷底点以及鞍部点等一起构成了地形起伏变化的骨架结构.同时由于山脊线具有分水性,山谷线具有合水性特征,使得它们在地形 ...
Android APP性能分析方法及工具
近期读到<Speed up your app>一文.这是一篇关于Android APP性能分析.优化的文章.在这篇文章中,作者介绍他的APP分析优化规则.使用的工具和方法.我觉得值得大家借 ...

随机推荐

css3美化radio样式
.magic-radio{ position: absolute; display: none; } .magic-radio + label { position: relative; displa ...
fragment的介绍与使用
稍稍摘录一段Fragment.java中的说明文档. /** * A Fragment is a piece of an application's user interface or behavio ...
软件工程part5
1.本周psp 2.本周饼状图 3.本周进度条
基于NABCD评论“探路者”Alpha版作品
1.分析 N(Need):”为了重温贪吃蛇这一经典游戏,本组的选题定为贪吃蛇游戏,并在此基础上进行了新的创新,将普通的贪吃蛇游戏改为单词版贪吃蛇.市面上的英语单词背记软件对于那些缺少英语学习兴趣.毅力 ...
全排列 next_permutation() 函数的用法
在头文件<algorithm>里面有如下代码: int a[]; do { } while(next_permutation(a,a+n)); 可产生1~n的全排列有如下代码: #incl ...
lintcode-158-两个字符串是变位词
158-两个字符串是变位词写出一个函数 anagram(s, t) 判断两个字符串是否可以通过改变字母的顺序变成一样的字符串. 说明 What is Anagram? Two strings are ...
idea dubbo jar error:cvc-complex-type.2.4.c: 通配符的匹配很全面, 但无法找到元素 'dubbo:application' 的声明
声明: 出现这个错误的情形是,在idea开发环境里面运行是没有问题的,使用哦idea自带的打包工具生成jar之后,运行jar的时候报的这个错误,如果不是这个情况,这篇文章可能不适用. 主要的原因是sp ...
TCP/IP三次握手与四次握手
原文地址 http://blog.csdn.net/whuslei/article/details/6667471 http://blog.csdn.net/wo2niliye/article/det ...
table中的td限制宽度width也不能让字符过长变成省略号生效？
table中的td限制宽度width也不能让字符过长变成省略号生效? http://blog.csdn.net/java_mr_zheng/article/details/49423247 CSS t ...
java计算某日期之后的日期
public static void main(String[] args) { // 时间表示格式可以改变,yyyyMMdd需要写例如20160523这种形式的时间 SimpleDateFormat ...

Data Mining的十种分析方法——摘自《市场研究网络版》谢邦昌教授

Data Mining的十种分析方法——摘自《市场研究网络版》谢邦昌教授的更多相关文章

随机推荐

热门专题