AI,DM,ML,PR的区别与联系

数据挖掘和机器学习的区别和联系，周志华有一篇很好的论述《机器学习与数据挖掘》可以帮助大家理解。数据挖掘受到很多学科领域的影响，其中数据库、机器学习、统计学无疑影响最大。简言之，对数据挖掘而言，数据库提供数据管理技术，机器学习和统计学提供数据分析技术。由于统计学往往醉心于理论的优美而忽视实际的效用，因此，统计学界提供的很多技术通常都要在机器学习界进一步研究，变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说，统计学主要是通过机器学习来对数据挖掘发挥影响，而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看，绝大多数数据挖掘技术都来自机器学习领域，但机器学习研究往往并不把海量数据作为处理对象，因此，数据挖掘要对算法进行改造，使得算法性能和空间占用达到实用的地步。同时，数据挖掘还有自身独特的内容，即关联分析。

而模式识别和机器学习的关系是什么呢，传统的模式识别的方法一般分为两种：统计方法和句法方法。句法分析一般是不可学习的，而统计分析则是发展了不少机器学习的方法。也就是说，机器学习同样是给模式识别提供了数据分析技术。

至于，数据挖掘和模式识别，那么从其概念上来区分吧，数据挖掘重在发现知识，模式识别重在认识事物。

机器学习的目的是建模隐藏的数据结构，然后做识别、预测、分类等。

因此，机器学习是方法，模式识别是目的。

-----------------------------------------------------------------

人工智能（Artificial Intelligence，AI）、机器学习（Machine Learning，ML）、模式识别（Pattern Recognition， PR）、数据挖掘（Data Mining， DM）、信息检索（Information Retrieval，IR）……我想起之前在 BeBeyond 的一个同学，我说我做 ML 的，他说“我做 DM 的，我们都是搞计算机的呢！”后来我才明白，ML 和 DM 根本就没有多大区别。其实，上面列的这些学科本质上都没有太大区别，只不过它们要解决的核心问题不同，而运用的数学模型如出一辙。

先说 AI。这个词大众比较熟悉，通常一个电子游戏的 AI 直接决定了游戏的可玩性。简单的 AI 比如超级玛丽里会扔刺猬的云怪，复杂的 AI 比如红色警戒中需要操纵整个国家的电脑敌人。我很小的时候就在想这些算法得有多么复杂。慢慢地我意识到电脑控制方式与我不一样。我是单线程的，在一个时间点上要么控制坦克进攻，要么控制基地建设；而电脑的每个单位都有独立的思考能力和通信能力。这些是通过设计逻辑来实现的（难怪在 98 年买的电脑上跑一点也不卡），比如坦克的逻辑可能是“IF 附近的友军收到攻击，THEN 前去支援”，矿车的逻辑可能是“IF 受到攻击， THEN 向基地撤退”……等等。 AI 其实就是计算机自动做决策。做决策的原则可以是上面简单的条件判断，可以是穷举，也可以是多个因素连接成的网络，比如下图（称为贝叶斯网络，Bayesian Network），这是一个通过判断是否有地震和盗窃的简单的智能系统。用贝叶斯网络做决策，需要设置的参数都是概率形式的，比如地震发生的概率是 2.6%，盗窃发生的概率是 12.4%，地震发生时警报响的概率是 72%……等等。这些参数有了之后，当有一天警报响起，系统就能够回溯地计算出警报响是由地震发生还是盗窃发生引起的。

下面说 ML。ML 是最可怕的部分。上面说的 AI 系统的规则都是人为设定的，所以它的表现绝大多数情况在人们的期待以内。而 ML 算法可能使系统变得过分地聪明。一个绝佳的 ML 例子见以下链接。

http://en.akinator.com/

这是一个网络小游戏，你在心中想一个人物，然后算法会问你一系列的一般疑问句（比如“这个人是科学家吗？”）你回答 Yes 或者 No。若干个问题后，算法会知道你心中的人物是谁了（通常比你预计的要快）。之所以说这是一个 ML 系统，是因为它不仅做决策下一个问题该问什么、已经问的问题和答案能推出什么结果，它还在不断地自我改进。比如说，我心中想的人物是亚运会的吉祥物阿和（几年前这个游戏推出时它肯定不知道阿和是谁），于是在很多个问题过后，这个 ML 算法猜成喜羊羊了，然后我告诉它“你猜错了，我想的是阿和”，于是，它会更新它的决策网络，增加阿和这个节点，改变各个概率值。下次有人想阿和的，它就可能猜中了。所以，从上面的例子可以看出，ML 重点研究的是算法的学习过程，强调的是一个反馈的框架。一开始系统可能很弱智，但是经过长期训练后它能做出很高超的决策。

举个我的例子。比如说，我老板希望能做一个自动作曲的系统，要求能做莫扎特风格的钢琴奏鸣曲，而听起来不能像海顿和贝多芬。想一想这个决策规则就复杂得看似不可能实现，也许 10000 个 IF...THEN...也不能实现。但是从 ML 的角度来思考，就变得有可能了。我可以把莫扎特已有的乐谱输入给系统，告诉它这是好结果；再把海顿和贝多芬的给系统，告诉它这是坏结果。然后就期待这个系统能够学到点什么。当然，真正实现起来设计这个学习框架是有难度的，不过 ML 是正确的思路。

接下来说的是 PR。我本科时北邮的课程就叫模式识别。PR 充满了工程的思维方式，“解决问题是关键，不关心系统在理论上是否最优”。比如人脸识别、癌细胞识别、语言识别、入侵检测等等，拿各种分类器（SVM、神经网络神马的）一个一个试，用最好的那个分类器来应用就 OK 了。

然后是 DM。DM 是一项应运而生的科学，正因为互联网蓬勃发展，才吸引那么多人研究 DM。个人认为 Google 之所以比百度聪明，就是因为 Google 的 DM 牛。对于成千上万个网页（看做是众多单词组成的序列），DM 算法可能发现“新闻”、“报导”、“记者”等词语是具有关联性的，于是用户在搜索“新闻”这个关键词时，与“新闻”相关的词也可能提供对用户有价值的信息。总之，DM 是从数据中挖掘出高层的语义关联信息。

再举个我的例子。我前一段时间做了一个音乐结构分段的算法，旨在将音乐中主歌、副歌这些结构单元自动分离。DM 中就有一个热门的算法能够达到我的目的，如下图，把《Creep》分解成为两个部分。技术细节就省略吧。最后，提一提 IR。IR 的目的希望互联网能够变得更加人性化。比如你在搜索引擎中输入“推荐个便宜的可以玩桌游的地方”，算法一方面从这句话中提取 IR （retrieve）出有用的信息：是个地方，要可以玩桌游，便不便宜自己看着办；另一方面从网络上取出（retrieve）合理的网页给用户。

总结一下吧。只要跟决策有关系的都能叫 AI，所以说 PR、DM、IR 属于 AI 的具体应用应该没有问题。研究的东西则不太一样， ML 强调自我完善的过程。 Anyway，这些学科都是相通的，Google 也是越来越聪明的，不是么。前一段时间看到关于机器阅卷比人工靠谱的消息。也许在不久的将来会有一大批人失业，机器会代替会记、医生、甚至程序员。也许，机器的智能会产生很多很多的争议，但是我们必须承认，在不太需要创造性的工作中，我们真的比不上机器的。最好的方式大概就是机器与人协同合作。 CCRMA 的 Jonathan Berger 来北京演讲，他提到的 sonification 给我挺大的启发。他说：“我们买西瓜时拍一拍就知道西瓜是否熟了，因为人耳对于这种音色可以做决策，而机器目前还很难做到。监测工作很辛苦，比如核电站工作人员需要成天盯着很多很多数据，不停地做决策，判断是否出异常。为什么不能把数据通过某种算法变换出某种音色，工作人员只需要学习什么是正常的声音，什么是异常的声音，听就行了，这与听拍西瓜的声音是一样的道理。”

摘录于：http://www.cnblogs.com/growup/archive/2011/04/26/2029393.html

http://wenku.baidu.com/view/c1b5120103d8ce2f0066233a.html

AI,DM,ML,PR的区别与联系的更多相关文章

Amazon SageMaker和NVIDIA NGC加速AI和ML工作流
Amazon SageMaker和NVIDIA NGC加速AI和ML工作流从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业.但是,开发和部署AI应用程序是一项具有挑战性的工作.该过 ...
AI，DM，ML，PR的区别与联系
数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述<机器学习与数据挖掘>可以帮助大家理解.数据挖掘受到很多学科领域的影响,其中数据库.机器学习.统计学无疑影响最大.简言之,对数据挖掘而 ...
机器学习 AI 谷歌ML Kit 与苹果Core ML
概述移动端所说的AI,通常是指"机器学习". 定义:机器学习其实就是研究计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身.从实践的意义 ...
认识：人工智能AI 机器学习 ML 深度学习DL
人工智能人工智能(Artificial Intelligence),英文缩写为AI.它是研究.开发用于模拟.延伸和扩展人的智能的理论.方法.技术及应用系统的一门新的技术科学. 人工智能是对人的意识. ...
Spark的MLlib和ML库的区别
机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.其目标是使实际的机器学习可扩展和容易.在高层次上,它提供了如下工具: ML算法:通用学习算法,如分类,回归,聚类和协同过滤特 ...
[转]语音识别中区分性训练（Discriminative Training）和最大似然估计（ML）的区别
转:http://blog.sina.com.cn/s/blog_66f725ba0101bw8i.html 关于语音识别的声学模型训练方法已经是比较成熟的方法,一般企业或者研究机构会采用HTK工具包 ...
人工智能和机器学习 AI&ML howto
我关心的AI.ML的分支领域: 我的博客:Deep Learning 和 Knowledge Graph howto (有关DL&KG的资料都在这里) https://www.cnblogs. ...
痞子衡嵌入式：ARM Cortex-M内核那些事（3.3）- 为AI,ML而生(M55)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是ARM Cortex-M55. 鼠年春节,大家都在时刻关心 2019nCoV 疫情发展,没太多心思搞技术,就在这个时候,ARM 不声不响 ...
密码与安全新技术专题之AI与密码
20189217 2018-2019-2 <密码与安全新技术专题>第五周作业课程:<密码与安全新技术专题> 班级: 1892 姓名: 李熹桥学号:20189214 上课教师 ...

随机推荐

C# String.split()用法小结。String.Split 方法 (String[], StringSplitOptions)
split()首先是一个分隔符,它会把字符串按照split(' 字符')里的字符把字符串分割成数组,然后存给一个数组对象. 输出数组对象经常使用foreach或者for循环. 第一种方法 string ...
ip的划分,超详细
from:http://blog.liuts.com/post/128/ IP和子网掩码我们都知道,IP是由四段数字组成,在此,我们先来了解一下3类常用的IP A类IP段 0.0.0.0 到127.2 ...
Java命令行的执行参数
Java 程序命令行参数说明启动Java程序的方式有两种: # starts a Java virtual machine, loads the specified class, and invok ...
Struts2动态方法调用（DMI）
当structs.xml解析到Action的时候,默认执行的是此action的execute()方法,但是实际开发中,我们的action中含有很多方法,比如说增删改查的方法,那么structs.xml ...
Broadmann分区
来源: http://blog.sina.com.cn/s/blog_60a751620100k2hj.html Brodmann areas Name 中文名 Function 1 Somatose ...
在SharePoint列表中使用自增栏
问:sps2010里能不能新建个栏,数字型的,自动加一答:在SharePoint里,有很多方法可以实现一个自增栏.在这里,我将介绍其中两种方式. 1.计算栏 2.列表项事件接收器 1.采用计算栏来实 ...
json解析性能比较（gson与jackson）（zz)
现在json的第三方解析工作很多,如json-lib,gson,jackson,fastjson等等.在我们完成一般的json-object转换工作时,几乎都没有任何问题.但是当数据的量上来时,他们的 ...
转一篇Unity的相机动画控制
最近真是忙,连研究细看的时间都没有了,原帖地址:https://alastaira.wordpress.com/2013/11/08/smooth-unity-camera-transitions-w ...
[BZOJ2876][NOI2012]骑行川藏(拉格朗日乘数法）
题目:http://www.lydsy.com:808/JudgeOnline/problem.php?id=2876 分析:就是要求约束条件下函数的极值,于是拉格朗日乘数列方程,发现化简后的关于vi ...
51单片机中断interrupt……using……
51单片机中断细节的一些问题. interrupt0:外部中断0interrupt1:定时器中断0interrupt2:外部中断interrupt3:定时器中断1interrupt4:串口 using ...

AI,DM,ML,PR的区别与联系

AI,DM,ML,PR的区别与联系的更多相关文章

随机推荐

热门专题