机器学习笔记1 - Hello World In Machine Learning
前言
Alpha Go在16年以4:1的战绩打败了李世石,17年又以3:0的战绩战胜了中国围棋天才柯洁,这真是科技界振奋人心的进步。伴随着媒体的大量宣传,此事变成了妇孺皆知的大事件。大家又开始激烈的讨论机器人什么时候会取代人类统治世界的问题。
其实人工智能在上世纪5、60年代就开始进入了理论研究阶段,人们在不断探索人工智能技术的同时,也担忧起机器人会不会替代人类。然而现实比理想残酷的多,由于当时各种条件的限制(理论基础、技术基础、数据基础、硬件性能等),人工智能相关的项目进度缓慢,也缺少实际成效,研发资金、社会关注度也越来越低,人工智能进入第一次低谷期。
到了80年代,卡内基梅隆大学为数字设备公司设计了一套名为XCON的“专家系统”。这是一种,采用人工智能程序的系统,可以简单的理解为“知识库+推理机”的组合,XCON是一套具有完整专业知识和经验的计算机智能系统。人工智能再一次被各国政府和科研机构看好,大量的资金投入到研发中,但是好景不长,几年后随着苹果和IBM公司研发出了性能强劲的PC机,导致“专家系统”变得没有竞争力,人工智能发展又一次进入寒冬。
随后若干年,人工智能的发展趋于平稳和低调。时间来到21世纪,随着互联网的普及,大量数据被积累下来;摩尔定律一次又一次的被证实,计算机硬件性能以极快的速度在增长;“云”的普及,让普通大众也能轻松拥有调度大量算力的机会,人工智能不再是科学家和专业人员在实验室才能研究的东西了。数据+算力+易得这几方面的因素结合之后,将人工智能再一次推向了高潮。
可能这一波热潮又是人工智能发展史上的一个波峰,未来人工智能还有很长的路要走。但目前的人工智能发展已经惠及到商业领域,在这样一种技术+商业的结合中,我个人还是很看好这次浪潮的。尤其是在看过《最强大脑》中,百度在图像、音频方面的人工智能技术发展到这样一个水平之后(图像识别已经超超越了人类大脑对图像的识别能力,声音识别也几乎和人类最高水平持平),很希望自己也可以有机会涉足到这个领域中。
机器学习基础入门知识
机器学习是人工智能的一个分支,主要是通过数据+算法来训练得出模型,再用模型来预测数据的一种技术。
刚开始接触机器学习,发现基础理论中好多都是大学里学过的数理知识(一直以来困扰我的“大学为什么要学这些东西”的谜团总算被解开了:)。我个人做了Web开发近十载,大部分是应用级的,很少涉及数理算法,看来今后还要慢慢拾起这些知识。不过刚开始入门可以循序渐进,先弄懂机器学习是怎么回事,动手做一个“Hello world”,然后再逐步深入原理层面的知识。
要涉足机器学习,最好会一种编程语言,这点上我们程序员有先天优势。目前用于机器学习的主流语言是Python
和R
,R
我个人还没研究过,个人觉得Python
是一个比较好的选择,流行度高、上手难度低、科学计算类库丰富、语法精简,如果本身就有其他面向对象的编程语言基础,不到一周就可以基本掌握Python
了。
机器学习从从业分布
来看,可以分成基础算法研究(设计师)和应(ban)用(zhuan)两个领域,其中大部分人都是在应(ban)用(zhuan)这个领域。
如果从技术层面
来看,机器学习分成监督学习
、无监督学习
以及半监督学习
。如何来区分呢?首先解释下机器学习中的几个名词。
- 特性(Features) - 其实就是
数据
- 分类器(Classifier) - 其实就是
算法
- 标签(Labels) - 其实就是
种类
- 模型(Models) - 其实就是最终输出的
分类公式
监督学习
,就是在有标签
的前提下,找到一种最合适的分类器
,分析特性
和标签
之间的关系。
无监督学习
,就是没有标签
的前提下,将数据进行聚类(Clusting)
。
半监督学习
,就是部分特性
有标签
,部分则没有的状况(大部分特性
可能是没有标签
的情况)下进行分类。
监督学习
相对来说最简单,由已知特性
和标签
,利用合适的分类器
训练出模型
,再以模型
套用到数据中来预测出数据的标签
。当然,分类器
并不需要我们自己来发明创造,我们大部分人也没这个能力做这些事情,所有的理论研究、科学论证、代码实现都是现成的。Python
中有很多相关类库,比如scikit-learn
。应用层面的机器学习,其实就是通过不停的调参
(收集更多的数据、变换算法、选取合适的特征数据等工作)来找到一种更精准的预测模型
的工作。
Hello World In Machine Learning
假设我们现在需要区分皮球
(以直径15cm-25cm之间的球为例)和甜瓜
的图片,如果是传统的硬编码
的方式来写代码的话,可能需要写几百上千个if
-else
才能完成一个基本的算法,而且可扩展性特别差,比如如果图片是黑白的或者图片中有干扰物品,那可能需要修改源代码,添加更多的if
-else
来增加准确度。更糟的是,真正执行的时候会遇到很多事先没有预料到的特殊情况。
但如果通过机器学习,这个事情可能就会变得很简单。大致步骤如下:
- 将图片转换成
特征
向量(这个进阶知识不在本篇中涉及) - 决定一种合适当前场景的
分类器
- 结合
1
中得到的特征
和2
中得到的分类器
训练出模型
- 用
模型
中的公式预测数据,估算出其属于某个标签
的可能性,最大可能性的那个即模型
推算出的结果
数据准备
转换过程略,假设共N条数据,转换得到的特性
如下:
直径(厘米) | 形状 | 颜色 | 标签 |
---|---|---|---|
24 | round | white | melon |
35 | ellipse | white | melon |
24 | round | orange | ball |
24 | ellipse | yellow | melon |
22 | round | yellow | ball |
... | ... | ... | ... |
实现代码
features = [
[24, 'round', 'white'],
[35, 'ellipse', 'white'],
[24, 'round', 'orange'],
[24, 'ellipse', 'yellow'],
[22, 'round', 'yellow'],
...
]
labels = ['melon', 'melon', 'ball', 'melon', 'ball']
我们知道,计算机处理基础数据类型的速度,由快及慢为:bool
、int
、float
、string
...,因此,我们在处理数据的过程中,需要把原始数据抽象成计算机能最快处理的数据类型(因为机器学习运算量极大)。因此上面的代码经过转换之后:
# round:1, ellipse:2
# white:1, orange:2, yellow: 3
features = [[24, 1, 1], [35, 2, 1], [24, 1, 2], [24, 2, 3], [22, 1, 3]]
# melon:1, ball: 2
labels = [1, 1, 2, 1, 2]
这里顺便提一下,大部分机器学习中,都是以GPU的性能来衡量处理速度的,而不是我们一般使用的CPU,这是因为GPU的物理架构和CPU不一样,GPU是专门为了处理图像而设计的,它对浮点数的处理速度是CPU的数十倍乃至数百倍。而机器学习基本上可以看做是对浮点数的大量运算,因此GPU更适合在机器学习领域被使用。
算法选取
机器学习中,解决一个问题的算法并不是唯一的,同一个问题可以适用不同的算法来解决,一般都会在效率
和准确率
之间做权衡。本例中我们使用决策树(Deccision Tree)
作为Classifier
,关于决策树
,可参考https://baike.baidu.com/item/%E5%86%B3%E7%AD%96%E6%A0%91。
实现代码
from sklearn import tree
...
# 实例化classifier
clf = tree.DecisionTreeClassifier()
训练模型
scikit-learn
的classifier
中通过方法fit(features, labels)
来训练模型。其返回值即我们所需的模型
。
实现代码
...
clf = tree.fit(features, labels)
...
预测数据
有了模型,我们就可以对今后的数据进行预测,以得出label
值,从而达到对其归类的目的。
实现代码
...
# 假设现在有一个数据[23, 'round', 'white'],我们想知道他应该数据什么类型,先将其转换为[23, 1, 1], 然后调用模型的predict方法
print(clf.predict([[23, 1, 1]]))
...
得到的结果为:
# 代表机器学习测算得出结果是melon
[1]
完整代码
from sklearn import tree
# round:1, ellipse:2
# white:1, orange:2, yellow: 3
features = [[24, 1, 1], [35, 2, 1], [24, 1, 2], [24, 2, 3], [22, 1, 3]]
# melon:1, ball: 2
labels = [1, 1, 2, 1, 2]
# 实例化classifier
clf = tree.DecisionTreeClassifier()
# 训练
clf = clf.fit(features, labels)
print(clf.predict([[23, 1, 1]]))
后记
上例中,如果通过真正的人工智能肉眼
来看,[23, 'round', 'white']被推算为melon
的准确度其实并不高,因为[23, 'round', 'white']归类为ball
也完全是可以的。上文提到过,机器学习其实就是不停的寻找合适的数据和算法以提升准确率的过程。想要提升准确率,我们可以有以下思路:
- 加大训练样本量(训练样本必须和训练效率做好权衡,另外,最好避免重复的
特性
浪费算力,比如有了直径这列,就不需要半径、周长这样的特性
了,这三者代表的是一个意思) - 变换算法(可以选用更高级的算法或者多个算法组合,但必须在准确度和效率之间做好权衡)
- 抽象出更多的
特性
数据(比如本例中,如果有办法抽象出质量
这样的特性,那对于预测准确率会有极大的提升)
至此为止,我们机器学习的Hello World程序已经完成了,也基本了解了机器学习是怎么回事,是不是还挺有意思的?
本文在我的博客园和我的个人博客上同步发布,作者保留版权,转载请注明来源。
机器学习笔记1 - Hello World In Machine Learning的更多相关文章
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 17—Large Scale Machine Learning 大规模机器学习
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型 ...
- 第二章——机器学习项目完整案例(End-to-End Machine Learning Project)
本章通过一个例子,介绍机器学习的整个流程. 2.1 使用真实数据集练手(Working with Real Data) 国外一些获取数据的网站: Popular open data repositor ...
- 机器学习之强化学习概览(Machine Learning for Humans: Reinforcement Learning)
声明:本文翻译自Vishal Maini在Medium平台上发布的<Machine Learning for Humans>的教程的<Part 5: Reinforcement Le ...
- 斯坦福机器学习视频笔记 Week6 关于机器学习的建议 Advice for Applying Machine Learning
我们将学习如何系统地提升机器学习算法,告诉你学习算法何时做得不好,并描述如何'调试'你的学习算法和提高其性能的“最佳实践”.要优化机器学习算法,需要先了解可以在哪里做最大的改进. 我们将讨论如何理解具 ...
- 【机器学习|数学基础】Mathematics for Machine Learning系列之线性代数(1):二阶与三阶行列式、全排列及其逆序数
@ 目录 前言 二阶与三阶行列式 二阶行列式 三阶行列式 全排列及其逆序数 全排列 逆序数 结语 前言 Hello!小伙伴! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出- 自我介绍 ...
- 斯坦福第十课:应用机器学习的建议(Advice for Applying Machine Learning)
10.1 决定下一步做什么 10.2 评估一个假设 10.3 模型选择和交叉验证集 10.4 诊断偏差和方差 10.5 归一化和偏差/方差 10.6 学习曲线 10.7 决定下一步做什么 ...
- 学习笔记-----《Pattern Recognition and Machine Learning》Christopher M. Bishop
Preface 模式识别这个词,以前一直不懂是什么意思,直到今年初,才开始打算读这本广为推荐的书,初步了解到,它的大致意思是从数据中发现特征,规律,属于机器学习的一个分支. 在前言中,阐述了什么是模式 ...
- Ng第十课:应用机器学习的建议(Advice for Applying Machine Learning)
10.1 决定下一步做什么 10.2 评估一个假设 10.3 模型选择和交叉验证集 10.4 诊断偏差和方差 10.5 归一化和偏差/方差 10.6 学习曲线 10.7 决定下一步做什么 ...
- 10、应用机器学习的建议(Advice for Applying Machine Learning)
10.1 决定下一步做什么 到目前为止,我们已经介绍了许多不同的学习算法,如果你一直跟着这些视频的进度学习,你会发现自己已经不知不觉地成为一个了解许多先进机器学习技术的专家了. 然而,在懂机器学习的人 ...
随机推荐
- Android 开发笔记___SD卡基本操作__图片读取写入
package com.example.alimjan.hello_world.Utils; import android.graphics.Bitmap; import android.graphi ...
- EOJ 3242 重复数
重复数 Time limit per test: 1.0 seconds Time limit all tests: 1.0 seconds Memory limit: 256 megabytes 有 ...
- How to Quickly Create a Copy of a Table using Transact-SQL
The easiest way to create a copy of a table is to use a Transact-SQL command. Use SELECT INTO to ext ...
- Linux端图形处理工具ImageMagick在Centos上的安装
一.安装背景程序要用到用户上传图片,编辑的功能,能进行旋转,裁剪,缩放等. 二.ImageMagick介绍 ImageMagick是用C语言开发图片处理程序.可以对图片进行改变大小.旋转.锐化.减色或 ...
- TweenMax动画库学习
之前在做HTML5移动端开发的时候,用的都是Animate.css,这个插件封装的的确很好,但是在做一些缓动方面的动画,它也有一定的不足之处,比如手要写一个连续的动画,需要不停的去重复写函数,使得代码 ...
- 【转】用PowerDesigner制作数据库升级脚本
[原创]用PowerDesigner制作数据库升级脚本 很多人使用PD的时候就问有没有制作自动升级脚本的功能.其实是有的. 操作原理: 1.保存原来的版本,另存为apm的文件,生成一个Archiv ...
- 五、VueJs 填坑日记之将接口用webpack代理到本地
上一篇博文,我们已经顺利的从cnodejs.org请求到了数据,但是大家可以注意到我们的/src/api/index.js的第一句就是: // 配置API接口地址 var root = 'https: ...
- IdentityServer4(10)- 添加对外部认证的支持之QQ登录
前言 前面我们提到过IdentityServer4是可以添加外部认证的,如果外部认证支持OAuth2,那么添加到IdentityServer4是非常简单的,在ASP.NET Core下提供了非常多的外 ...
- .NET之RabbitMQ学习笔记(二)-安装
安装 1.安装erlang语言环境 因为rabbitmq是基于erlang进行开发,所以需要安装相应的依赖环境,学习中用到的erlang包下载地址:http://www.erlang.org/down ...
- 变位词(0029)-swustoj
变位词(0029)水题 变位词如果两个单词的组成字母完全相同,只是字母的排列顺序不一样,则它们就是变位词,两个单词相同也被认为是变位词.如tea 与eat , nic 与cin, ddc与dcd, a ...