MachineLearningPreface

机器学习(包括监督学习, 无监督学习, 半监督学习与强化学习)

监督学习(包括分类与线性回归)

分类(标签的值为散列的"yes"或者"no", "good"或者"bad", "have"或者"don't have", 总之是bool值)

训练集:

特征1 特征2 特征3 标签

  x    x    x    yes

  x    x    x    yes

  x    x    x    no

	|

	| learn

	|

get the sigmoid function: 机器学习最最重要的一点就是得到一个得分函数(就是机器学习的函数), 而得分函数中的未知量就是各个特征所

对应的权重(weight), 通过训练集中的特征值与标签(标签就是我们指定的3个特征通过函数得到的结果)求解出这些权重, 简单的来讲就相当于

y = kx + b, 题目已经给了我们y与x的一些值, 让我们列出方程求解k与b, 最后得出该得分函数y = kx + b. 得出这个得分函数之后, 进行测试

是必不可要的, 因为我们要测试得出最合适的权重

	|

	| test

	|

测试集:

特征1 特征2 特征3 标签

  x    x    x    unknow

  x    x    x    unknow

  x    x    x    unknow

	|

	|

	|

通过测试发现一开始训练得到的得分函数, 对测试集进行测试得到的标签值与我们预测的有差距, 我们将该差距记录下来, 并记录此时的权重值, 接着重复从训练集中计算权重, 再一个此得到函数, 再和我们预测的比一比, 再一次记录误差和权重, 最终我们设权重为x轴, 误差的值为y轴, 因此就得到了

一个误差与权重的函数图像, 我们称之为损失函数(名字的由来就是因为纵坐标是误差值), 例如:

这三个图都是一个凹函数, 我们只要通过求导求出它的最低点即可, 但是对于计算机来说, 有时候求导并不是像人类求导那么容易, 不行你试一试, 你怎么编写一个程序可以向我们人类一样套用公式求导, 换元什么的, 如果能力强是可以实现的, 但是终归是太麻烦了, 因此对于这类**凹函数**, **注意: 只对凹函数有效果**, 我们一般使用微积分中的梯度下降法, 从x轴的原点出发, 沿着曲线向右走, 对于曲线上的每一个点求出它的梯度, 比较他们的梯度, 找到梯度最小的点, 那个点对应的x坐标值就是我们需要的weight, 带入我们的得分函数就可以了

但是我们得出来的损失函数并不是每一次都是可以是一个凹函数的, 有可能是其他奇形怪状的函数图形, 大多数时候我们要做的就是将该函数凹函数化, 只要可以凹函数化, 我们就可以使用梯度下降的方法求出权重, 从而得出得分函数

在分类中我已经将学习大致的思路讲完了, 所以下面就不会再重复了

线性回归(标签值是连续的)



1. 训练集和测试集与之前的一样

2. 一个最常用的例子就是股票一天收盘的价格了, 将收盘的价格作为标签, 我们知道价格是连续的:-) Over

3. 其实线性回归可以转换为我们上面讲到了分类问题, 那股票收盘的价格为例, 我们规定价格在1000元以上的为good, 在1000元以下的为bad, 这样标签就是good和bad的散列了

无监督学习(与监督学习的训练集相比, 标签是unknown, 包含聚类和分类)

聚类



因为我们在训练的时候就不知道标签的值, 我们以特征1为x, 特征2为y, 得到如下的图像



我们看到, 所谓的聚类就是一些相邻的点组成一个结合:-) Over

PS: 这个图让我浑身不自在:-(

分类



嘿嘿, 你试着在上图中, 连接(0, 15), (20, 0)两个点, 聚类是不是被分成了两个类别了, 当然这个类型的划分是人为规定的

数据的降维

求协方差的去均值是预处理的工程
协方差的集合意义就是向量的內积
去均值就是向量之间的cos(x)
如果一组数据太大, 使用SVD将测试矩阵转为矩阵的乘法, 已达到数据降维

很多机器学习或者统计的算法最后都会转换为一个优化的问题, 就是求损失函数的最小值

一元函数导数为0
多元函数梯度为0, 梯度就是向量(对x的偏导, 对y的偏导, ...), 是竖着的矩阵n x 1
琴生不等式

MachineLearningPreface的更多相关文章

随机推荐

shell脚本实现自动保留最近n次备份记录
项目中出现的问题某天上午服务器出现卡顿特别严重,页面加载速度奇慢,并且某些页面刷新出现404的问题,就连服务器的tab命令的自动提示都出现了问题,楼主费了九牛二虎之力,根据服务器排查发现,服务器数据 ...
企业建立私有云的N个理由
简而言之,私有云意味着高效.安全.可控(技术路线是否可控另说了),也意味着高成本.有限弹性.(政绩工程不在讨论范围) 全面回答这个问题,其实包括两个部分:为什么要上云计算,以及为什么要采用私有化部署模 ...
ubuntu - 14.04，如何让从托盘消失的输入法图标再次显示出来？
ubuntu14.04,我也不知道怎么搞的,突然输入法图标就从托盘上消失了,这可真太不方便了,不知道自己当前是否正在使用输入法,怎么能让输入法图标再次显示在托盘上? 解决办法:确保你的“系统设置”中有 ...
CHSpecialEffect(特效)
1.CALayer 动画 1.1 转场动画CALayer (Transition) 2.UIView效果毛玻璃CHBlurEffect
GIT版本控制系统（二）
貌似第二条有点用,还木有都验证过,贴过来再说~ 转自: http://www.cnblogs.com/lhb25/p/10-useful-advanced-git-commands.html 1. 导 ...
【bzoj2186】: [Sdoi2008]沙拉公主的困惑数论-欧拉函数
[bzoj2186]: [Sdoi2008]沙拉公主的困惑考虑当 gcd(a,b)=1 则 gcd(nb+a,b)=1 所以[1,N!]与M!互质的个数就是筛出[1,M]所有的素数p[i] 以及逆 ...
解决Eclipse 启动后总是Building WorkSpace（sleeping） Java报错和处理
发布者:Lynn.. 时间:2016-12-20 13:13:55 今天打开eclipse后eclipse总是在Building WorkSpace(sleeping),我的解决方案是 ...
解决三星官方移植的内核默认是没有打开支持V4L USB devices
在linux比较新的kernel,都标配了各类摄像头的驱动支持,不用我们自己移植驱动,只需通过make menuconfig配置内核支持我们所需的摄像头类型即可.以下是在三星官方内核中配置V ...
数据结构4:顺序表(线性表的顺序存储结构)及C语言实现
逻辑结构上呈线性分布的数据元素在实际的物理存储结构中也同样相互之间紧挨着,这种存储结构称为线性表的顺序存储结构. 也就是说,逻辑上具有线性关系的数据按照前后的次序全部存储在一整块连续的内存空间中,之间 ...
命令行编译运行Java程序

MachineLearningPreface

机器学习(包括监督学习, 无监督学习, 半监督学习与强化学习)

监督学习(包括分类与线性回归)

分类(标签的值为散列的"yes"或者"no", "good"或者"bad", "have"或者"don't have", 总之是bool值)

在分类中我已经将学习大致的思路讲完了, 所以下面就不会再重复了

线性回归(标签值是连续的)

无监督学习(与监督学习的训练集相比, 标签是unknown, 包含聚类和分类)

聚类

分类

数据的降维

很多机器学习或者统计的算法最后都会转换为一个优化的问题, 就是求损失函数的最小值

MachineLearningPreface的更多相关文章

随机推荐

热门专题