机器学习理论之SVM】的更多相关文章

支持向量机系列 (1) 算法理论理解 http://blog.pluskid.org/?page_id=683 手把手教你实现SVM算法(一) (2) 算法应用 算法应用----python 实现实例,线性分割二维平面数据 工具: python 以及numpy matplot sklearn sklearn的svm的介绍以及一些实例 http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html # coding: ut…
AdaBoost算法内容来自<统计学习与方法>李航,<机器学习>周志华,以及<机器学习实战>Peter HarringTon,相互学习,不足之处请大家多多指教! 提升算法是将弱学习算法提升为强学习算法的统计学习方法,在分类学习中,提升方法通过反复修改训练数据的权值分布,构建一系列基本的基本分类器,并将这些基本的分类器线性组合,构成一个强分类器.代表的方法是AdaBoost算法. 本卷大纲为: 1 提升方法AdaBoost算法2 AdaBoost算法解释3 提升树4 总结…
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类都可以说的很简单也可以说的很复杂,学术的东西本身就一直在更新着.比如K均值聚类可以扩展一下形成层次聚类(Hierarchical Clustering),也可以进入概率分布的空间进行聚类,就像前段时间很火的LDA聚类,虽然最近深度玻尔兹曼机(DBM)打败了它,但它也是自然语言处理领域(NLP:Nat…
摘要: 1.常见问题 1.1 什么是偏差与方差? 1.2 为什么会产生过拟合,有哪些方法可以预防或克服过拟合? 2.模型选择例子 3.特征选择例子 4.特征工程与数据预处理例子 内容: 1.常见问题 1.1 什么是偏差与方差? 泛化误差(general error)可以分解成偏差(bias)的平方加上方差(variance)加上噪声(noise). 偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰…
<机器学习实战>的最后的两个算法对我来说有点陌生,但学过后感觉蛮好玩,了解了一般的商品数据关联分析和搜索引擎智能提示的工作原理.先来看看关联分析(association analysis)吧,它又称关联规则学习(association rule learning),它的主要工作就是快速找到经常在一起的频繁项,比如著名的“啤酒”和“尿布”.试想一下,给我们一堆交易数据,每次的交易数据中有不同的商品,要我们从中发掘哪些商品经常被一起购买?当然穷举法也可以解决,但是计算量很大,这节的算法Aprior…
我们在推导机器学习公式时,常常会用到各种各样的对数,但是奇怪的是--我们往往会忽略对数的底数是谁,不管是2,e,10等. 原因在于,lnx,log2x,log10x,之间是存在常数倍关系. 回顾学过的数学知识,换底公式如下: 则有 故我们不用纠结对数公式中底数究竟是谁,常数倍关系往往对最后结果不产生影响…
几个概念 正交矩阵 在矩阵论中,正交矩阵(orthogonal matrix)是一个方块矩阵,其元素为实数,而且行向量与列向量皆为正交的单位向量,使得该矩阵的转置矩阵为其逆矩阵:  其中,为单位矩阵.正交矩阵的行列式值必定为或,因为: 对角矩阵 对角矩阵(英语:diagonal matrix)是一个主对角线之外的元素皆为0的矩阵.对角线上的元素可以为0或其他值.因此n行n列的矩阵 = (di,j)若符合以下的性质: 则矩阵为对角矩阵. 性质有: 1. 对角矩阵的和差运算结果还为对角矩阵 2. 对…
显著性水平α与P值: 1.显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示. 显著性是对差异的程度而言的,是在进行假设检验前确定的一个可允许作为判断界限的小概率标准. 2.P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较. P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率.如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理就有理由拒绝原假设,P值越小,拒绝原假设的理由越充分. 总结,P值…
    分类 分类旨在将项目分为不同类别. 最常见的分类类型是二元分类,其中有两类,通常分别为正数和负数. 如果有两个以上的类别,则称为多类分类. spark.mllib支持两种线性分类方法:线性支持向量机(SVM)和逻辑回归. 线性SVM仅支持二进制分类,而逻辑回归支持二进制和多类分类问题. 对于这两种方法,spark.mllib支持L1和L2正则化变体. 训练数据集由MLlib中LabeledPoint的RDD表示,其中标签是从零开始的类索引:0,1,2,.... 一.基本思想 统计学习理论…
对SVM的个人理解 之前以为SVM很强大很神秘,自己了解了之后发现原理并不难,不过,“大师的功力在于将idea使用数学定义它,使用物理描述它”,这一点在看SVM的数学部分的时候已经深刻的体会到了,最小二乘法.梯度下降法.拉格朗日乘子.对偶问题等等被搞的焦头烂额.在培乐园听了讲课之后才算比较清晰的了解了整个数学推导的来龙去脉. 1. 为什么一定要研究线性分类? 首先说一下为什么对数据集一定要说线性可分或线性不可分,难道不可以非线性分开吗?想要非线性分开当然可以,实际上SVM只是把原来线性不可分的数…