问题 假设空间的样本复杂度(sample complexity):随着问题规模的增长导致所需训练样本的增长称为sample complexity. 实际情况中,最有可能限制学习器成功的因素是训练数据的有限性. 在使用学习器的过程中,我们希望得到与训练数据拟合程度高的假设(hypothesis).(在前面文章中提到,这样的假设我们称之为g). 这就要求训练错误率为0.而实际上,大部分情况下,我们找不到这样的hypothesis(通过学习机得到的hypothesis)在训练集上有错误率为0. 所以退…
Hoeffding公式为 \epsilon]\leq{2e^{-2\epsilon^2N}}"> 如果把Training error和Test error分别看成和的话,Hoeffding告诉我们,取样出来的v和总的u大部分是比较接近的,很小的概率是差很远的,即Ein和Eout差很远,这种情况称为Bad sample. 本来只有一个coin,丢5次,5次head的概率就是1/32。现在有150个coin,可以选择出现5次的那个coin,这时概率会大大增加,变成了1-(31/32)^150…
Hoeffding霍夫丁不等式 在<>第八章"集成学习"部分, 考虑二分类问题\(y \in \{-1, +1\}\) 和真实函数\(f\), 假定基分类器的错误率为\(\epsilon\), 即对每个基分类器\(h_{i}\)有 \[ \begin{equation} P(h_{i}(x) \neq f(x)) = \epsilon \end{equation} \] 假设集成通过简单投票法结合\(T\)个基分类器, 若有超过半数的基分类器正确, 则集成分类就正确: \[…
网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法   Bias/variance tradeoff 还是用这组图,学习算法追求的是generalization error(对未知数据的预测误差),而不是training error(只是对训练集) 最左边,underfit,我们说这种学习算法有较大的bias Informally, we define the bia…
[1] ML Introduction a. supervised learning & unsupervised learning 监督学习:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果.监督学习的训练集要求包括输入输出,也可以说是特征和目标.训练集中的目标是由人标注的.常用于:训练神经网络.决策树.回归分析.统计分类 无监督学习:输入数据没有被标记,也没有确定的结果.样本数据类别未知,需要根据样本间的相似性对样本集进行分类,试图使类内差距最小化,…
这一节讲述的是机器学习的核心.根本性问题——学习的可行性.学过机器学习的我们都知道,要衡量一个机器学习算法是否具有学习能力,看的不是这个模型在已有的训练数据集上的表现如何,而是这个模型在训练数据外的数据(一般我们称为测试数据)上性能的好坏,我们把这个性能称为泛化能力(generalization ability),机器学习中,我们的目标是寻找高泛化能力的模型:有些模型虽然在训练数据集上分类效果很好,甚至正确率达到100%,但是在测试数据集上效果很差,这样的模型泛化能力很差,这种现象也叫过拟合(O…
https://blog.csdn.net/ChenVast/article/details/81449509 本文档旨在帮助那些掌握机器学习基础知识的人从Google机器学习的最佳实践中获益.它提供了机器学习的风格,类似于Google C ++风格指南和其他流行的实用编程指南.如果您参加了机器学习课程,或者在机器学习模型上构建或工作,那么您就具备了阅读本文档的必要背景知识. 术语 在我们关于有效机器学习的讨论中,将反复提出以下术语: 实例:您想要做出预测的事情.例如,实例可能是您要将其分类为“…
机器学习原理.实现与实践——机器学习概论 如果一个系统能够通过执行某个过程改进它的性能,这就是学习. ——— Herbert A. Simon 1. 机器学习是什么 计算机基于数据来构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 从上面的机器学习的定义中,我们可以了解到以下的信息: 机器学习以计算机及网络为平台,是建立在计算机及网络之上的: 机器学习以数据为研究对象. 机器学习的目的是对数据进行预测与分析 机器学习以模型为中心.构建模型.优化模型并用模型来进行预测. 机器学习的模型是…
NET平台机器学习组件-Infer.NET(三) Learner API—数据映射与序列化 阅读目录 关于本文档的说明 1.基本介绍 2.标准数据格式的映射 3.本地数据格式映射 4.评估数据格式映射 5.创建与序列化          所有文章分类的总目录:http://www.cnblogs.com/asxinyu/p/4288836.html 微软Infer.NET机器学习组件:http://www.cnblogs.com/asxinyu/p/4329742.html 回到目录 关于本文档…
监督学习(supervised learning):叫监督学习的原因是因为我们告诉了算法,我们想要预测什么.所谓监督,其实就是我们的意愿是否能直接作用于预测结果.典型代表:分类(classification)和回归(regression). 非监督学习(unsupervised learning):在非监督学习的数据中,没有给出标签(label,用于类别区分等)和目标值(target value,用于回归预测).通常,如果我们如果想将具有相似性的数据项进行分组,这种行为就是“聚类”(cluste…