本栏目来源于Andrew NG老师讲解的Machine Learning课程,主要介绍大规模机器学习以及其应用.包括随机梯度下降法.维批量梯度下降法.梯度下降法的收敛.在线学习.map reduce以及应用实例:photo OCR.课程地址为:https://www.coursera.org/course/ml (一)大规模机器学习 从前面的课程我们知道,如果我们的系统是high variance的,那么增加样本数会改善我们的系统,假设现在我们有100万个训练样本,可想而知,如果使用梯度下降法,…
Machine Learning by Andrew Ng | Stanford University | Coursera https://www.coursera.org/learn/machine-learning Machine learning is the science of getting computers to act without being explicitly programmed. In the past decade, machine learning has g…
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型, 通常通过增加数据集的规模,可以获得更好的结果. 但是如果数据集特别大,则首先应该检查这么大规模是否真的必要,也许只用 1000个训练集也能获得较好的效果,可以绘制学习曲线来帮助判断. 17.2 随机梯度下降法 Stochastic Gradient Descent 如果必须使用一个大规模的训练集…
本博客是针对Andrew Ng在Coursera上的machine learning课程的学习笔记. 目录 在大数据集上进行学习(Learning with Large Data Sets) 随机梯度下降(Stochastic Gradient Descent) 小堆梯度下降(Mini-Batch Gradient Descent) 保证随机GD的收敛与学习速率的选择 在线学习(Online Learning) Map Reduce 和 数据并行化 在大数据集上进行学习(Learning wit…
原文:http://googleresearch.blogspot.jp/2010/04/lessons-learned-developing-practical.html Lessons learned developing a practical large scale machine learning system Tuesday, April 06, 2010 Posted by Simon Tong, Google Research When faced with a hard pre…
大规模机器学习(Large Scale Machine Learning) 大型数据集的学习(Learning With Large Datasets) 如果你回顾一下最近5年或10年的机器学习历史.学习算法现在比5年前更好地工作的原因之一就是我们现在拥有了大量的数据,可以用来训练我们的算法.那么为什么要使用这么大的数据集呢?我们已经看到,获得高性能机器学习系统的最佳方法之一就是采用低偏差的学习算法,并且用大量的数据进行训练. 因此,如上图中,我们已经看到过的一个早期的在可混淆的单词之间进行分类…
本周主要介绍了聚类算法和特征降维方法,聚类算法包括K-means的相关概念.优化目标.聚类中心等内容:特征降维包括降维的缘由.算法描述.压缩重建等内容.coursera上面Andrew NG的Machine learning课程地址为:https://www.coursera.org/course/ml  (一)K-means聚类算法 Input data:未标记的数据集,类别数K: 算法流程: 首先随机选择K个点,作为初始聚类中心(cluster centroids): 计算数据集中每个数据与…
本栏目内容来源于Andrew NG老师讲解的SVM部分,包括SVM的优化目标.最大判定边界.核函数.SVM使用方法.多分类问题等,Machine learning课程地址为:https://www.coursera.org/course/ml 大家对于支持向量机(SVM)可能会比较熟悉,是个强大且流行的算法,有时能解决一些复杂的非线性问题.我之前用过它的工具包libsvm来做情感分析的研究,感觉效果还不错.NG在进行SVM的讲解时也同样建议我们使用此类的工具来运用SVM. (一)优化目标(Opt…
这部分内容来源于Andrew NG老师讲解的 machine learning课程,包括异常检测算法以及推荐系统设计.异常检测是一个非监督学习算法,用于发现系统中的异常数据.推荐系统在生活中也是随处可见,如购物推荐.影视推荐等.课程链接为:https://www.coursera.org/course/ml (一)异常检测(Anomaly Detection) 举个栗子: 我们有一些飞机发动机特征的sample:{x(1),x(2),...,x(m)},对于一个新的样本xtest,那么它是异常数…
Andrew NG的Machine learning课程地址为:https://www.coursera.org/course/ml 神经网络一直被认为是比较难懂的问题,NG将神经网络部分的课程分为了两个星期来介绍,可见Neural Networks内容之多.言归正传,通过之前的学习我们知道,使用非线性的多项式能够帮助我们建立更好的分类模型.但当遇特征非常多的时候,需要训练的参数太多,使得训练非常复杂,使得逻辑回归有心无力. 例如我们有100个特征,如果用这100个特征来构建一个非线性的多项式模…