Foundations of Machine Learning: The PAC Learning Framework(2) (一)假设集有限在一致性下的学习界. 在上一篇文章中我们介绍了PAC-learnable的定义,以及证明了一个例子是PAC-learnable. 这一节我们介绍当hypothesis set是有限时,且算法$\mathcal{A}$相对与样本S满足一致性条件下的PAC问题.下一节介绍不一致条件下的PAC问题. 一致性(consistent):如果一个算法产生的假设$h_s…
写在最前:本系列主要是在阅读 Mehryar Mohri 等的最新书籍<Foundations of Machine Learning>以及 Schapire 和 Freund 的 <Boosting: Foundations and Algorithms>过程中所做的笔记.主要讨论三个部分的内容.第一部分是PAC的基本概念,介绍了泛化误差和经验误差,并且讨论了假设集$H$有限时的泛化边界.第二部分介绍了假设集$H$无限时的泛化边界,引入了三种衡量$H$复杂程度的机制,分别是Rad…
Foundations of Machine Learning: The Margin Explanation for Boosting's Effectiveness 在这一节,我们要回答的一个问题是:什么样的分类器用于预测未知数据会更让人信服?而要回答这个问题,我们首先得量化“信服”这个概念.那就是margin, margin越大就越让人信服. 一.支撑向量机 SVM 用一个超平面$w\cdot x+ b=0$对数据进行分类,而分类的原则是使样本离这个超平面最短的距离尽可能的大,或者说使所有…
Foundations of Machine Learning: Boosting Boosting是属于自适应基函数(Adaptive basis-function Model(ABM))中的一种模型.自适应基函数可以表示成: $$f(x)=w_0+\sum_{m=1}^Mw_m\phi_m(x).$$ 其中基函数$\phi_m$在Boosting里面叫做weak learner.Boosting会不断学习出weak learner,然后通过权重向量将这些weak learner组合成一个st…
Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) (一) 增长函数(Growth function) 在引入增长函数之前,我们先介绍一个例子,这个例子会有助于理解增长函数这个东西. 在input space为$\mathbb{R}$,假设空间为阈值函数,即当输入的点$x>v$时,将该点标为正.如 图1 为其中的6个假设. 图1 阈值函数示例 很显然,这个假设集合的大小为无限多个.但实际,我们很容易…
Foundations of Machine Learning: Rademacher complexity and VC-Dimension(1) 前面两篇文章中,我们在给出PAC-learnable定理时,都有一个前提假设,那就是 Hypothesis set 是有限的.但很明显,在实际中的假设集大都是无限的,比如上一篇文章中介绍的与坐标轴对齐的矩阵的例子,其 Hypothesis set 就是无限的. 假设我们也用上一章的方法来分析,最后得到的上界中含有无穷大的项$log|H|$, 显然这…
对于一个concept class C,如果存在一个算法A和一个多项式poly(.,.,.,.),有对于任意的ε>0.δ>0以及X的任意分布D和任何target concept C,当sample size m>=poly(1/ε,1/δ,n,size(c))时,不等式: 都成立,那么就说这个concept class C是PAC-learnable的. (1).n:x的维度. (2).size(c): O(n):an upper bound on the cost of the com…
论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述 背景及问题 背景: 翻译: 翻译模型学习条件分布后,给定一个源句,通过搜索最大条件概率的句子,可以生成相应的翻译. 神经网络翻译:两个组件:第一个:合成一个源句子x:第二个:解码一个目标句子y. 问题:固定长度向量是编码器 - 解码器架构性能提升的瓶颈. 本文主要思想 本文提出:允许模型自动(软)搜索与预测目标单词相关的源句 --- 扩展的编码器…
读论文 Neural Machine Translation by Jointly Learning to Align and Translate 这个论文是在NLP中第一个使用attention机制的论文.他们把attention机制用到了神经网络机器翻译(NMT)上.NMT其实就是一个典型的sequence to sequence模型,也就是一个encoder to decoder模型,传统的NMT使用两个RNN,一个RNN对源语言进行编码,将源语言编码到一个固定维度的中间向量,然后在使用一…
原文地址 :[1409.0473] Neural Machine Translation by Jointly Learning to Align and Translate (arxiv.org) 读这篇主要希望学习了解Encoder-Decoder结构…
Deep Learning and Shallow Learning 由于 Deep Learning 现在如火如荼的势头,在各种领域逐渐占据 state-of-the-art 的地位,上个学期在一门课的 project 中见识过了 deep learning 的效果,最近在做一个东西的时候模型上遇到一点瓶颈于是终于决定也来了解一下这个魔幻的领域. 据说 Deep Learning 的 break through 大概可以从 Hinton 在 2006 年提出的用于训练 Deep Belief…
Predictive learning vs. representation learning  预测学习 与 表示学习 When you take a machine learning class, there's a good chance it's divided into a unit on supervised learning and a unit on unsupervised learning. We certainly care about this distinction f…
来源:http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training.本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning b…
by Jason Brownlee on December 20, 2017 in Better Deep Learning Transfer learning is a machine learning method where a model developed for a task is reused as the starting point for a model on a second task. It is a popular approach in deep learning w…
from:http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training.本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning…
Supervised Learning In supervised learning, we are given a data set and already know what our correct output should look like, having the idea that there is a relationship between the input and the output. Supervised learning problems are categorized…
http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training.本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning by A…
以上几个概念之前没有完全弄清其含义及区别,容易混淆概念,在本文浅析一下: 一.online learning vs batch learning online learning强调的是学习是实时的,流式的,每次训练不用使用全部样本,而是以之前训练好的模型为基础,每来一个样本就更新一次模型,这种方法叫做OGD(online gradient descent).这样做的目的是快速地进行模型的更新,提升模型时效性. online learning其实细分又可以分为batch模式和delta模式.bat…
UFLDL(Unsupervised Feature Learning and Deep Learning)Tutorial 是由 Stanford 大学的 Andrew Ng 教授及其团队编写的一套教程,内容深入浅出,有很强的实用性,学习起来,让人有种酣畅淋漓的感觉.邓侃博士于今年 2 月 20 日起,在新浪微博上召集志愿者对该教程进行翻译,并于 4 月 8 日全部完成,非常感谢所有参与者的辛勤劳动.本系列文章主要是对这套教程资料的整理,部分内容加入了自己的一些理解和注释. 第一篇  稀疏自编…
1. active learning Active learning 是一种特殊形式的半监督机器学习方法,该方法允许交互式地询问用户(或者其他形式的信息源 information source)以获取对新的数据样本的理想输出. Active learning 提供的这种交互机制尤其适用于 unlabeled data 有很多,且手工标注的代价十分高昂的场合.显然这种交互式地向用户询问以获取label,使得原始非监督问题变成了一种迭代式的监督学习(iterative supervised lear…
https://www.tensorflow.org/tutorials/seq2seq https://medium.com/@devnag/seq2seq-the-clown-car-of-deep-learning-f88e1204dac3 https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf…
Machine Learning is a class of algorithms which is data-driven, i.e. unlike "normal" algorithms it is the data that "tells" what the "good answer" is. Example: an hypothetical non-machine learning algorithm for face recogniti…
7.27 暑假开始后,稍有时间,“搞完”金融项目,便开始跑跑 Deep Learning的程序 Hinton 在Nature上文章的代码 跑了3天 也没跑完 后来Debug 把batch 从200改到20 勉强跑出结果 后来开始看 文章等  感觉晕晕乎乎 又翻到:Deep Learning Tutorials 装Theano等,但是python 代码 Debug真是好生恶心 再后来翻到 UFLDL,看着有Exercise 便做了起来. 用了5天刷了9个Exercises. 大概年后吧,在微博上看…
首先为什么会有Deep learning,我们得到一个结论就是Deep learning需要多层来获得更抽象的特征表达. 1.Deep learning与Neural Network 深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本.深度学习是无监督学习的一种. 深度学习的概念源于人工神经网络的研究.含多隐层的多层感知器就是一种深度学习结构.深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现…
目录 原文链接: 小样本学习与智能前沿 01 Multitask Learning 01.1 Parameter Sharing 01.2 Parameter Tying. 02 Embedding Learning 02.1 Task-Specific Embedding Model. 02.2 Task-Invariant Embedding Model. 02.3 Hybrid Embedding Model. 03 Learning with External Memory 03.1 R…
目录 1 Informativeness 2 Representativeness 3 Diversity 3.1 Global consideration 3.2 Local consideration 4 Combinations of three criteria 4.1 Strategy 1 4.2 Strategy 2 4.3 Strategy 1 vs. Strategy 2 References Active Learning (AL) 的 query criteria 大致可以分…
参考文献: 摘于上文献: The more general and powerful setting is the self-taught learning setting, which does not assume that your unlabeled data xu has to be drawn from the same distribution as your labeled data xl. The more restrictive setting where the unlab…
https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a-html/node26.html [平均-打折奖励] Schwartz [106] examined the problem of adapting Q-learning to an average-reward framework. Although his R-learning algorithm seems to exhibit convergence p…
https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644   How Can I Learn X? Learning Machine Learning Learning About Computer Science Educational Resources Advice Artificial Intelligence How-to Question Learning New Things Lea…
昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machine Learning (by Hastie, Tibshirani, and Friedman's ) 2.Elements of Statistical Learning(by Bishop's) 这两本是英文的,但是非常全,第一本需要有一定的数学基础,第可以先看第二本.如果看英文觉得吃力,推荐看一下下面…