CS229 1】的更多相关文章

监督学习(supervised learning) 假设我们有一个数据集(dataset),给出居住面积和房价的关系如下: 我们以居住面积为横坐标,房价为纵坐标,组成数据点,如(2104, 400),并把这些数据点描到坐标系中,如下: 由这些数据,我们怎么才能预测(predict)其他房价呢?其中房价作为居住面积的函数. 为了方便描述,我们用x(i)表示输入变量(即居住面积),也叫做输入特征(features):同时,用y(i)表示输出(即房价),也叫做目标(target)变量.有序对   (x…
CS229 笔记08 Kernel 回顾之前的优化问题 原始问题为: \[ \min_{w,b} \frac{1}{2}||w||^2\\[1.5em] {\text{s.t.}}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1 \] 原始问题的对偶问题为: \[ \max_{\alpha}\left\{ \sum_{i=1}^m \alpha_i - \frac{1}{2} \sum_{i,j}^m y{(i)} y^{(j)}\alpha_i \alph…
CS229 笔记07 Optimal Margin Classifier 回顾SVM \[ \begin{eqnarray*} h_{w,b}&=&g(w^{\rm T}x+b)\\[1em] g(z)&=&\begin{cases}1&z\geq0\\[1em]-1&z<0\end{cases}\\[1em] y&\in&\{-1,1\}\\[1em] \hat\gamma^{(i)}&=&y^{(i)}\left(w…
CS229 笔记06 朴素贝叶斯 事件模型 事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 \(k\) 个词,训练集一共有 \(m\) 封邮件,第 \(i\) 封邮件的词的个数为 \(n_i\) ,则 \(x^{(i)} \in \{1,2,\cdots,k\}^{n_i}\) . 此时模型的参数为: \[ \begin{eqnarray*} \phi_{k|y=0}&=&P(x_j=k|y=0)\\[1em] \phi_{k|y=1}&=&P(x…
CS229 笔记05 生成学习方法 判别学习方法的主要思想是假设属于不同target的样本,服从不同的分布. 例如 \(P(x|y=0) \sim {\scr N}(\mu_1,\sigma_1^2)\) , \(P(x|y=1) \sim {\scr N}(\mu_2,\sigma_2^2)\) . Gaussian Discriminant Analysis(高斯判别分析) 在这里还是讨论 \(y\in\{0,1\}\) 的二元分类问题, \(P(y)=\phi^y(1-\phi)^{1-y…
CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarray*} P(y=1|x;\Theta)&=&h_\Theta(x)=\frac{1}{1+e^{-\Theta^{{\rm T}}x}} \\[1em] P(y|x;\Theta)&=&[h_\Theta(x)]^y[1-h_\Theta(x)]^{1-y} \\[1em]…
CS229 笔记03 局部加权线性回归 Non-Parametric Learning Algorithm (非参数学习方法) Number of parameters grows with the size of sample. (参数的数目随着样本的数目增加而增加.) Locally Weighted Regression (局部加权线性回归) 损失函数的定义为: $ J_\Theta=\sum_i{w^{(i)}(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2} $…
CS229 笔记02 公式推导 $ {\text {For simplicity, Let }} A, B, C \in {\Bbb {R}}^{n \times n}. $ ​ $ {\bf {\text {Fact.1: }}} \text{If } a \in {\Bbb R}, {\rm tr}a=a $ ​ $ {\bf {\text {Fact.2: }}} {\rm{tr}}A={\rm{tr}}A^{\rm T} $ \[ \begin{eqnarray*} {\rm {tr}}…
在 Github 上,afshinea 贡献了一个备忘录对经典的斯坦福 CS229 课程进行了总结,内容包括监督学习.无监督学习,以及进修所用的概率与统计.线性代数与微积分等知识. 项目地址:https://github.com/afshinea/stanford-cs-229-machine-learning 据项目介绍,该 repository 旨在总结斯坦福 CS 229 机器学习课程的所有重要概念,包括: 学习该课程所需的重要预备知识,例如概率与统计.代数与微积分等进修课程. 对每个机器…
版权声明:本文为博主原创文章,转载请注明出处. https://blog.csdn.net/Dinosoft/article/details/34960693 前言 说到机器学习,非常多人推荐的学习资料就是斯坦福Andrew Ng的cs229.有相关的视频和讲义.只是好的资料 != 好入门的资料,Andrew Ng在coursera有另外一个机器学习课程,更适合入门. 课程有video,review questions和programing exercises,视频尽管没有中文字幕,只是看演示的…
1.机器学习 机器学习是工具,具体应用到某个实际场景下,才是目的. 2.分类 a 监督学习,包括回归(regression),分类(classification).回归问题,数据可以是连续或者离散,分类问题,数据一般是离散的. b 理论学习,机器学习目前主流的算法,用算法工具结合具体使用场景,解决问题. c 无监督学习,包括聚类,通过聚类,转换成类似监督学习的分类模型,当然,无监督模式应用的范围更广. d 强化学习,设计回报函数,类似狗的反射弧效应. 课程信息 http://cs229.stan…
重要说明 这个系列是以cs229为参考,梳理下来的有关机器学习传统算法的一些东西.所以说cs229的有些内容我会暂时先去掉放在别的部分里面,也会加上很多重要的,但是cs229没有讲到的东西.而且本系列大部分时间在自讲自话,如果看不懂的话,还是以原版课程为重. 课程资源 课程主页 网易公开课翻译的课程视频 cs229课件翻译 cs229练习题解答 重要参考资料 <统计机器学习>- 李航 <机器学习>- 周志华 个人笔记 cs229_part7 cs229_part6 cs229_pa…
斯坦福大学CS 229机器学习备忘单: https://github.com/kaobeixingfu/stanford-cs-229-machine-learning CS229机器学习算法的Python实现 : https://github.com/kaobeixingfu/CS229-ML-Implements…
CS229 Machine Learning Stanford Course by Andrew Ng Course material, problem set Matlab code written by me, my notes about video course: https://github.com/Yao-Yao/CS229-Machine-Learning Contents: supervised learning Lecture 1 application field, pre-…
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html 课程主页:http://cs229.stanford.edu/ 更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a 笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN 这一讲介绍了高斯判别分析以及朴素贝叶斯算法. Part IV 生成学习算法 到目前为止,我们…
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html 课程主页:http://cs229.stanford.edu/ 更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a 笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN 这一讲介绍EM算法和因子分析,回顾了高斯混合模型. 回顾EM算法 重复直到收敛 (E步骤)对…
CS229 Lecture notes 01 机器学习课程主要分为4部分:监督学习:学习理论:无监督学习:增强学习. $x^{(i)}$表示特征,$y^{(i)}$表示目标,$i=1...m$.m是训练数据的数量.n表示特征的数量. 回归问题:预测连续变量的值. 线性回归: 确定假设$h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}$.我们可以增加一个变量$x_{0}=1$,则该假设可以改写为$h(x)=\sum_{i=0}^{x}…
CS229 斯坦福大学机器学习复习材料(数学基础) - 线性代数 线性代数回顾与参考 1 基本概念和符号 1.1 基本符号 2 矩阵乘法 2.1 向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3 操作及其性质 3.1 单位矩阵和对角矩阵 3.2 转置 3.3 对称矩阵 3.4 矩阵的迹 3.5 范数 3.6 线性相关性和秩 3.7 方阵的逆 3.8 正交矩阵 3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩…
本文是斯坦福大学CS 229机器学习课程的基础材料,原始文件下载 原文作者:Zico Kolter,修改:Chuong Do, Tengyu Ma 翻译:黄海广 备注:请关注github的更新,线性代数和概率论已经更新完毕. CS229 机器学习课程复习材料-线性代数 目录 CS229 机器学习课程复习材料-线性代数 线性代数复习和参考 1. 基础概念和符号 1.1 基本符号 2.矩阵乘法 2.1 向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3 运算和属性 3.1 单位矩阵和…
本文是斯坦福大学CS229机器学习课程的基础材料,原始文件下载 原文作者:Arian Maleki , Tom Do 翻译:石振宇 审核和修改制作:黄海广 备注:请关注github的更新. CS229 机器学习课程复习材料-概率论 目录 CS229 机器学习课程复习材料-概率论 概率论复习和参考 1. 概率的基本要素 1.1 条件概率和独立性 2. 随机变量 2.1 累积分布函数 2.2 概率质量函数 2.3 概率密度函数 2.4 期望 2.5 方差 2.6 一些常见的随机变量 3. 两个随机变…
Ng的机器学习课,课程资源:cs229-课件    网易公开课-视频 问题数学模型: 马尔科夫过程五元组{S.a.Psa.γ.R},分别对应 {状态.行为.状态s下做出a行为的概率.常数.回报}. 一个简化的例子如下,假设移动机器人可以有如下位置,中间画×处不能走,目标是左上角,不希望走左上第二个格子: 那么机器人可以有11个状态S:在每个状态上都可以往四个方向走,因此a={N,S,W,E}: 为了给机器人正确的奖励惩罚政策,给定左上角位置的回报为+1,左上第二个格子回报为-1,其他格子-0.0…
建立模型 当使用机器学习的方法来解决问题时,比如垃圾邮件分类等,一般的步骤是这样的: 1)从一个简单的算法入手这样可以很快的实现这个算法,并且可以在交叉验证集上进行测试: 2)画学习曲线以决定是否更多的数据,更多的特征或者其他方式会有所帮助: 3)人工检查那些算法预测错误的例子(在交叉验证集上),看看能否找到一些产生错误的原因. 评估模型 首先,引入一个概念,非对称性分类.考虑癌症预测问题,y=1 代表癌症,y=0 代表没有癌症,对于一个数据集,我们建立logistic 回归模型,经过以上建模的…
本文所讲述的是怎么样去在实践中更好的应用机器学习算法,比如如下经验风险最小化问题: 当求解最优的  后,发现他的预测误差非常之大,接下来如何处理来使得当前的误差尽可能的小呢?这里给出以下几个选项,下面介绍的是如何在一下这些应对策略中选择正确的方法来助力以上问题. 当模型的variance比较大时,可能存在过拟合,这时可以尝试增多样本或者减少特征或者增大正则参数. 当模型的bias比较大时,可能存在欠拟合,这时可以尝试增加更多的特征或者增加多项特征或减小正则参数. 首先,一般的Mechine Le…
本文主要内容是 CNN 的 BP 算法,看此文章前请保证对CNN有初步认识. 网络表示 CNN相对于传统的全连接DNN来说增加了卷积层与池化层,典型的卷积神经网络中(比如LeNet-5 ),开始几层都是卷积和池化的交替,然后在靠近输出的地方做成全连接网络,这时候已经将所有两维2D的特征maps转化为全连接的一维网络的输入.在前向传导或城中中,也只有两处与传统的 MLP 有所不同,分别是卷积层前向传导,与 pooling 传导到卷积层,如下图所示: 在上图中,层 (l−1)(l−1) 可以为poo…
之前所讲的图像处理都是小 patchs ,比如28*28或者36*36之类,考虑如下情形,对于一副1000*1000的图像,即106,当隐层也有106节点时,那么W(1)的数量将达到1012级别,为了减少参数规模,加快训练速度,CNN应运而生.CNN就像辟邪剑谱一样,正常人练得很挫,一旦自宫后,就变得很厉害.CNN有几个重要的点:局部感知.参数共享.池化.  局部感知 局部感知野.一般认为人对外界的认知是从局部到全局的,而图像的空间联系也是局部的像素联系较为紧密,而距离较远的像素相关性则较弱.因…
Sparse AutoEncoder是一个三层结构的网络,分别为输入输出与隐层,前边自编码器的描述可知,神经网络中的神经元都采用相同的激励函数,Linear Decoders 修改了自编码器的定义,对输出层与隐层采用了不用的激励函数,所以 Linear Decoder 得到的模型更容易应用,而且对模型的参数变化有更高的鲁棒性. 在网络中的前向传导过程中的公式: 其中 a(3) 是输出. 在自编码器中, a(3) 近似重构了输入 x = a(1) . 对于最后一层为 sigmod(tanh) 激活…
Hintion老爷子在06年的science上的论文里阐述了 RBMs 可以堆叠起来并且通过逐层贪婪的方式来训练,这种网络被称作Deep Belife Networks(DBN),DBN是一种可以学习训练数据的高层特征表示的网络,DBN是一种生成模型,可见变量  与  个隐层的联合分布: 这里 x = h0,为RBM在第 k 层的隐层单元条件下的可见单元的条件分布, 是一个DBN顶部可见层与隐层的条件分布,如图下: DBN的训练: 1. 首先充分训练第一个 RBM:  2. 固定第一个 RBM…
1.RBM简介 受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)最早由hinton提出,是一种无监督学习方法,即对于给定数据,找到最大程度拟合这组数据的参数.RBM常用于降维,分类,回归与协同过滤,特征学习甚至 topic model ,其网络结构如下: RBM是一种两层的贝叶斯网络,是Deep Blief Network 的基本组成成分,该网络可网络结构有 n个可视节点和m个隐藏节点 ,其中每个可视节点只与m个隐藏节点相关,与其他可视节点独立,对于隐藏节点同…
对于加深网络层数带来的问题,(gradient diffuse  局部最优等)可以使用逐层预训练(pre-training)的方法来避免 Stack-Autoencoder是一种逐层贪婪(Greedy layer-wise training)的训练方法,逐层贪婪的主要思路是每次只训练网络中的一层,即首先训练一个只含一个隐藏层的网络,仅当这层网络训练结束之后才开始训练一个有两个隐藏层的网络,以此类推.在每一步中,把已经训练好的前  层固定,然后增加第  层(也就是将已经训练好的前  的输出作为输入…
self-taught learning 在特征提取方面完全是用的无监督的方法,对于有标记的数据,可以结合有监督学习来对上述方法得到的参数进行微调,从而得到一个更加准确的参数a. 在self-taught learning中,首先用 无标记数据训练一个sparse autoencoder,这样用对于原始输入x,经过sparse autoencoder得到隐层特征a: 这样对于分类问题,目标是预测样本的类别标号 .现在的标注数据集 ,包含  个标注样本.此前已经说明,可以利用稀疏自编码器获得的特征…