在Lecture4中有3部分内容: Newton’s method        牛顿方法 Exceponential Family        指数分布族 Generalized Linear Models        广义线性模型(GLMS) 牛顿法上一篇随便中已经讲过了,是平行于梯度下降算法的另一种最优化算法. 然后,视频中证明了伯努利分布和高斯分布都属是指数分布族中的特例的证明,实际上就是把这两种分布转化为指数分布族的形式,然后一一去对照,判断是否符合. 接下来,就讲到了当我们选定了…
本节内容 牛顿方法 指数分布族 广义线性模型 之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下[参考感知机学习部分提到的梯度下降(gradient descent)].在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为其实梯度下降属于一种优化方法,但梯度下降找到的是局部最优解.如下图: 本节首先讲解的是牛顿方法(NewTon’s Method).牛顿方法也是一种优化方法,它考虑的是全局最优.接着还会讲到指数分布族和广义线性模型.下面来详细…
(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导…
Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下.本文基本是WIKI上部分内容的翻译. 1. 几个问题 什么是指数分布族? 既然是”族“,那么族内的共同特点是什么? 为何指数分布族被广泛应用?是指数分布族选择了我们,还是我们选择了指数分布族?(这个问题没有回答,需要结合具体实例分析) 2. 参考 Exponential family. (2015, February 26).…
网易公开课,第4课 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面介绍一个线性回归问题,符合高斯分布 一个分类问题,logstic回归,符合伯努利分布 也发现他们有些相似的地方,其实这些方法都是一个更广泛的模型族的特例,这个模型族称为,广义线性模型(Generalized Linear Models,GLMs) The exponential family 为了介绍GLMs,先需要介绍指数族分布(exponential fami…
广义线性模型扩展了线性模型的框架,它包含了非正态的因变量分析 广义线性模型拟合形式: $$g(\mu_\lambda) = \beta_0 + \sum_{j=1}^m\beta_jX_j$$ $g(\mu_\lambda)为连接函数$. 假设响应变量服从指数分布族中某个分布(不仅仅是正态分布),极大扩展了标准线性模型,模型参数估计的推导依据是极大似然估计,而非最小二乘法. 可以放松Y为正态分布的假设,改为Y服从指数分布族中的一种分布即可 glm()函数:glm(formula,family=f…
指数分布族 The exponential family 因为广义线性模型是围绕指数分布族的.大多数常用分布都属于指数分布族,服从指数分布族的条件是概率分布可以写成如下形式:η 被称作自然参数(natural parameter),或正则参数canonical parameter),它是指数分布族唯一的参数T(y) 被称作充分统计量(sufficient statistic),很多情况下T(y)=y loga(η) 是log partition functione-a(η)是一个规范化常数,使得…
CS229 笔记05 生成学习方法 判别学习方法的主要思想是假设属于不同target的样本,服从不同的分布. 例如 \(P(x|y=0) \sim {\scr N}(\mu_1,\sigma_1^2)\) , \(P(x|y=1) \sim {\scr N}(\mu_2,\sigma_2^2)\) . Gaussian Discriminant Analysis(高斯判别分析) 在这里还是讨论 \(y\in\{0,1\}\) 的二元分类问题, \(P(y)=\phi^y(1-\phi)^{1-y…
CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarray*} P(y=1|x;\Theta)&=&h_\Theta(x)=\frac{1}{1+e^{-\Theta^{{\rm T}}x}} \\[1em] P(y|x;\Theta)&=&[h_\Theta(x)]^y[1-h_\Theta(x)]^{1-y} \\[1em]…
CS229 Lecture notes 01 机器学习课程主要分为4部分:监督学习:学习理论:无监督学习:增强学习. $x^{(i)}$表示特征,$y^{(i)}$表示目标,$i=1...m$.m是训练数据的数量.n表示特征的数量. 回归问题:预测连续变量的值. 线性回归: 确定假设$h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}$.我们可以增加一个变量$x_{0}=1$,则该假设可以改写为$h(x)=\sum_{i=0}^{x}…