机器学习基石笔记：11 Linear Models for Classification

Coursera台大机器学习课程笔记10 -- Linear Models for Classification

这一节讲线性模型,先将几种线性模型进行了对比,通过转换误差函数来将linear regression 和logistic regression 用于分类. 比较重要的是这种图,它解释了为何可以用Linear Regression或Logistic Regression来替代Linear Classification 然后介绍了随机梯度下降法,主要是对梯度下降法的一个改进,大大提高了效率. 最后讲了多类别分类,主要有两种策略:OVA和OVO OVA思想很简单,但如果类别很多并且每个类别的数目都差不…

机器学习基石笔记：11 Linear Models for Classification

一.二元分类的线性模型线性分类.线性回归.逻辑回归: 可视化这三个线性模型的代价函数, SQR.SCE的值都是大于等于0/1的. 理论分析上界: 将回归应用于分类: 线性回归后的参数值常用于pla/pa/logistic regression的参数初始化. 二.随机梯度下降两种迭代优化模式: 利用全部样本------>利用随机的单个样本, 梯度下降------>随机梯度下降. SGD与PLA的相似性: 当迭代次数足够多时,停止. 步长常取0.1. 三.使用逻辑回归的多分类问题是非题---…

机器学习基石笔记：11 Linear Models for Classification、LC vs LinReg vs LogReg、OVA、OVO

原文地址:https://www.jianshu.com/p/6f86290e70f9 一.二元分类的线性模型线性回归后的参数值常用于PLA/PA/Logistic Regression的参数初始化. 二.随机梯度下降两种迭代优化模式: 若利用全部样本 ------> 利用随机的单个样本,则梯度下降 ------> 随机梯度下降. SGD与PLA的相似性: 当迭代次数足够多时,停止.步长常取0.1. 三.使用逻辑回归的多分类问题是非题 ------> 选择题: 每次识别一类A,将其…

11 Linear Models for Classification

一.二元分类的线性模型线性分类.线性回归.逻辑回归可视化这三个线性模型的代价函数 SQR.SCE的值都是大于等于0/1的理论分析上界将回归应用于分类线性回归后的参数值常用于pla/pa/logistic regression的参数初始化二.随机梯度下降两种迭代优化模式利用全部样本--->利用随机的单个样本, 梯度下降--->随机梯度下降 SGD与PLA的相似性当迭代次数足够多时,停止步长常取0.1 三.使用逻辑回归的多分类问题是非题--->选择题每次识别一类A,将…

机器学习技法笔记(2)-Linear SVM

从这一节开始学习机器学习技法课程中的SVM, 这一节主要介绍标准形式的SVM: Linear SVM 引入SVM 首先回顾Percentron Learning Algrithm(感知器算法PLA)是如何分类的,如下图,找到一条线,将两类训练数据点分开即可: PLA的最后的直线可能有很多条,那到底哪条好呢?好坏的标准则是其泛化性能,即在测试数据集上的正确率,如下,下面三条直线都能正确的分开训练数据,那到底哪个好呢?SVM就是解决这个问题的. SVM求解直觉告诉我们最右的要好一些,因为测试数据的…

Andrew Ng机器学习公开课笔记 -- Generalized Linear Models

网易公开课,第4课 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面介绍一个线性回归问题,符合高斯分布一个分类问题,logstic回归,符合伯努利分布也发现他们有些相似的地方,其实这些方法都是一个更广泛的模型族的特例,这个模型族称为,广义线性模型(Generalized Linear Models,GLMs) The exponential family 为了介绍GLMs,先需要介绍指数族分布(exponential fami…

《机器学习基石》---Linear Models for Classification

1 用回归来做分类到目前为止,我们学习了线性分类,线性回归,逻辑回归这三种模型.以下是它们的pointwise损失函数对比(为了更容易对比,都把它们写作s和y的函数,s是wTx,表示线性打分的分数): 把这几个损失函数画在一张图上: 如果把逻辑回归的损失函数ce做一个适当的放缩,则可以得到下图: 可以看出,平方误差和放缩后的交叉熵误差是0/1误差的上限,这里以放缩后的ce举例,由于对于每个点的error均成立不等式,则不论是对于Ein还是Eout仍然有不等式成立,因为它们是数据集上每个点err…

机器学习基石笔记：09 Linear Regression

线性回归假设: 代价函数------均方误差: 最小化样本内代价函数: 只有满秩方阵才有逆矩阵. 线性回归算法流程: 线性回归算法是隐式迭代的. 线性回归算法泛化可能的保证: 根据矩阵的迹的性质:trace(A+B)=trace(A)+trace(B), trace(I-H) =trace(IN*N)-trace(H) =N-trace(XX+) =N-trace(XTX(XTX)-1) =N-trace(I(d+1)*(d+1)) =N-(d+1), I-H这种转换的物理意义: 原来有一个有N…

PRML读书会第四章 Linear Models for Classification(贝叶斯marginalization、Fisher线性判别、感知机、概率生成和判别模型、逻辑回归)

主讲人 planktonli planktonli(1027753147) 19:52:28 现在我们就开始讲第四章,第四章的内容是关于线性分类模型,主要内容有四点:1) Fisher准则的分类,以及它和最小二乘分类的关系 (Fisher分类是最小二乘分类的特例)2) 概率生成模型的分类模型3) 概率判别模型的分类模型4) 全贝叶斯概率的Laplace近似需要注意的是,有三种形式的贝叶斯:1) 全贝叶斯2) 经验贝叶斯3) MAP贝叶斯我们大家熟知的是 MAP贝叶斯 MAP(poor man…

斯坦福机器学习视频笔记 Week1 Linear Regression and Gradient Descent

最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更新,希望大家多多批评指正. Supervised Learning(监督学习) 在监督学习中,我们的数据集包括了算法的输出结果,比如具体的类别(分类问题)或数值(回归问题),输入和输出存在某种对应关系. 监督学习大致可分为回归(classification)和分类(regression). 回归:对…

PRML读书笔记——3 Linear Models for Regression

Linear Basis Function Models 线性模型的一个关键属性是它是参数的一个线性函数,形式如下: w是参数,x可以是原始的数据,也可以是关于原始数据的一个函数值,这个函数就叫basis function,记作φ(x),于是线性模型可以表示成: w0看着难受,定义一个函数φ0(x) = 1, 模型的形式再一次简化成: 以上就是线性模型的一般形式.basis function有很多选择,例如Gaussian.sigmoid.tanh (tanh(x) = 2 * sigmoid(…

Coursera台大机器学习课程笔记8 -- Linear Regression

之前一直在讲机器为什么能够学习,从这节课开始讲一些基本的机器学习算法,也就是机器如何学习. 这节课讲的是线性回归,从使Ein最小化出发来,介绍了 Hat Matrix,要理解其中的几何意义.最后对比了linear regression 和 binary classification,并说明了linear regression 为什么可以用来做 binary classification .整节课的内容可以用下面的图来表示: 与其他课程的线性回归相比,这门课要更加理论,看完后对这门课有了更深的理解…

scikit-learn 学习笔记-- Generalized Linear Models (一)

scikit-learn 是非常优秀的一个有关机器学习的 Python Lib,包含了除深度学习之外的传统机器学习的绝大多数算法,对于了解传统机器学习是一个很不错的平台.每个算法都有相应的例子,既可以对算法有个大概的了解,而且还能熟悉这个工具包的应用,同时也能熟悉 Python 的一些技巧. Ordinary Least Squares 我们先来看看最常见的线性模型,线性回归是机器学习里很常见的一类问题. y(w,x)=w0+w1x1+w2x2+...+wpxp" role="pres…

【机器学习基石笔记】九、LinearRegression

[一] 线性回归直觉上的解释得到Ein = mean(y - wx)^2 [二] w的推导 Ein = 1/N || xw - y||^2 连续.可微.凸函数在各个方向的偏微分都是0 Ein = 1/N (wTxTxw - 2wTxTy + yTy) Ein := 1/N (wTaw - 2wTb + c) 向量求导,aw - b = 0 xTxw = xTy w = (xTx)^-1(xTy) xTx的维度为dxd, x是nxd, y是nx1 可定义为 w = x^{+} y 那么有yHa…

林轩田机器学习基石笔记3—Types of Learning

上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA.PLA能够在平面中选择一条直线将样本数据完全正确分类.而对于线性不可分的情况,可以使用Pocket Algorithm来处理.本节课将主要介绍一下机器学习有哪些种类,并进行归纳. 一.Learning with Different Output Space Y(根据输入空间变化划分) 银行根据用户个人情况判断是否给他发信用卡的例子,这是一个典型的二元分类(binary classification)问题.也就是说输出只有两个,一般y=…

林轩田机器学习基石笔记2—Learning to Answer Yes/No

机器学习的整个过程:根据模型H,使用演算法A,在训练样本D上进行训练,得到最好的h,其对应的g就是我们最后需要的机器学习的模型函数,一般g接近于目标函数f.本节课将继续深入探讨机器学习问题,介绍感知机Perceptron模型,并推导课程的第一个机器学习算法:Perceptron Learning Algorithm(PLA). 一.Perceptron Hypothesis Set 某银行要根据用户的年龄.性别.年收入等情况来判断是否给该用户发信用卡.现在有训练样本D,即之前用户的信息和是否发了…

Coursera台大机器学习课程笔记11 -- Nonlinear Transformation

这一节讲的是如何将线性不可分的情况转为非线性可分以及转换的代价.特征转换是机器学习的重点. 最后得出重要的结论是,在做转换时,先从简单模型,再到复杂模型. 参考:http://www.cnblogs.com/ymingjingr/p/4340977.html…

机器学习基石笔记：01 The Learning Problem

原文地址:https://www.jianshu.com/p/bd7cb6c78e5e 什么时候适合用机器学习算法? 存在某种规则/模式,能够使性能提升,比如准确率: 这种规则难以程序化定义,人难以给出准确定义: 存在能够反映这种规则的资料. 所以,机器学习就是设计算法\(A\),从包含许多假设的假设集合\(H\)里,根据所给的数据集\(D\),选出和实际规则\(f\)最为相似的假设\(g\). \(g\)和\(f\)相似度的衡量是基于所有数据,不仅仅是\(D\). \(Learning \ M…

机器学习基石笔记：04 Feasibility of Learning

原文地址:https://www.jianshu.com/p/f2f4d509060e 机器学习是设计算法\(A\),在假设集合\(H\)里,根据给定数据集\(D\),选出与实际模式\(f\)最为相近的假设\(g\)(\(g\)可能与\(f\)相同,也可能不同). 那什么情况下学习是可行的?即保证\(g\)和\(f\)是相似的. 数据集内的表现\(g\)约等于\(f\); \(g\)在数据集外的表现约等于\(g\)在数据集内的表现. 结合1.2可保证,由算法在给定数据集上学习到的\(g\)(即数…

scikit-learn 学习笔记-- Generalized Linear Models （三）

Bayesian regression 前面介绍的线性模型都是从最小二乘,均方误差的角度去建立的,从最简单的最小二乘到带正则项的 lasso,ridge 等.而 Bayesian regression 是从 Bayesian 概率模型的角度出发的,虽然最后也会转换成一个能量函数的形式. 从前面的线性模型中,我们都假设如下的关系: y=wx" role="presentation">y=wxy=wx 上面这个关系式其实是直接从值的角度来考虑,其实我们也可以假设如下的关系:…

林轩田机器学习基石笔记4—Feasibility of Learning

上节课介绍了机器学习可以分为不同的类型.其中,监督式学习中的二元分类和回归分析是最常见的也是最重要的机器学习问题.本节课,我们将介绍机器学习的可行性,讨论问题是否可以使用机器学习来解决. 一.Learning is Impossible 首先,考虑这样一个例子,如下图所示,有3个label为-1的九宫格和3个label为+1的九宫格.根据这6个样本,提取相应label下的特征,预测右边九宫格是属于-1还是+1?结果是,如果依据对称性,我们会把它归为+1:如果依据九宫格左上角是否是黑色,我们会把它…

林轩田机器学习基石笔记1—The Learning Problem

机器学习分为四步: When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Learn Better? 一.What is Machine Learning Q:什么是“学习”? A:学习就是人类通过观察.积累经验,掌握某项技能或能力.就好像我们从小学习识别字母.认识汉字,就是学习的过程. 机器学习(Machine Learning),顾名思义,就是让机器(计算机)也能向人类一样,…

机器学习基石：09 Linear Regression

机器学习基石笔记：Homework #1 PLA&PA相关习题

原文地址:http://www.jianshu.com/p/5b4a64874650 问题描述程序实现 # coding: utf-8 import numpy as np import matplotlib.pyplot as plt import time def read_data(dataFile): with open(dataFile, 'r') as file: data_list = [] for line in file.readlines(): line = line.st…

机器学习基石笔记：03 Types of Learning

原文地址:https://www.jianshu.com/p/86b2a9cef742 一.学习的分类根据输出空间\(Y\):分类(二分类.多分类).回归.结构化(监督学习+输出空间有结构): 根据标签\(y\):监督学习.无监督学习(聚类.密度估计.异常点检测).半监督学习(标注成本高时).强化学习: 根据数据喂给方式:批.在线(PLA.强化学习).主动学习: 根据输入空间\(X\):具体(相关物理意义).原始(图像灰度值).抽象(用户id). 二.主动学习 vs 半监督学习半监督学习是不…

机器学习基石笔记：02 Learning to Answer Yes/No、PLA、PA

原文地址:https://www.jianshu.com/p/ed0aee74523f 一.Perceptron Learning Algorithm (一)算法原理 PLA本质是二元线性分类算法,即用一条线/一个面/一个超平面将1.2维/3维/4维及以上数据集根据标签的不同一分为二.算法确定后,根据\(W\)取值的不同形成不同的\(h\),构成假设集合\(H\).如2维感知器算法,根据\(w_0\),\(w_1\),\(w_2\)的不同取值,构成了不同的\(h\),这些\(h\)最终构成\(H…

机器学习基石笔记：10 Logistic Regression

线性分类中的是非题------>概率题, 设置概率阈值后,大于等于该值的为O,小于改值的为X.------>逻辑回归. O为1,X为0: 逻辑回归假设: 逻辑函数/S型函数:光滑,单调, 自变量趋于负无穷时,因变量趋于0: 自变量趋于正无穷时,因变量趋于1: 自变量取0时,因变量值为0.5. ---模拟概率特性. 三种线性模型: 逻辑回归使用交叉熵代价函数. 最小化代价函数时, 发现无法求出使其值最小的解析解, 类比PLA的迭代法,使用梯度下降法求最小值. eta------学习速率,与梯…

机器学习基石笔记：08 Noise and Error

噪声:误标.对同一数据点的标注不一致.数据点信息不准确...... 噪声是针对整个输入空间的. 存在噪声的情况下,VC bound依旧有用: 存在噪声,就是f------>p(y|x),f是p的特殊情况:如p(0|x)=1,p(1|x)=0. VC bound本身就不管f的. 其实,推VC bound的时候第3步使用的是不放回的霍夫丁不等式,不要求独立同分布. 参照口袋算法,可以表明存在噪声情况下,VC bound依旧有用. 错误/代价:分类常用0/1错误,回归常用均方误差. false pos…

机器学习基石笔记：12 Nonlinear Transformation

一.二次假设实际上线性假设的模型复杂度是受到限制的, 需要高次假设打破这个限制. 假设数据不是线性可分的,但是可以被一个圆心在原点的圆分开, 需要我们重新设计基于该圆的PLA等算法吗? 不用, 只需要通过非线性转换将X域圆形可分变为Z域线性可分! 通用的二次假设集: 二.非线性转换好的二次假设: 非线性转换的步骤: 三.非线性转换的代价计算/存储代价: 次数越高,代价越大. 模型复杂度代价: 次数越高,代价越大. 高次假设能使样本内代价更小: 低次假设能保证泛化误差更小. 可视化数据后再选…

机器学习基石笔记：13 Hazard of Overfitting

泛化能力差和过拟合: 引起过拟合的原因: 1)过度VC维(模型复杂度高)------确定性噪声: 2)随机噪声: 3)有限的样本数量N. 具体实验来看模型复杂度Qf/确定性噪声.随机噪声sigma2.样本数量N对过拟合的影响: 尽量避免过拟合: 1)从简单模型开始:降低模型复杂度: 2)data cleaning/data pruning:去noise: 3)data hinting(线索):增加样本数量: 4)regularization:正则化: 5)validation:验证.…

【机器学习基石笔记：11 Linear Models for Classification】的更多相关文章