[学习自CS231n课程] 转载请注明出处:http://www.cnblogs.com/GraceSkyer/p/8824876.html 之前介绍了图像分类问题.图像分类的任务,就是从已有的固定分类标签集合中选择一个并分配给一张图像.我们还介绍了k-Nearest Neighbor (k-NN)分类器,该分类器的基本思想是通过将测试图像与训练集带标签的图像进行比较,来给测试图像打上分类标签.k-Nearest Neighbor分类器存在以下不足: 分类器必须记住所有训练数据并将其存储起来,以…
在学习LDA之前,有必要将其自然语言处理领域的LDA区别开来,在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),是一种处理文档的主题模型.本文只讨论线性判别分析,因此后面所有的LDA均指线性判别分析. 线性判别分析 LDA: linear discriminant analysis 一.LDA思想:类间小,类间大 (‘高内聚,松耦合’) LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的,这点和PCA不同…
一.感知机(Perception) 1.1 原理: 感知机是二分类的线性模型,其输入是实例的特征向量,输出的是事例的类别,分别是+1和-1,属于判别模型. 假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练数据集正实例点和负实例点完全正确分开的分离超平面.如果是非线性可分的数据,则最后无法获得超平面. 1.2 感知机模型 感知机从输入空间到输出空间的模型如下: 1.3 求解 思想:错误驱动 损失函数:期望使错误分类的所有样本,到超平面的距离之和最小 (其中M集合是误分类点的集合)…
作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础.比如分解机(Factorization Machines)推荐算法,还有前面讲到的受限玻尔兹曼机(RBM)原理总结,都用到了MCMC来做一些复杂运算的近似求解.下面我们就对MCMC的原理做一个总结. 一.MCMC概述 从名字我们可以看出,MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Si…
一.高斯网络(高斯图模型)总体介绍 概率图模型分为三种:贝叶斯网络,马尔科夫随机场以及高斯网络:而高斯网络又可以根据有向无向细分为高斯贝叶斯网络和高斯马尔科夫随机场 二.高斯贝叶斯网络 1.高斯贝叶斯网络是有向图,x服从高斯分布,y|x服从高斯分布 高斯贝叶斯网络(global model)是基于线性高斯模型(local model)的. 2.HMM与GBN关系 HMM是一种特殊的高斯贝叶斯网络,(他的父节点只有一个) 3.高斯贝叶斯网络的参数求解 三.高斯马尔科夫随机场 1.高斯马尔科夫网络的…
一.逻辑回归是什么? 1.逻辑回归 逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的. logistic回归也称为逻辑回归,与线性回归这样输出是连续的.具体的值(如具体房价123万元)不同,逻辑回归的输出是0~1之间的概率,但可以把它理解成回答“是”或者“否”(即离散的二分类)的问题.回答“是”可以用标签“1”表示,回答“否”可以用标签“0”表示. 比如,逻辑回归的输出是“某人生病的概率是多少”,我们可以进一步理解成“某人是否生病了”.设…
一.什么是朴素贝叶斯? (1)思想:朴素贝叶斯假设    条件独立性假设:假设在给定label y的条件下,特征之间是独立的    最简单的概率图模型 解释: (2)重点注意:朴素贝叶斯 拉普拉斯平滑(Laplace Smoothing) 为什么要做平滑处理?   零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0.在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0.这是不合理的,…
本文顺序 一.回忆线性回归 线性回归用最小二乘法,转换为极大似然估计求解参数W,但这很容易导致过拟合,由此引入了带正则化的最小二乘法(可证明等价于最大后验概率) 二.什么是贝叶斯回归? 基于上面的讨论,这里就可以引出本文的核心内容:贝叶斯线性回归. 贝叶斯线性回归不仅可以解决极大似然估计中存在的过拟合的问题. 它对数据样本的利用率是100%,仅仅使用训练样本就可以有效而准确的确定模型的复杂度. 在极大似然估计线性回归中我们把参数看成是一个未知的固定值,而贝叶斯学派则把看成是一个随机变量. 贝叶斯…
一.什么是SVM? SVM(Support Vector Machine)又称为支持向量机,是一种二分类的模型.当然如果进行修改之后也是可以用于多类别问题的分类.支持向量机可以分为线性和非线性两大类.其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本集中所有数据到这个超平面的距离最短. 那么,又怎么表示这个“都正确”呢?可以这样考虑:就是让那些“很有可能不正确”的数据点彼此分开得明显一点就可以了.对于其它“不那么可能不正确”或者说“一看就很正确”的数据点,就可以不用管了.这也…
一.预备知识 减少过拟合的方法有:(1)增加数据 (2)正则化(3)降维 维度灾难:从几何角度看会导致数据的稀疏性 举例1:正方形中有一个内切圆,当维度D趋近于无穷大时,圆内的数据几乎为0,所有的数据集中于球外(空壳) 举例2:圆内有个内圆,当维度D趋近于无穷大时,环形内的数据与外圆的数据比为1,说明所有的数据集中于环中(空壳) 样本均值 & 样本方差的矩阵表示 二.PCA:一个中心 + 两个基本点(最大投影方差.最小重构距离) 1.最大投影方差角度 2.最小重构代价角度 3.SVD角度 主成分…
隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的.隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速.有效的方法. 现实世界中有一类问题具有明显的时序性,比如路口红绿灯.连续几天的天气变化,我们说话的上下文,HMM的基础假设就是,一个连续的时间序列事件,它的状态受且仅受它前面的N个事件决定,对应的时间序列可以成为N阶马尔可夫链. 假设今天是否有雾霾只由前天和昨天决定,于是就构成了一个2阶马尔可…
一.高斯(分布)过程(随机过程)是什么? 一维高斯分布 多维高斯分布 无限维高斯分布   高斯网络 高斯过程 简单的说,就是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间或是空间点上的随机变量都是服从高斯分布的. 举个例子:倘若你人生的每一个时刻看做一个随机变量,且都是满足高斯分布,那么你的人生就可以看做一个高斯过程,既有很多确定的东西,确定的是mean和kernel,如你的人生中你起点决定的你人生的大致范围,又有极大地不确定性,本质还是随机变量的整体,就像你可以凭借自身的努…
来源:https://www.cnblogs.com/jianxinzhou/p/4083921.html 1. The Problem of Overfitting (1) 还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图.如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型.我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓.因此线性回归并没有很好拟合训练数据. 我们把此类情况称为欠拟合(underfit…
频率派 贝叶斯派 theta是个未知的常量,X是随机变量, theta是个随机变量,X是随机变量 MLE最大似然估计 MAE最大后验概率 统计机器学习,优化问题 1)建立模型.概率 2)定义损失函数 3)梯度下降/牛顿法求解 概率图模型 求积分(用蒙特卡洛方法取样)…
一.背景 动态模型 = 图 + 时间 动态模型有三种:HMM.线性动态系统(kalman filter).particle filter 线性动态系统与HMM的区别是假设相邻隐变量之间满足线性高斯分布,观测变量与隐变量之间满足线性高斯分布 二.线性动态系统两大问题:learning+inference 主要讲inference,相当于求后验p(z|x) 求p(zt|x1,x2,...,xt)转换成求p(zt-1|x1,...,xt-1)和p(zt|zt-1),依次类推 具体分为两步骤: step…
EM算法的适用场景: EM算法用于估计含有隐变量的概率模型参数的极大似然估计,或者极大后验概率估计. 当概率模型既含有观测值,又含有隐变量或潜在变量时,就可以使用EM算法来求解概率模型的参数. 当概率模型只含有观测值时,直接使用极大似然估计法,或者贝叶斯估计法估计模型参数就可以了. 最大似然估计:若X为离散型随机变量,其概率分布的形式为P{X=x}=p(x;theta). 当样本值确定时,所有样本的乘积可以看作是theta的函数,并称为似然函数. 由于已经得到了样本值(x1,-,xn),那它的出…
一.什么是高斯混合模型? 高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布,但参数不同,或者是不同类型的分布,比如正态分布和伯努利分布). 上图中的点在我们看来明显分成两个聚类.这两个聚类的点分别通过两个不同的正态分布随机生成而来.但是如果没有GMM,那么只能用一个二维正态分布来描述图1中的数据.图1中的椭圆即为二倍标准差的正态分布椭圆.这显然不太…
一.背景 与卡曼滤波不同的是,粒子滤波假设隐变量之间(隐变量与观测变量之间)是非线性的,并且不满足高斯分布,可以是任意的关系. 求解的还是和卡曼滤波一样,但由于分布不明确,所以需要用采样的方法求解. 二.重要性采样(importance sampling & SIS) 重要性采样(IS)需要计算p(zt|x1,...,t), t与t-1之间没有递推关系,不易求解 为此引入SIS,转换成求解p(z1,...t|x1,...t),且能够推出递推关系,方便求解 三.重采样Basic Particle…
一.CRF的由来HMM->MEMM->CRF 二.HMM到MEMM MEMM打破了HMM的观测条件独立假设 三.MEMM到CRF CRF克服了MEMM的label bias problem问题 参考文献: [1][中文分词]条件随机场CRF [2][NLP]基于自然语言处理角度谈谈CRF(二)…
一.背景介绍 玻尔兹曼机 = 马尔科夫随机场 + 隐结点 二.RBM的Representation BM存在问题:inference 精确:untractable: 近似:计算量太大 因此为了使计算简便,引入了RBM,RBM假设h,v之间有连结,h,v内部无连结 从NB(朴素贝叶斯)推导到RBM的过程图  三.RBM的Inference 主要是已知learning求得参数之后,再来求后验概率P(h|v).P(v|h),以及边缘概率P(v)…
1. ADFA-LD数据集简介 ADFA-LD数据集是澳大利亚国防学院对外发布的一套主机级入侵检测数据集合,包括Linux和Windows,是一个包含了入侵事件的系统调用syscall序列的数据集(以单个进程,一段时间窗口内的systemcall api为一组) ADFA-LD数据已经将各类系统调用完成了特征化,并针对攻击类型进行了标注,各种攻击类型见下表 攻击类型 数据量 标注类型 Trainning 833 normal Validation 4373 normal Hydra-FTP 16…
高斯判别分析模型(Gaussian Discriminant Analysis ,GDA) 当我们分类问题的输入特征$x $为连续值随机变量时,可以用高斯判别分析模型(Gaussian Discriminant Analysis ,GDA).高斯判别分析模型通过多元正态分布来建模前面提到的概率 \(p(x | y)\).具体的,这个模型为, \[ \begin{equation} \begin{aligned} y & \sim \operatorname{Bernoulli}(\phi) \\…
1. 主要观点 线性模型是线性回归和线性分类的基础 线性回归和线性分类模型的差异主要在于损失函数形式上,我们可以将其看做是线性模型在多维空间中“不同方向”和“不同位置”的两种表现形式 损失函数是一种优化技术的具体载体,影响损失函数不同形式的因素主要有: 和谁比:和什么目标比较损失 怎么比:损失比较的具体度量方式和量纲是什么 比之后如何修正参数:如果将损失以一种适当的形式反馈给原线性模型上,以修正线性模式参数 在这篇文章中,笔者会先分别介绍线性回归(linear regression)和线性分类(…
主讲人 planktonli planktonli(1027753147) 19:52:28 现在我们就开始讲第四章,第四章的内容是关于 线性分类模型,主要内容有四点:1) Fisher准则的分类,以及它和最小二乘分类的关系 (Fisher分类是最小二乘分类的特例)2) 概率生成模型的分类模型3) 概率判别模型的分类模型4) 全贝叶斯概率的Laplace近似 需要注意的是,有三种形式的贝叶斯:1) 全贝叶斯2) 经验贝叶斯3) MAP贝叶斯我们大家熟知的是 MAP贝叶斯 MAP(poor man…
Linear discriminant analysis (LDA) 线性判别分析也是机器学习中常用的一种降维算法,与 PCA 相比, LDA 是属于supervised 的一种降维算法.PCA考虑的是整个数据集在高维空间的分散性,PCA降维之后依然要让数据在低维空间尽可能地分散.而LDA考虑的是类与类之间的差别(用距离来衡量). 我们考虑两类情况下的LDA, 给定一个训练集 D={xi∈Rd},i=1,2,...N, 假设其中有 n1 个属于第一类 c1,n2 个属于第二类c2,N=n1+n2…
软分类:y 的取值只有正负两个离散值,例如 {0, 1} 硬分类:y 是正负两类区间中的连续值,例如 [0, 1] 一.感知机 主要思想:分错的样本数越少越好 用指示函数统计分错的样本数作为损失函数,不可微: 对错误分类样本,∑ -yi * f(xi) = ∑ -yi * WTxi  (因为求和项一定大于0,所以损失函数越小表示错误分类的样本越少) 二.线性判别分析 主要思想:同一类别的样本方差足够小,不同类别之间分散开(类内小,类间大) Rayleigh quotient 和 generali…
一.二元分类的线性模型 线性分类.线性回归.逻辑回归: 可视化这三个线性模型的代价函数, SQR.SCE的值都是大于等于0/1的. 理论分析上界: 将回归应用于分类: 线性回归后的参数值常用于pla/pa/logistic regression的参数初始化. 二.随机梯度下降 两种迭代优化模式: 利用全部样本------>利用随机的单个样本, 梯度下降------>随机梯度下降. SGD与PLA的相似性: 当迭代次数足够多时,停止. 步长常取0.1. 三.使用逻辑回归的多分类问题 是非题---…
<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本<神经网络与深度学习综述>本综述的特点是以时间排序,从1940年开始讲起,到60-80…
原文:http://developer.51cto.com/art/201501/464174.htm 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. <Deep Learning i…