从统计学statistics的观点看概率分布

已知数据x，希望得到未知label y，即得到映射x-->y:

几个概念：

1）p(x): data distribution 数据分布

2）p(y): prior distribution 先验分布

a priori: Knowable without appeal to particular experience
a priori distribution: special meaning, do not misuse

3）p(x, y): join distribution 联合分布

4）p(x|y = i): class conditional distribution 类条件分布

5）p(y|x): posterior distribution 后验分布

如何表示/估计概率密度：

1）参数估计 - parametric estimation

Parametric:假设PDF服从某种函数形式（functional form）

如高斯分布的函数形式，包含若干参数。当指定参数值之后，PDF就完全确定。

不同的概率分布由不同的参数值决定。估计PDF就是估计参数parameter estimation

2）非参数估计 - non-parametric estimation

不假设PDF是任何已知形式的函数。

如何估计？

使用训练数据直接估计空间中任意点的密度；p(x|D)

非参数不代表无参数！！！！

实际上是允许有无穷多的参数，而参数估计的参数个数是有限的。

统计学习方法的粗略分类：

1）生成模型Generative(probabilistic) models:估计p(x|y=i)和p(x)，然后用贝叶斯定理求p(y=i|x).

2）判别模型Discriminative(probabilistic) models:直接估计p(y=i|x)。

3）判别函数Discriminant function:直接求一个把各类分来的边界。不假设概率模型，如FLD，SVM等。

其中。生成模型和判别模型分为两个步骤：

a. 推理inference：估计各种密度函数；

b. 决策decision：根据估计得到的PDF对任意的x给出输出。

从统计学statistics的观点看概率分布的更多相关文章

Python统计学statistics实战
python机器学习-乳腺癌细胞挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&u ...
机器学习模型 bias 和 variance 的直观判断
假设我们已经训练得到一个模型,那么我们怎么直观判断这个模型的 bias 和 variance? 直观方法: 如果模型的训练错误比较大,并且验证错误和训练错误差不多一样,都比较大,我们就 ...
Stanford机器学习笔记-3.Bayesian statistics and Regularization
3. Bayesian statistics and Regularization Content 3. Bayesian statistics and Regularization. 3.1 Und ...
图灵数学·统计学丛书.PDF(53本全）
图灵数学·统计学丛书01-概率论及其应用(第1卷·第3版)-[美]William.Feller-人民邮电出版社.pdf 图灵数学·统计学丛书01-金融数学:衍生产品定价引论-[英]M·巴克斯特& ...
sql查询性能调试，用SET STATISTICS IO和SET STATISTICS TIME---解释比较详细
一个查询需要的CPU.IO资源越多,查询运行的速度就越慢,因此,描述查询性能调节任务的另一种方式是,应该以一种使用更少的CPU.IO资源的方式重写查询命令,如果能够以这样一种方式完成查 ...
（main）贝叶斯统计 | 贝叶斯定理 | 贝叶斯推断 | 贝叶斯线性回归 | Bayes' Theorem
2019年08月31日更新看了一篇发在NM上的文章才又明白了贝叶斯方法的重要性和普适性,结合目前最火的DL,会有意想不到的结果. 目前一些最直觉性的理解: 概率的核心就是可能性空间一定,三体世界不会 ...
numpy-Randow
Randow使用 http://blog.csdn.net/pipisorry/article/details/39508417 概率相关使用转:http://www.cnblogs.com/Nau ...
PLSA及EM算法
前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法.接着我们分析如何运用EM算法估计一个简单的mixture ...
深度学习读书笔记之RBM（限制波尔兹曼机）
深度学习读书笔记之RBM 声明: 1)看到其他博客如@zouxy09都有个声明,老衲也抄袭一下这个东西 2)该博文是整理自网上很大牛和机器学习专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的 ...

随机推荐

Hello，移动WEB—Viewport_Meta标签
二 Viewport meta标签: 语法:<meta name="viewport" content="name=value, name=value" ...
djangorestframework怎么这么好用!
一年前就已经用过restframework, 当时觉得这个只是给web框架打辅助的, 他能实现的我也都实现(可能没有那么好用, 嘿嘿) 但是我有一种东西叫做效率, 时间就是金钱, 别人造好的就直接用就 ...
数据解压及if else的应用
def sum(items): head, *tails = items return head + sum(tails) if tails else head # 最后一句有点像三目运算符,如果ta ...
Hadoop(10)-HDFS的DataNode详解
1.DataNode工作机制 1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳. 2)DataNode启 ...
python面向对象-多继承区别
#!/usr/local/bin/python3 # -*- coding:utf-8 -*- ''' 构造方法继承策略: 在python2中,经典类是按照深度优先继承构造方法的:新式类是按照广度优先 ...
基于GTID的MySQL主从复制#从原理到配置
GTID是一个基于原始mysql服务器生成的一个已经被成功执行的全局事务ID,它由服务器ID以及事务ID组合而成.这个全局事务ID不仅仅在原始服务器器上唯一,在所有存在主从关系的mysql服务器上也 ...
mysql学习第三天练习（多表连接）
-- 多表连接 -- 写一条查询语句,查询员工姓名.部门名称.工作地点 select ename,dname,loc from emp,dept where emp.deptno = dept.dep ...
struts2官方中文教程系列八：异常处理
在本教程中,我们将探讨如何启用Struts 2框架处理web应用程序生成的任何未捕获的异常.Struts 2提供了健壮的异常处理,包括能够自动记录任何未捕获的异常,并将用户重定向到错误web页面. 贴 ...
Electron入门应用打包exe（windows）
最近在学习nodejs,得知Electron是通过将Chromium和Node.js合并到同一个运行时环境中,用HTML,CSS和JavaScript来构建跨平台桌面应用程序的一门技术.对于之前一直从 ...
C#读写txt文件的两种方法介绍 v
C#读写txt文件的两种方法介绍 1.添加命名空间 System.IO; System.Text; 2.文件的读取 (1).使用FileStream类进行文件的读取,并将它转换成char数组,然后输出 ...

从统计学statistics的观点看概率分布

从统计学statistics的观点看概率分布的更多相关文章

随机推荐

热门专题