NLP中一些数学知识

1.所谓概率函数就是要在整个样本空间分配概率值，概率值总和为1

2.一个完备的概率空间应该由样本空间，概率函数和事件域这三部分组成，在统计自然语言处理中，我们的目标就是为建立的模型定义一个符合上述条件的概率空间。

3.随机变量有一个取值的范围，因此我们避免了直接和事件本身打交道，而是处理代表它们的随机变量的值，为了更清楚的描述随机变量的特性，我们引入概率密度函数的概念，它表示随机变量取不同值的概率。

4.期望值是一个随机变量的各个取值的平均值。一个随机变量的方差描述该随机变量的值偏离其期望值的程度。在概率论和统计学中，数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。需要注意的是，期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。假设一个质地均匀的骰子，即每一面出现的概率都为1/6，则它的期望值为21/6，这个期望值表示多次掷骰子实验得到的总点数和除以实验的次数。（相当于均值）

5.我们用联合概率分布来描述样本空间中多个随机变量的分布，设两个离散型随机变量X和Y，他们的联合密度函数可写为

条件概率密度公式

6.离散分布函数：二项分布当重复一个只有两种输出（假设0和1）的实验，并且各次实验之间相互独立时，我们就说实验的结果服从二项分布。二项分布在统计自然语言处理中应用的很广泛，例如估计英文文本中含有单词the的句子所占的百分比。

7.连续分布函数：二项分布

当重复一个只有两种输出（假设0和1）的实验，并且各次实验之间相互独立时，我们就说实验的结果服从二项分布。二项分布在统计自然语言处理中应用的很广泛，例如估计英文文本中含有单词the的句子所占的百分比。

8.极大似然估计仍以抛硬币为例，假设我们重复10次，其中8次结果是正面朝上的，从一个频度论者的角度来看，他会认为10次实验中8次正面朝上是一种极大似然估计。

9.熵表示单个随机变量的不确定性的均值，随机变量的熵越大，它的不确定性越大，也就是说能正确估计其值的概率越小。熵值度量了随机变量所包含的信息量的大小。熵可以用于衡量事件不确定的大小，事件所透漏出来的信息越多，其熵值会越小。

10.词干提取不注意词法会丢失一些信息

11.应该用什么特征来指导设计标注集呢？通常，一个标注集同时依据分类目标特征和预测特征来进行编码，分类目标特征告诉用户关于一个词的语法类别的有用信息，预测特征是对预测上下文中其它词语特性有用的特征，他们通常是相互交叉的，但是没有必要等同看待。

12.联合分布函数（联合概率分布）

联合分布函数(joint distribution function)亦称多维分布函数。以二维情形为例，设（X，Y）是二维随机变量，x，y是任意实数，二元函数：F(x,y)=P({X≤x∩Y≤y})=P(X≤x,Y≤y)，被称二维随机变量(X，Y)的分布函数，或称为X和Y的联合分布函数。

在许多生产实际与理论研究中，一个随机现象常常需要同时用几个随机变量去描述，所以要使用联合密度函数。

13、联合概率分布和概率分布

多维随机变量的分布才被称为联合概率分布，普通的一维随机变量其分布一般称为概率分布。所以，只是多维和一维情形下不同的叫法而已。

14.边缘分布函数

如果二维随机变量X,Y的分布函数F{x,y}为已知，那么随机变量x，y的分布函数F�{x}和Fʏ{y}可由F{x,y}求得。则F�{x}和Fʏ{y}为分布函数F{x,y}的边缘分布函数

15.欧式距离、余弦相似度、余弦距离

公式见：https://zhuanlan.zhihu.com/p/84643138

区别见：https://www.cnblogs.com/chaosimple/p/3160839.html

余弦距离使用两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比欧氏距离，余弦距离更加注重两个向量在方向上的差异。

借助三维坐标系来看下欧氏距离和余弦距离的区别：

从上图可以看出，欧氏距离衡量的是空间各点的绝对距离，跟各个点所在的位置坐标直接相关；而余弦距离衡量的是空间向量的夹角，更加体现在方向上的差异，而不是位置。如果保持A点位置不变，B点朝原方向远离坐标轴原点，那么这个时候余弦距离是保持不变的（因为夹角没有发生变化），而A、B两点的距离显然在发生改变，这就是欧氏距离和余弦距离之间的不同之处。

欧氏距离和余弦距离各自有不同的计算方式和衡量特征，因此它们适用于不同的数据分析模型：

欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异。

余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦距离对绝对数值不敏感）。

欧式距离越小越相似，余弦相似度越大越相似，余弦相似度取值范围为[-1,1]

余弦距离=1-余弦相似度，取值为[0,2]

NLP中一些数学知识的更多相关文章

压缩感知中的数学知识：稀疏、范数、符号arg min
转自:http://blog.csdn.net/jbb0523/article/details/40262629 1.稀疏:什么是K稀疏呢? 在压缩感知里经常提到 "K稀疏" 的概 ...
HTML5中手势原理分析与数学知识的实践
摘要:在这触控屏的时代,人性化的手势操作已经深入了我们生活的每个部分.现代应用越来越重视与用户的交互及体验,手势是最直接且最为有效的交互方式,一个好的手势交互,能降低用户的使用成本和流程,大大提高了用 ...
word2vec 中的数学原理三背景知识语言模型
主要参考: word2vec 中的数学原理详解自己动手写 word2vec
word2vec 中的数学原理二预备知识霍夫曼树
主要参考: word2vec 中的数学原理详解自己动手写 word2vec 编码的话,根是不记录在编码中的这一篇主要讲的就是霍夫曼树(最优二叉树)和编码. ...
从0到1，了解NLP中的文本相似度
本文由云+社区发表作者:netkiddy 导语 AI在2018年应该是互联网界最火的名词,没有之一.时间来到了9102年,也是项目相关,涉及到了一些AI写作相关的功能,为客户生成一些素材文章.但是, ...
Machine Learning Algorithms Study Notes(6)—遗忘的数学知识
机器学习中遗忘的数学知识最大似然估计( Maximum likelihood ) 最大似然估计,也称为最大概似估计,是一种统计方法,它用来求一个样本集的相关概率密度函数的参数.这个方法最早是遗传学家 ...
股票中的数学：EMA的推导01
说明:本人并不炒股,原因很简单:没钱.当然了,作为一名IT工作者,因为工作需要和个人兴趣,就有了本系列文章.阅读本系列文章不需要任何高深的知识,哪怕是一个像我这样从未真正炒过股的人也没关系.但本文还是 ...
Rightmost Digit(快速幂+数学知识OR位运算）分类：数学 2015-07-03 14:56 4人阅读评论(0) 收藏
C - Rightmost Digit Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Submit ...
codeforces#253 D - Andrey and Problem里的数学知识
这道题是这种,给主人公一堆事件的成功概率,他仅仅想恰好成功一件. 于是,问题来了,他要选择哪些事件去做,才干使他的想法实现的概率最大. 我的第一个想法是枚举,枚举的话我想到用dfs,但是认为太麻烦. ...

随机推荐

我是如何理解并使用maven的
前言一直想写一篇关于Maven的文章,但是不知如何下笔,如果说能使用,会使用Maven的话,一.两个小时足矣,不需要搞懂各种概念.那么给大家来分享下我是如何理解并使用maven的. 什么是Maven ...
css3 rem手机自适应框架
css3 rem手机自适应框架 rem是按照html的字体大小来所以不同宽度浏览器 htmlfont-size不一样就可以做到自适应了此方法比百分比方便<pre><!DOCT ...
java jdb
https://stackoverflow.com/questions/8155253/how-do-i-compile-in-debug-mode-netbeans-java-maven <p ...
consul实现kubernetes-1.15集群master的高可用访问实现
1.准备consul环境,参考我之前的博客实现或参考consul的官网部署最新的consul. 2.本次测试使用的是kubernetes-1.15.0 3.初始化集群 1)准备初始化文件 contro ...
使用Charles进行HTTPS抓包及常见问题
在渗透过程中,需要对每一个参数,每一个接口,每一个业务逻辑构建测试用例,为此,抓包分析是必不可少的一个过程.在PC端,Burpsuite成为了渗透必备的神器,然而,使用Burpsuite有时候抓取不到 ...
Flask笔记：文件上传
文件上传 enctype:在HTML中的form表单中form标签默认是`enctype="application/x-www-form-urlencoded"`,在文件上传时需要 ...
java进销存管理系统的设计与实现-springboot源码
开发环境: Windows操作系统开发工具:MyEclipse/Eclipse + JDK+ Tomcat + MySQL 数据库项目简介: 系统前段页面采用jsp + JavaScrip ...
WPF 枚举使用
1.model class JX_Unit { public enum SumUnit { KW = 1, L = 2, Kt = 3, } } 2.viewModel public string w ...
Android系统源码目录
Android系统源码目录我们要先了解Android系统源码目录,为后期源码学习打下基础.关于源码的阅读,你可以访问http://androidxref.com/来阅读系统源码.当然,最好是将源码下 ...
commons-dbutils【不推荐】
Apache 组织提供的一个开源 JDBC工具类库,它是对JDBC的简单封装. 一般项目开发过程中,要么选择 ORM框架,要么自己编写DBUtils类+数据库连接池就足够了.

NLP中一些数学知识

NLP中一些数学知识的更多相关文章

随机推荐

热门专题