【E2LSH源代码分析】p稳定分布LSH算法初探

上一节，我们分析了LSH算法的通用框架，主要是建立索引结构和查询近似近期邻。这一小节，我们从p稳定分布LSH（p-Stable LSH）入手，逐渐深入学习LSH的精髓，进而灵活应用到解决大规模数据的检索问题上。

相应海明距离的LSH称为位採样算法（bit sampling），该算法是比較得到的哈希值的海明距离，可是一般距离都是用欧式距离进行度量的，将欧式距离映射到海明空间再比較其的海明距离比較麻烦。于是，研究者提出了基于p-稳定分布的位置敏感哈希算法，能够直接处理欧式距离，并解决(R,c)-近邻问题。

1、p-Stable分布

定义：对于一个实数集R上的分布D，假设存在P>=0，对不论什么n个实数v₁,…,v_n和n个满足D分布的变量X₁,…,X_n，随机变量Σ_iv_iX_i和(Σ_i|v_i|^p)^1/pX有同样的分布，当中X是服从D分布的一个随机变量，则称D为
一个p稳定分布。

对不论什么p∈(0,2]存在稳定分布：

p=1是柯西分布，概率密度函数为c(x)=1/[π(1+x²)]；

p=2时是高斯分布，概率密度函数为g(x)=1/(2π)^1/2*e^{-x^2/2}。

利用p-stable分布能够有效的近似高维特征向量，并在保证度量距离的同一时候，对高维特征向量进行降维，其关键思想是，产生一个d维的随机向量a，随机向量a中的每一维随机的、独立的从p-stable分布中产生。对于一个d维的特征向量v，如定义，随机变量a·v具有和(Σ_i|v_i|^p)^1/pX一样的分布，因此能够用a·v表示向量v来估算||v||_p。

2、p-Stable分布LSH中的哈希函数

p-Stable分布的LSH利用p-Stable的思想，使用它对每个特征向量v赋予一个哈希值。该哈希函数是局部敏感的，因此假设v1和v2距离非常近，它们的哈希值将同样，并被哈希到同一个桶中的概率会非常大。

依据p-Stable分布，两个向量v1和v2的映射距离a·v₁-a·v₂和||v₁-v₂||_pX 的分布是一样的。

a·v将特征向量v映射到实数集R，假设将实轴以宽度w等分，并对每一段进行标号，则a·v落到那个区间，就将此区间标号作为哈希值赋给它，这样的方法构造的哈希函数对于两个向量之间的距离具有局部保护作用。

哈希函数格式定义例如以下：

h_a,b(v):R^d->N，映射一个d维特征向量v到一个整数集。哈希函数中又两个随机变量a和b，当中a为一个d维向量，每一维是一个独立选自满足p-Stable的随机变量，b为[0,w]范围内的随机数，对于一个固定的a，b，则哈希函数h_a,b(v)为

图1 p-Stable LSH在二维空间的演示样例

3、特征向量碰撞概率

随机选取一个哈希函数h_a,b(v)，则特征向量v1和v2落在同一桶中的概率该怎样计算呢？

首先定义c=||v₁-v₂||_p，f_p(t)为p-Stable分布的概率密度函数的绝对值，那么特征向量v1和v2映射到一个随机向量a上的距离是|a·v₁-a·v₂|<w，即|(v₁-v₂)·a|<w，依据p-Stable分布的特性,||v₁-v₂||_pX=|cX|<w，当中随机变量X满足p-Stable分布。

可得其碰撞概率p(c):

依据该式，能够得出两个特征向量的冲突碰撞概率随着距离c的添加而减小。

4、p-Stable分布LSH的相似性搜索算法

经过哈希函数哈希之后，g(v)=(h1(v),...,hk(v))，但将(h1(v),...,hk(v))直接存入哈希表，即占用内存，又不便于查找，为解决此问题，现定义另外两个哈希函数：

因为每个哈希桶（Hash Buckets）g_i被映射成Z_k，函数h1是普通哈希策略的哈希函数，函数h2用来确定链表中的哈希桶。

（1）要在一个链表中存储一个哈希桶gi(v)=(x1,...,xk)时，实际上存的不过h2(x1,...,xk)构造的指纹,而不是存储向量(x1,...,xk)，因此一个哈希桶gi(v)=(x1,...,xk)在链表中的相关信息仅有标识(identifier)指纹h2(x1,...,xk)和桶中的原始数据点。

（2）利用哈希函数h2，而不是存储gi(v)=(x1,...,xk)的值有两个原因：首先，用h2(x1,...,xk)构造的指纹能够大大降低哈希桶的存储空间；其次，利用指纹值能够更快的检索哈希表中哈希桶。通过选取一个足够大的值以非常大的概率来保证随意在一个链表的两个不同的哈希桶有不同的h2指纹值。

图2 桶哈希策略示意图

5、不足与缺陷

LSH方法存在双方面的不足：首先是典型的基于概率模型生成索引编码的结果并不稳定。尽管编码位数添加，可是查询准确率的提高确十分缓慢；其次是须要大量的存储空间，不适合于大规模数据的索引。E2LSH方法的目标是保证查询结果的准确率和查全率，并不关注索引结构须要的存储空间的大小。E2LSH使用多个索引空间以及多次哈希表查询，生成的索引文件的大小是原始数据大小的数十倍甚至数百倍。

转载请注明作者及文章出处：http://blog.csdn.net/jasonding1354/article/details/38237353

參考资料：

1、王旭乐.基于内容的图像检索系统中高维索引技术的研究[D].华中科技大学.2008

2、M.Datar,N.Immorlica,P.Indyk,and V.Mirrokni,“Locality-SensitiveHashing Scheme Based on p-Stable Distributions,”Proc.Symp. ComputationalGeometry, 2004.

3、A.Andoni,“Nearest Neighbor Search:The Old, theNew, and the Impossible”PhD dissertation,MIT,2009.

4、A.Andoni,P.Indyk.E2lsh:Exact Euclidean locality-sensitive hashing.http://web.mit.edu/andoni/www/LSH/.2004.

【E2LSH源代码分析】p稳定分布LSH算法初探的更多相关文章

OpenStack_Swift源代码分析——Ring的rebalance算法源代码具体分析
1 Command类中的rebalnace方法在上篇文章中解说了,创建Ring已经为Ring加入设备.在加入设备后须要对Ring进行平衡,平衡 swift-ring-builder object.b ...
Openck_Swift源代码分析——添加、删除设备时算法详细的实现过程
1 初始加入设备后.上传Object的详细流程前几篇博客中,我们讲到环的基本原理即详细的实现过程,加入我们在初始创建Ring是执行例如以下几条命令: •swift-ring-builder obj ...
STL源代码分析——STL算法remove删除算法
前言因为在前文的<STL算法剖析>中,源代码剖析许多.不方便学习,也不方便以后复习,这里把这些算法进行归类.对他们单独的源代码剖析进行解说.本文介绍的STL算法中的remove删除算法. ...
STL源代码分析——STL算法merge合并算法
前言因为在前文的<STL算法剖析>中.源代码剖析许多.不方便学习.也不方便以后复习,这里把这些算法进行归类.对他们单独的源代码剖析进行解说.本文介绍的STL算法中的merge合并算法. ...
STL源代码分析——STL算法sort排序算法
前言因为在前文的<STL算法剖析>中,源代码剖析许多,不方便学习,也不方便以后复习.这里把这些算法进行归类,对他们单独的源代码剖析进行解说.本文介绍的STL算法中的sort排序算法,SG ...
变动性算法源代码分析与使用示例（copy_backward、 transform、 replace_copy_if 等）
首先回顾前面的文章,我们把for_each 归类为非变动性算法,实际上它也可以算是变动性算法,取决于传入的第三个参数,即函数指针.如果在函数内对容器元素做了修改,那么就属于变动性算法. 变动性算法源 ...
K-近邻算法的Python实现：源代码分析
网上介绍K-近邻算法的样例非常多.其Python实现版本号基本都是来自于机器学习的入门书籍<机器学习实战>,尽管K-近邻算法本身非常easy,但非常多刚開始学习的人对其Python版本号的 ...
位姿检索PoseRecognition：LSH算法.p稳定哈希
位姿检索使用了LSH方法,而不使用PNP方法,是有一定的来由的.主要的工作会转移到特征提取和检索的算法上面来,有得必有失.因此,放弃了解析的方法之后,又放弃了优化的方法,最后陷入了检索的汪洋大海. 0 ...
redis 源代码分析(一) 内存管理
一,redis内存管理介绍 redis是一个基于内存的key-value的数据库,其内存管理是很重要的,为了屏蔽不同平台之间的差异,以及统计内存占用量等,redis对内存分配函数进行了一层封装,程序中 ...

随机推荐

codeforces 463E . Caisa and Tree
题目链接给一棵树, 两种操作, 一种是将点u的权值改为y, 另一种是查询根节点到点u的路径上, gcd(v, u)>1的深度最深的点v. 修改操作不超过50次. 这个题, 暴力可以过, 但是在 ...
U-Boot在FL2440上移植（二）----支持NOR Flash
<一>选择NOR flash型号我的开发板上的nor flash芯片是Intel的JS28F320(4MB)(1device=32blocks,1block=128MB fl2440默认 ...
转:jQuery事件绑定.on()简要概述及应用
前几天在看<jquery基础教程>,看到事件委托的时候,关于live()方法讲的不是很详细,就去搜了一下关于live()和delegate()的. 然后在一处看到live()已经被移除了, ...
HAMA
http://hama.apache.org/run_examples.html http://www.binospace.com/ http://57832638.iteye.com/blog/20 ...
KMP算法与一个经典概率问题
考虑一个事件,它有两种概率均等的结果.比如掷硬币,出现正面和反面的机会是相等的.现在我们希望知道,如果我不断抛掷硬币,需要多长时间才能得到一个特定的序列. 序列一:反面.正面.反面序列二:反面.正面. ...
c++ 对象作为参数传递
对象作为参数传递时是传值.把实参的对象赋值给形参.因此效率有点低. c++传参方式可以分为2种: 1.传值 (指针作为参数,本质上也只是把地址作为值传递了而已). 2.传引用. 所以,一切传递方式不是 ...
python测试框架－－nose
最近再浏览Python自动化测试框架,之前接触过unittest,看了篇文章,发现nose貌似更牛逼一些,于是安装试了试,分享一下心得. nose 项目是于 2005 年发布的,也就是 p ...
VS2010/MFC对话框一：创建对话框模板和修改对话框属性
创建对话框主要分两大步: 第一,创建对话框资源,主要包括创建新的对话框模板.设置对话框属性和为对话框添加各种控件: 第二,生成对话框类,主要包括新建对话框类.添加控件变量和控件的消息处理函数等. 创建 ...
Tilemill + tilestream + mapbox.js 自制地图
感谢Mapbox,带来了一整套完整的地图方案. 你可以把你的地图放在Mapbox的网站上.也可以使用他们提供的开源软件自己架设地图服务. Mapbox的地图方案包括web,ios和android. 不 ...
DicomIoException: Requested 132 bytes past end of fixed length stream.
今天在用DicomFile.Open(Stream s)这个接口时,遇到一个异常: DicomIoException: Requested 132 bytes past end of fix ...

【E2LSH源代码分析】p稳定分布LSH算法初探

【E2LSH源代码分析】p稳定分布LSH算法初探的更多相关文章

随机推荐

热门专题