偶然发现一篇哈希的综述文章,虽然是1996年写的,里面的一些评测在今天看来早已经小case了.但是今天仍然极具参考价值. 地址:http://www.drdobbs.com/database/hashing-rehashed/184409859 正文: Hashing algorithms occupy a unique place in the hearts of programmers. Discovered early on in computer science, they are am…
I have a very nice shaper in my linux box :-) How the configurator works — it’s another question, here i will try to describe how one could configure her shaper with hash-based filtering. So, this page about configuring linux kernel traffic shaper, w…
用户指南 Guava包含Google在Java项目中用到的一些核心库:collections, caching, primitives support, concurrency 库, common annotations, string 处理, I/O等.Google工程师们在开发中每天都使用这些工具. 但是,要学习如何用好这些库,通读Javadoc并不是最有效的方法.在这里,我们尝试用一种可读性强.轻松愉快的方法来介绍Guava中最常用和最强大的特性. 这个wiki还在编写过程中,一些部分可能…
二度哈希(rehashing / double hashing) 1.二度哈希的工作原理如下: 有一个包含多个哈希函数(H1……Hn)的集合.当我们要从哈希表中添加或获取元素时,首先使用哈希函数H1.如果导致冲突,则尝试使用H2,一直到Hn.各个哈希函数极其相似,不同的是它们选用的乘法因子.通常,哈希函数Hk的定义如下: Hk(key) = [GetHash(key) + k * (1 + (( (GetHash(key) >> 5) + 1) % (hashsize – 1)))] % ha…
Introduction to Algorithms 2nd ed. Cambridge, MA: MIT Press, 2001. ISBN: 9780262032933. Introduction and document distance L1 Introduction and document distance CLRS, chapters 1-3 L2 More document distance, mergesort CLRS, sections 11.1-11.2 Binary s…
Notation 该论文中应用到较多符号,为避免混淆,在此进行解释: n:原始数据集的大小 l:实验中用于监督学习的数据集大小(矩阵S行/列的大小) m:辅助数据集,用于得到基于核的哈希函数 r:比特位数量/哈希函数的个数 1. Introduction 先前的哈希检索方法,要么精度低,要么目标函数过于复杂导致导致训练慢.在大规模的图像数据检索中,这些方法就不太适用.先前的哈希方法都是对汉明距离进行直接优化,但是因为汉明距离是nonconvex和nonsmooth,难以优化.在本文中,作者利用汉…
1. Introduction 在传统的LSH.SSH.PCA-ITQ等哈希算法中,本质都是利用超平面对数据点进行划分,但是在D维空间中,至少需要D+1个超平面才能形成一个封闭.紧凑的区域.而球哈希方法利用超球面(hypersphere)对数据进行划分,在任何维度下,只需要1个超球面便可形成一个封闭的区域.利用球哈希方法,每个区域内样本的最大距离的平均值会更小,说明各个区域的样本是更紧凑的.这样更符合邻近的含义,更适合在进行相似搜索时使用. 2. Binary Code Embedding Fu…
一. 近邻搜索 从这里开始我将会对LSH进行一番长篇大论.因为这只是一篇博文,并不是论文.我觉得一篇好的博文是尽可能让人看懂,它对语言的要求并没有像论文那么严格,因此它可以有更强的表现力. 局部敏感哈希,英文locality-sensetive hashing,常简称为LSH.局部敏感哈希在部分中文文献中也会被称做位置敏感哈希.LSH是一种哈希算法,最早在1998年由Indyk在[1]上提出.不同于我们在数据结构教材中对哈希算法的认识,哈希最开始是为了减少冲突方便快速增删改查,在这里LSH恰恰相…
Kernelized Locality-Sensitive Hashing Page   Brian Kulis (1) and Kristen Grauman (2)(1) UC Berkeley EECS and ICSI, Berkeley, CA(2) University of Texas, Department of Computer Sciences, Austin, TX Introduction Fast indexing and search for large databa…
相关概念 散列表 hashtable 是一种实现字典操作的有效数据结构. 在散列表中,不是直接把关键字作为数组的下标,而是根据关键字计算出相应的下标. 散列函数 hashfunction'h' 除法散列法 通过取k除以m的余数,将关键k映射到m个slot中的某一个上.即散列函数为:h(k)=kmodm 比如:散列表的大小m=12,关键字k=100,则h(k)=100mod12=4,放到slot4中. 由于只需做一次除法,所以除法散列法速度非常快. 当选择除法散列法的时候,要避免选择m的某些值.例…