1.应用:

     i.网页地址去重
          网页地址有100个字符,存储5000亿个网址本身需要50T的容量,而Hash表的存储效率只有50%,所有存储爬虫已经爬过的网址需要100T的内存
          解决办法:将网址随机映射到128个bit上,即16个字节的整数空间上,每个网址只需要16个字节,而不是100个了,内存的需求量下降到原来的1/6不到,这16个字节的随机数,就称作该网址的信息指纹
          步骤:a.现将网址转为数值(每个字符对应的ascii)b.通过伟随机数产生器,将得到的数值转为16个字节的整数
          在互联网上加密要使用基于加密的伪随机数产生器,常用MD5或者SHA-1等标准
 
     ii.判定集合是否相同:
          a.场景:
               两个查询,如“北京 中关村 星巴克”和“星巴克 中关村 北京”是否相同;一个人是否用两个不同的账号对同一群人发垃圾邮件;网上的一首歌是否是盗版别人的
               需要将查询或者群体的邮件列表存储在两个集合里,然后判断两个集合是否相同即可
 
          b.算法选择:
               两次变量对比:时间复杂度为O(N^2)
               先排序,后遍历对比:时间复杂度为O(NlogN)
               先将一个集合放入HashSet,然后判断另一个集合的元素是否都在HashSet里,时间复杂度为O(N),但是有额外的空间负责度O(N)
               
               完美的方案:对单个集合的元素求其信息指纹,然后相加,与两一个集合的信息指纹和比较,来判断两个集合元素是否相同,时间复杂度为O(N);用加法的交换率,消除了元素次序对结果的影响
 
          c.电子邮件的问题:
               如果按照b的思路,两次邮件列表里只有一两个用户不同,则需要对步骤进行一个修改,即按照同样的规则(如尾数为24的)对邮件列表进行过滤,如果他们的指纹相同,或者是否有80%以上的相同率,来判断两个邮件列表是否相同
 
          d.两篇网页、文章是否相同
               对两篇文章先去掉常见词、然后去掉出现一次的词(噪音),在剩下的词中对IDF最大的词进行信息指纹的求和、比较,即可判断是否是相同的文章;为了保证容错性,采取了相似哈希的信息指纹(见后文)
 
     iii.视频的反盗版:
          视频匹配两个核心技术:关键帧的提取和特征的提取,MPEG视频每秒有30帧图像,但是只有极少数的关键帧是完整的影像,其他帧存储的是和关键帧相比的差异值
          提取出视频中的关键帧(类似于主题词对新闻),然后对其最信息指纹的
 
2.指纹重复的可能性:
     128位的伪随机数,其k个指纹不重复的概率为,Pk随着k的增大而减小,当Pk<0.5时,k个指纹重复的期望超过1,此时k的最大值为:
          
     在128bit时,N为2^128,所以k约等于2^64,即一千八百亿亿次才能重复一次,因此不同信息产生相同指纹的可能性几乎为0
 
3.相似哈希(Simhash)
     如果网页中若干词T1,T2,...,Tk,其权重(如TF-IDF)为W1,W2,...,Wk,先计算其信息指纹(这里以8bit为例),在计算相似哈希:
     i.扩展:
          将8bit的信息指纹扩展为8个实数:对于每一个词一个词Tk,如果其第n位为1,则第一个实数Rn加Wn,如果为0,则Rn减Wn;最后得到8个实数,
     ii.收缩:
          然后将8个实数收缩,Rk>0?1:0,变为一个8位的二进制,即是其相似哈希指纹
 
     iii.场景:
          少数权重小的词不同的情况下,相似哈希也会相同
          用64位的相似哈希做对比,如果两者相差一位,其网页内容重复的可能性大于80%
     

信息指纹(Fingerprint)及其应用的更多相关文章

  1. Linux下校验下载文件的完整性(MD5,SHA1,PGP)

    查看: Linux下校验下载文件的完整性(MD5,SHA1,PGP) http://blog.useasp.net/archive/2014/03/29/use-md5-sha1-or-pgp-to- ...

  2. simhash文章排重

    原文链接:https://www.cnblogs.com/baochuan/p/9089244.html  背景     提升产品体验,节省用户感知度.——想想,如果看到一堆相似性很高的新闻,对于用户 ...

  3. 信息摘要算法之一:MD5算法解析及实现

    MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致.是计算机广泛使用的杂凑算法之一(又译摘要算法.哈希算法),主流编程语言普遍已有MD5实现. ...

  4. Android中的指纹识别

    转载请注明出处:http://blog.csdn.net/wl9739/article/details/52444671 评论中非常多朋友反映,依据我给出的方案,拿不到指纹信息这个问题,在这里统一说明 ...

  5. Expo大作战(三十七)--expo sdk api之 GLView,GestureHandler,Font,Fingerprint,DeviceMotion,Brightness

    简要:本系列文章讲会对expo进行全面的介绍,本人从2017年6月份接触expo以来,对expo的研究断断续续,一路走来将近10个月,废话不多说,接下来你看到内容,讲全部来与官网 我猜去全部机翻+个人 ...

  6. 使用simhash以及海明距离判断内容相似程度

    算法简介 SimHash也即相似hash,是一类特殊的信息指纹,常用来比较文章的相似度,与传统hash相比,传统hash只负责将原始内容尽量随机的映射为一个特征值,并保证相同的内容一定具有相同的特征值 ...

  7. man ssh翻译(ssh命令中文手册)

    本文为命令ssh的man文档翻译,翻译了90%的内容,剩余是一些没必要翻译的东西,请见谅. 如此文有所疑惑,希望我的另一篇文章能解惑: SSH(1)                    BSD Ge ...

  8. Apache Avro# 1.8.2 Specification (Avro 1.8.2规范)二

    h5 { text-indent: 0.71cm; margin-top: 0.49cm; margin-bottom: 0.51cm; direction: ltr; color: #000000; ...

  9. 从0到1,了解NLP中的文本相似度

    本文由云+社区发表 作者:netkiddy 导语 AI在2018年应该是互联网界最火的名词,没有之一.时间来到了9102年,也是项目相关,涉及到了一些AI写作相关的功能,为客户生成一些素材文章.但是, ...

随机推荐

  1. hdu 3342 Legal or Not(拓扑排序)

    Legal or Not Time Limit : 2000/1000ms (Java/Other)   Memory Limit : 32768/32768K (Java/Other) Total ...

  2. as3 公式

    AS3缓动公式:sprite.x += (targetX - sprite.x) * easing;//easing为缓动系数变量sprite.y += (targetY - sprite.y) * ...

  3. python socket编程---从使用Python开发一个Socket示例说到开发者的思维和习惯问题

    今天主要说的是一个开发者的思维和习惯问题. 思维包括编程的思维和解决一个具体问题的分析思维,分析思路,分析方法,甚至是分析工具. 无论是好习惯还是不好的习惯,都是在者一天一天的思维中形成的.那些不好的 ...

  4. 【转】PHP代码审计

    PHP代码审计 目录 1. 概述3 2. 输入验证和输出显示3 2.1 命令注入4 2.2 跨站脚本4 2.3 文件包含5 2.4 代码注入5 2.5 SQL注入6 2.6 XPath注入6 2.7 ...

  5. oracle数据库兼容mysql的差异写法

    1.sysdate改为sysdate(),或者now(); 2.nvl(expr1,expr2) 改为IFNULL(expr1,expr2) nvl2(expr1,expr2,expr3)改为 IF( ...

  6. MyEclipse9,MyEclipse10 安装ADT

    Eclipse安装ADT 时步骤是开 Eclipse IDE,进入菜单中的 "Help" -> "Install New Software" ,点击Add ...

  7. Block 再学习 !

    如何优雅的使用 Block? How Do I Declare A Block in Objective-C? 阮一峰的一句话解释简洁明了:闭包就是能够读取其它函数内部变量的函数 详情:http:// ...

  8. 使用nginx负载平衡

    1. 介绍 在许多应用中,负载平衡是一种常用的技术来优化利用资源最大化吞吐量,减少等待时间,并确保容错. 可以使用nginx的作为一种非常高效的HTTP负载平衡器,将流量分配到多个应用服务器上提高性能 ...

  9. 极光推送集成——iOS10 接受消息问题及解决

    iOS10升级后极光推送发生了很大的变化,要求Xcode更新到8.0及以上版本才可以实现iOS10接受消息的方法 常见错误 这个问题困扰了我一天,辛亏好友盼神帮我解决,在此再次感谢盼神.一下是解决办法 ...

  10. 配置cinder使用NFS后端

    首先先使用“cinder delete”命令删除所有实例,释放磁盘空间. 停止cinder服务:service openstack-cinder-api stopservice openstack-c ...