一.引入 在做微博文本挖掘的时候,会发现很多微博是高度相似的,因为大量的微博都是转发其他人的微博,并且没有添加评论,导致很多数据是重复或者高度相似的.这给我们进行数据处理带来很大的困扰,我们得想办法把找出这些相似的微博,再对其进行去重处理. 如果只是要找到重复的微博,我们可以用两两比较所有的微博,对相同的微博值保留一条即可:但这只能在数据量很小的情况下才有可能,当我们有1000万条微博时,需要两两比较的微博有10^6亿(n*(n-1)/2)对,这个计算量是惊人的,即便你用map-reduce,拥…
简介 局部敏感哈希(Locality Sensitive Hasing)是一种近邻搜索模型,由斯坦福大学的Mose Charikar提出.我们用一种随机投影(Random Projection)的方式来创建LSH model.随机投影要求我们首先选择一个(这里考虑最简单的情况)超平面(由一个向量\(r\)定义),然后用这个超平面去散列输入的向量.给定一个输入向量\(v\)和一个超平面\(r\),我们令\(h(v)=sgn(v \cdot r)\),\(h(v)=\pm 1\)取决于输入向量在超平…
深度学习的框架,我们熟知的有caffe,torch和convnet.最近,Google又搞了一个TensorFlow,已经开源:http://www.tensorflow.org/.据说,谷歌的深度学习研究人员都在用TensorFlow,未来也将在机器学习产品中继续使用.那么,作为小码农的我需要紧跟时代的步伐啊,探索一下这个新家伙. 本博文分为两个部分,第一个部分介绍TensorFlow的安装,第二部分探索一下TensorFlow的基本使用知识. 一. TensorFlow的安装 个人觉得Ten…
转自:http://blog.csdn.net/kaosini/article/details/9176961 一.对Redis持久化的探讨与理解    redis是一个支持持久化的内存数据库,也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化.redis支持两种持久化方式,一种是 Snapshot(RDB)也是默认方式,另一种是Append only file(AOF)的方式.具体的理论说明请见这里.    我们应该明确持久化的数据有什么用,答案是用于重启后的数据恢复.Redis是…
关于内核通知链不像Netlink那样,既可以用于内核与用户空间的通信,还能用于内核不同子系统之间的通信,通知链只能用于内核不同子系统之间的通信.那么内核通知链到底是怎么工作的?我们如何才能用好通知链?内核源代码里随处可见的通知链身影,我们到底该如何理解呢?本片博文过后,您的这些疑问和顾虑将统统消除. 以前有个女神,超凡脱俗.出水芙蓉,不过在怎么滴也是人,是人就会有各种各样的需求,女神的所有需求都放在她的需求链表里requirment_chain,比如物质需求,精神需求等等.然后女神首先需要做的事…
夜深人静时分,宿舍就我自己,只有蚊子陪伴着我,我慢慢码下这段文字............ 感觉知识结构不完善:上学期看论文,发现类间离散度矩阵和类内离散度矩阵,然后百度,找不到,现在学模式识别,见了,发现是数学公司,不过老师不讲........ 一.问题来源 今天有个意想不到的收货,下午讲课的时候遇到一个人主动加我,来自南京信息工程大学的某X(处于隐私保护,未经李某X同意,笔者不敢公开其信息),下面是他的话:很久没去博客园了....现在只有matlab版本的一些hash算法;我现在主要就是在研究…
转自:http://blog.chinaunix.net/uid-23069658-id-4364171.html 关于内核通知链不像Netlink那样,既可以用于内核与用户空间的通信,还能用于内核不同子系统之间的通信,通知链只能用于内核不同子系统之间的通信.那么内核通知链到底是怎么工作的?我们如何才能用好通知链?内核源代码里随处可见的通知链身影,我们到底该如何理解呢?本片博文过后,您的这些疑问和顾虑将统统消除. 以前有个女神,超凡脱俗.出水芙蓉,不过在怎么滴也是人,是人就会有各种各样的需求,女…
局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法.局部敏感哈希是近似最近邻搜索算法中最流行的一种,它有坚实的理论依据并且在高维数据空间中表现优异.它的主要作用就是从海量的数据中挖掘出相似的数据,可以具体应用到文本相似度检测.网页搜索等领域. 1. 基本思想 局部敏感哈希的基本思想类似于一种空间域转换思想,LSH算法基于一个假设,如果两个文本在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它们也具有很高…
http://blog.csdn.net/pipisorry/article/details/49686913 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 相似项的发现:局部敏感哈希(LSH, Locality-Sensitive Hashing) {博客内容:More about Locality-Sensitive Hashing:在海量数据挖掘MMDS week2: 局部敏感哈希Locality-Sensit…
Deep Learning of Binary Hash Codes for Fast Image Retrieval [Paper] [Code-Caffe] 1. 摘要 针对图像检索问题,提出简单有效的监督学习框架 CNN网络结构能同时学习图像特征表示以及 hash-like 编码函数集合 利用深度学习以逐点(point-wise)的方式,得到二值哈希编码(binary hash codes),以快速检索图像:对比卷积pair-wised方法,在数据大小上具好的扩展性. 论文思想,当数据标签…