阅读目录 1. SimHash与传统hash函数的区别 2. SimHash算法思想 3. SimHash流程实现 4. SimHash签名距离计算 5. SimHash存储和索引 6. SimHash存储和索引 7. 参考内容 在之前的两篇博文分别介绍了常用的hash方法([Data Structure & Algorithm] Hash那点事儿)以及局部敏感hash算法([Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)),本文介绍的SimHas…
“工若善其事,必先利其器”,感谢Eclipse,她 使我们阅读一个大工程的代码更加容易,在阅读的过程中,我发现掌握几个Eclipse的快捷键会使阅读体验更加流畅,写出来与诸君分享,欢迎补充. 1. Ctrl+左键 这个是大多数人经常用到的,用来查看变量.方法.类的定义 2. Ctrl+O 查看一个类的纲要,列出其方法和成员变量.提示 :再多按一次Ctrl+O ,可以列出该类继承的方法和变量.助记 :"O"--->"Outline"--->"纲要…
问题描述: No compiler is provided in this environment. Perhaps you are running on a JRE rather than a JDK 解决方案:  1- MyEclipse菜单 - Window - Preferences- Java - Installed JREs 将配置的JRE定位到JDK,最好是修改为jdk1.7 现在仍在探索,为什么我现在使用的MyEclipse( 版本2015 CI )里面的Maven JDK下拉选…
主要内容: 通过JavaAPI和Shell命令两种方式操作ES集群 集群环境: 两个 1,未配置集群名称的单节点(模拟学习测试环境); 2,两个节点的集群(模拟正常生产环境). JDK8+ElasticSearch5.1.2(大版本一致即可) Shell命令: 首先存入一条数据 curl -X PUT localhost:9200/website/blog/1 -d '{ "name":"51nenli" }' 未配置集群名称的单节点(模拟学习测试环境) curl…
异常1: can not run elasticsearch as root [WARN ][o.e.b.ElasticsearchUncaughtExceptionHandler] [node-2] uncaught exception in thread [main] org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root at or…
文本相似度算法 minhash minhash 1. 把文档A分词形成分词向量L 2. 使用K个hash函数,然后每个hash将L里面的分词分别进行hash,然后得到K个被hash过的集合 3. 分别得到K个集合中的最小hash,然后组成一个长度为K的hash集合 4. 最后用Jaccard index求出两篇文档的相似度 simhash 1. 把文档A分词形成分词向量L,L中的每一个元素都包涵一个分词C以及一个分词的权重W 2. 对L中的每一个元素的分词C进行hash,得到C1,然后组成一个新…
Atitit 泛型原理与理解attilax总结 1. 泛型历史11.1.1. 由来11.2. 为什么需要泛型,类型安全21.3. 7.泛型的好处22. 泛型的机制编辑22.1.1. 机制32.1.2. 编译机制32.2. 参考31.泛型历史泛型编程(Generic Programming)最初提出时的动机很简单直接:发明一种语言机制,能够帮助实现一个通用的标准容器库.所谓通用的标准容器库,就是要能够做到,比如用一个List类存放所有可能类型的对象这样的事:泛型编程让你编写完全一般化并可重复使用的…
从tcp原理角度理解Broken pipe和Connection reset by peer的区别 http://lovestblog.cn/blog/2014/05/20/tcp-broken-pipe/   以前我们经常会碰到Broken pipe或者Connection reset by peer之类的异常,但是tcp实现里什么情况下会抛出这些异常呢,以前我给对方的回答都是模棱两可的,自己说实话都没把握,因为自己也没有验证过,对它们的认识都是从网上看来的,正确与否也不知道,昨天独明突然又问…
一.scrapy暂停与重启 1.要暂停,就要保留一些中间信息,以便重启读取中间信息并从当前位置继续爬取,则需要一个目录存放中间信息: scrapy crawl spider_name -s JOBDIR=dir/001——spider_name是你要爬取得spider的py文件名,JOBDIR是命令参数,即代表存放位置参数,dir是中间信息要保存的目录,001新生成的文件夹名是保存的中间信息,重启则读取该文件信息.可以将JOBDIR 设置在setting中,或写在custom_settings中…
对CAP原理的理解 CAP原理按照定义,指的是C(Consistency)一致性,A(Availability)可用性,P(Partition tolerance)分区容错性在一个完整的计算机系统中三种特性不能同时得到完全满足. Consistency((强)一致性):指的是在同一时间点,所有的数据状态是否是一致的.对于一致性的理解,个人认为可以从关系型数据库的事务概念出发来进行理解.例如:一次银行账户的转账,双方账户的金额必须同时增加,和减少.不能出现转账账户已经扣钱,而被转账账户未能增加金额…