近期调研了一下simhash算法,它主要用在谷歌网页去重中.网上有非常多原理性的介绍. 既然能够用来推断文件的相似性,就想知道效果怎么样.simhash的准确度是否依赖于分词算法?是否和simhash的长度有关? 在数据去重过程中,都是先对文件进行分块.而后得到关于这个文件的全部指纹(SHA-1 digest),那么假设把这些fingerprints视为这个文件的单词,作为simhash的输入.效果会怎样呢?接下来自己做了一个简单的測试,測试文件由自己构建的.下表是统计数据,F是基准文件.貌似效…
一.它是什么 zeroMQ,一个处理消息传输的库,重点在传输上,看起来它像是在socket上面封装了一层,让我们可以很容易的利用它来做N对M的数据传输,在分布式系统中很方便,在接收端它有round-robin负载均衡. 官方介绍:http://zguide.zeromq.org/page:all "ZeroMQ (also known as ØMQ, 0MQ, or zmq) looks like an embeddable networking library but acts like a…
http://wiki.apache.org/solr/ Solr调研总结 开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试.两个核心配置文件介绍.中文分词器配置.维护索引.查询索引,高亮显示.拼写检查.搜索建议.分组统计.自动聚类.相似匹配.拼音检索等功能的使用方法. 在代码文本框中如有显示不全的,请在文本框中按Ctrl+A再复制. 版本 作者/修改人 日期 V1.0 gzk 2013-06-04 1. So…
开卷语: 2009年8月6号,A公司ERP项目顺利启动,按照项目进度的安排,项目组成员立即投入到紧张而又忙碌的的业务调研之中.这次为期3周的业务调研面向企业所有业务部门,包括产品部门.采购部门.计划部门.生产部门.品质部门.销售部门.财务部门及各中心部分高层领导,涉及公司DVD.蓝光影碟机.便携式DVD.数码相框.机顶盒等全部的产品.项目调研主要采用开放自由的对话访谈模式,辅之以调研问卷和实地参观,得到业务部门的大力支持与积极响应,并形成<企业业务调研报告>阶段性成果,为ERP项目业务蓝图设计…
  在我工作的项目中含有多种操作系统.多种设备.多种开发语言,因此需要使用跨平台的通信技术和自定义的消息编码.经过技术调研,ZeroMQ+ProtocolBuffer最终成为通信技术和编码方式.但是如何使用这些技术成了问题,如果直接调用,势必会让业务逻辑和通信技术绑定在一起,很难分离.所以需要引入一种框架,可以将业务和通信解耦.WCF是目前最成熟的通信框架之一,WCF的优点还是很多的.   WCF连接各种通信技术,即可以封装各种通信技术.无论使用何种技术,设计服务端的方式是一致的:另一方面设计客…
Solr调研总结 开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试.两个核心配置文件介绍.中文分词器配置.维护索引.查询索引,高亮显示.拼写检查.搜索建议.分组统计.自动聚类.相似匹配.拼音检索等功能的使用方法. 在代码文本框中如有显示不全的,请在文本框中按Ctrl+A再复制. 版本 作者/修改人 日期 V1.0 gzk 2013-06-04 1. Solr 是什么? Solr它是一种开放源码的.基于 Luce…
首发于我的gitpages博客 https://helenawang.github.io/2018/10/10/代码相似度计算框架调研 代码相似度计算框架调研 研究现状 代码相似度计算是一个已有40年研究历史的问题了.它的应用范围广泛,主要包括代码抄袭检测[3].软件维护中的相似代码查找等. Whale[1]于1988年首次提出一个代码相似性检测的通用框架和步骤,将检测过程分为以下两个阶段: 代码格式转换 + 相似度确定 后来很多检测方法都参考这一框架,并将检测过程细分为四个部分: 预处理 ->…
Solr调研总结 开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示.拼写检查.搜索建议.分组统计.拼音检索等功能的使用方法. 版本 作者/修改人 日期 V1.0 gzk 2013-06-04 1. Solr 是什么? Solr它是一种开放源码的.基于 Lucene Java 的搜索服务器,易于加入到 Web 应用程序中.Solr 提供了层面…
近期集中学习了GAN,下面记录一下调研的结果,和学习的心得,疏漏的地方,敬请指正. 本文将分为几个部分进行介绍,首先是GAN的由来,其次是GAN的发展,最后是GAN的应用. 先把最近收集的资料列举一下吧. 其中首推知乎的一位博士生,讲解的深入浅出,将来也是出好产品的科研人啊.令人拍案叫绝的Wasserstein GAN 自己顺着思路推导了一下GAN和WGAN的公式,能搞这些东西的人都是牛人啊.GAN的发展过程,就是loss不断改进的过程! 跑了一下Wgan的代码,是基于pytorch的,我跑的是…
近期在设计一个DevOps平台.希望整合一个APM工具进来,由于APM既可用于性能測试也可用于运维性能监控,是典型的Dev+Ops产品. 商业的APM工具国内外已经有不少成熟产品了,而开源的好像不多见.我想APM工具的原理是基于JVM动态注入,从技术角度考虑,必定会有开源的东西出现才对,所以開始了开源APM应用性能管理工具调研之旅! 今天找到一个叫Kieker 的: http://kieker-monitoring.net/download/ Kieker provides complement…