Indri和Terrier搜索引擎的使用

介绍 Indri和Terrier都是开源的搜索引擎,当中Indri作为Lemur项目的一个重要部分,具有强大的查询接口,易建索引,可扩展,高效率等长处.能够在SourceForge Lemur Project Page中下载.Terrier也是IR领域很有影响力的开源搜索引擎,Terrier是Glasgow大学用Java语言编写的,具有高效灵活及易于部署等特点,眼下最新的版本号为Terrier 4.0.可在Terrier官网下载. 不管Indri还是Terrier整个过程,须要先建立索引,然后依…

01 Apache Solr:提升检索体验为什么是Solr

背景: 最近开发一个大型的仓储管理平台项目,项目的前身是无数个版本的历史悠久的基于CS模式的Windows桌面程序.然后对于每一个客户,我们可能需要为之定制比较个性化的特殊功能.于是,有一个核心研发团队,以一两年为周期开发一个核心功能版本的软件:然后拿出去推广销售,每每销售成功,做售前的同事都是拿了一大堆定制化的需求回来的:然后一场在核心功能上的定制和个性化扩展就开始了,完成开发就可以去客户现场实施了:最后,就会有部分维护的同事将这个客户的系统纳入他们的日常工作清单中.周而复始.诚然,…

[IR] Open Source Search Engines

From:http://blog.csdn.net/xum2008/article/details/8740063 本文档是对现有的开源的搜索引擎的一个简单介绍 1. Lucene Lucene的开发语言是Java, 也是java家族中最为出名的一个开源搜索引擎, 在java世界中已经是标准的全文检索程序, 它提供了完整的查询引擎和索引引擎, 没有中文分词引擎, 需要自己去实现, 因此用Lucene去做一个搜素引擎需要自己去架构. 另外它不支持实时搜索, 但linkedin和twitter…

Indri中的动态文档索引技术

Indri中的动态文档索引技术戴维译摘要: Indri 动态文档索引的实现技术,支持在更新索引的同时处理用户在线查询请求. 文本搜索引擎曾被设计为针对固定的文档集合进行查询,对不少应用来说,这种机制工作得很好,然而对于诸于新闻,财经和桌面搜索而言,需要的是高效.经常性的更新索引. 以往支持动态文档集合的研究主要围绕增量索引方法,增量系统通过往已有的索引中追加大的文档集合来优化索引性能,但是不允许在增量索引的同时处理用户查询. 与以往的增量系统不同,Indri搜索引擎的最新版本支持动态文档集…

Livecoding.tv2.5发布，增加“用户搜索引擎”功能，方便用户找到匹配的程序员

近日,在Livecoding.tv最新发布的博客中,介绍了该平台2.5版的一系列新功能,其中的User Discovery Engine(用户搜索引擎)受到大家的欢迎.使用该引擎,可以很方便地查找在Livecoding.tv上的所有成员. 用户可以根据自己感兴趣的编程语言.程序员的水平.身份.所在的国家.搜索结果的排序方法(如随机排序,直播或视频被浏览的次数,或粉丝人数)等条件进行搜索,找到和自己志同道合的编程伙伴.随着平台用户人数的不断增加,Livecodng.tv推出的这个“用户搜索引擎”,…

Nutch搜索引擎（第1期）_ Nutch简介及安装

1.Nutch简介 Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具.其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构. Nutch目前最新的版本为version1.4. 1.1 Nutch的目标 Nutch 致力于让每个人能很容易,同时花费很少…

HTML <meta> 标签，搜索引擎

关于Mate标签的详尽解释,请查看w3school 网址为:http://www.w3school.com.cn/tags/tag_meta.asp meta标签作用 META标签是HTML标记HEAD区的一个关键标签,提供文档字符集.使用语言.作者等基本信息,以及对关键词和网页等级的设定等,最大的作用是能够做搜索引擎优化(SEO). PS:便于搜索引擎机器人查找.分类,互联网应用应该要注意. 大网站都是怎么写? 在了解这个标签之前,我查找了各个主流网站他们的对于Meta的设置,如下: 京东首页…

Java Web学习笔记---用GET实现搜索引擎

今天做了一个实验,关于Servlet的.使用GET实现搜索引擎.因自己没有搜索引擎数据库,所以使用了Yahoo提供的Search API. 浏览效果如下图: 现在雅虎推出了新的Search API---BOSS Search API.把旧的也就是我现在用的API废弃了,导致搜索不到结果. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <head> <…

转载自lanceyan：一致性hash和solr千万级数据分布式搜索引擎中的应用

一致性hash和solr千万级数据分布式搜索引擎中的应用互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库.在这样严峻的条件下,一批又一批的创业者从创业中获得成功,这个和当前的开源技术.海量数据架构有着必不可分的关系.比如我们使用mysql.nginx等开源软件,通过架构和低成本服务器也可以搭建千万级用户访问量的系统.新浪微博.淘宝网.腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台.所以,用什么没关系,只要能够在合理的情况下采用合理的解决方…

9个基于Java的搜索引擎框架

在这个信息相当繁杂的互联网时代,我们已经学会了如何利用搜索引擎这个强大的利器来找寻目标信息,比如你会在Google上搜索情人节如何讨女朋友欢心,你也会在百度上寻找正规的整容医疗机构(尽管有很大一部分广告骗子).那么如果在你自己开发的网站系统中需要能让用户搜索一些重要的信息,并且能以结构化的结果展现给用户,下面分享的这9款Java搜索引擎框架或许就可以帮助到你了. 1.Java 全文搜索引擎框架 Lucene 毫无疑问,Lucene是目前最受欢迎的Java全文搜索框架,准确地说,它是一个全文检索引…

搜索引擎Query Rewrite

中心词抽取项目总结 B2B国际站Query重写.ppt 达观数据搜索引擎的Query自动纠错技术和架构详解 Natural Language Processing Simrank++ Query rewriting through link analysis of the click graph Probabilistic Query Rewriting for Efficient and Effective Keyword Search on Graph Data.1642-1653 Deep…

[SE0]简单的搜索引擎原理

1.简单了解搜索引擎收录的原理包括baidu. google .yahoo 在内的各大搜索引擎在内基本上搜录网站的原理大致相同(除了国内某些网站网1新 l 等采取人工登记的办法),搜索引擎都是采用自己的算法在网络上遍历搜索,一般靠有效的连接和网页的跳转访问地址,同时也登记网站的<title>和<meta>,并对一部分关键字进行屏蔽.遍历的结果也要进行筛选,重复的网址和不可靠的<title>甚至网页内容会被删除.并定时更新搜索引擎的数据. 百度: http://ww…

［搜索引擎］Sphinx的介绍和原理探索

What/Sphinx是什么定义 Sphinx是一个全文检索引擎. 特性索引和性能优异易于集成SQL和XML数据源,并可使用SphinxAPI.SphinxQL或者SphinxSE搜索接口易于通过分布式搜索进行扩展高速的索引建立(在当代CPU上,峰值性能可达到10 ~ 15MB/秒) 高性能的搜索 (在1.2G文本,100万条文档上进行搜索,支持高达每秒150~250次查询) Why/为什么使用Sphinx 遇到的使用场景遇到一个类似这样的需求:用户可以通过文章标题和文章搜索到一片文…

借助 Lucene.Net 构建站内搜索引擎（上）

前言:最近翻开了之前老杨(杨中科)的Lucene.Net站内搜索项目的教学视频,于是作为老杨脑残粉的我又跟着复习了一遍,学习途中做了一些笔记也就成了接下来您看到的这篇博文,仅仅是我的个人笔记,大神请呵呵一笑而过.相信做过站内搜索的.Net程序员应该对Lucene.Net不陌生,没做过的也许会问:就不是个查询嘛!为什么不能使用Like模糊查找呢?原因很简单:模糊查询的契合度太低,匹配关键字之间不能含有其他内容.最重要的是它会造成数据库全表扫描,效率低下,即使使用视图,也会造成数据库服务器"亚历山大…

借助 Lucene.Net 构建站内搜索引擎（下）

前言:上一篇我们学习了Lucene.Net的基本概念.分词以及实现了一个最简单的搜索引擎,这一篇我们开始开发一个初具规模的站内搜索项目,通过开发站内搜索模块,我们可以方便地在项目中集成站内搜索功能.本次示例Demo麻雀虽小,五脏俱全,值得学习. 一.项目初窥 1.1 项目背景本项目模拟一个BBS论坛的文章内容管理系统,当用户发帖之后首先将内容存到数据库,然后对内容进行分词后存入索引库.因此,当用户在论坛站内搜索模块进行搜索时,会直接从索引库中进行匹配并获取查询结果.站内搜索界面的效果如下图所示…

SEO：让搜索引擎对你的网站更有亲和力(译)

人可以通过查看网站信息了解网站的内容,但是搜索引擎只对标签感兴趣,对内容的识别能力是很低的,如何让蜘蛛通过标签认识你的文章内容呢~ 原文网址:http://schema.org/docs/gs.html本文地址:http://www.cnblogs.com/hustskyking/p/let-your-page-understood-by-search-engine.html译者:Barret Lee日期:2013-11-01 许多站长应该对HTML标签十分熟悉,HTML标签告诉浏览器如何去呈现…

解决HubbleDotNet搜索引擎索引数据不全的问题

HubbleDotnet是国产.NET平台搜索引擎的翘楚,开放源代码,使用方便,不过我一直在非生产环境下使用.官方网页在HubbleDotNet开源全文搜索数据库项目--技术详解. 以前当数据库使用Mysql的时候没问题,但当使用了MonogoDB做数据源之后,经常出现数据无法全部自动索引的情况.比如有10W的表,常常只能索引到3W甚至更少,乃至每次索引的数量都不同. 这件事拖了我很久,万不得已看日志查源代码,才发现是一个程序上的bug. 系统日志记录如下: LogTime:-- ::32.77…

去哪儿搜索引擎QSearch设计与实现

本次演讲主要介绍的是QSearch的具体设计和应用场景,并分别解答以下几个问题:QSearch与开源垂直软件Lucene的区别:具体业务的实现技巧.以及QSearch的具体设计:如何通过Partial Update来实现文档动态信息的快速更新:如何使用列存储来加快引擎的Group速度:如何通过多阶段排序来实现自定义的排序等等.通过QSearch这款与与众不同的搜索引擎介绍,让同学们能更深入地了解如何搭建一款高效.相关性高的垂直搜索产品,了解搜索相关的技术点,同时知道主流开源搜索引擎在某些领域存在…

O2O的实时搜索引擎

O2O行业通常都会基于地理位置派发用户订单给距离最近的服务提供者,因此必须解决位置高效索引和快速检索的问题.位置索引的最大挑战是位置可能持续变化,因此索引的更新量会非常庞大,传统搜索引擎难以应对. 我们为了解决高效派单问题,实现了基于位置索引的高效分布式实时搜索引擎. 我们颠覆了传统搜索引擎的做法,包括索引不做持久化.实时索引.无锁化实现等,相信会给大家带来耳目一新的体验. 原文地址:http://www.infoq.com/cn/presentations/real-time-search-e…

ElasticSearch大数据分布式弹性搜索引擎使用

阅读目录: 背景安装查找.下载rpm包 .执行rpm包安装配置elasticsearch专属账户和组设置elasticsearch文件所有者切换到elasticsearch专属账户测试能否成功启动安装自启动elasticsearch servicewrapper包下载elasticsearch servicewrapper 包 elasticsearch servicewrapper开源包的配置小bug servicewrapper安装 chkconfig -add 加入linux…

分布式搜索引擎Elasticsearch的简单使用

官方网址:https://www.elastic.co/products/elasticsearch/ 一.特性 1.支持中文分词 2.支持多种数据源的全文检索引擎 3.分布式 4.基于lucene的开源搜索引擎 5.Restful api 二.资源 smartcn, 默认的中文分词 :https://github.com/elasticsearch/elasticsearch-analysis-smartcn mmseg :https://github.com/medcl/elasticsea…

[Search Engine] 搜索引擎技术之查询处理

我们之前从开发者的角度谈了一些有关搜索引擎的技术,其实对于用户来说,我们不需要知道网络爬虫到底是怎样爬取网页的,也不需要知道倒排索引是什么,我们只需要输入我们的查询词query,然后能够得到我们想要的网页或者答案就可以了.这就是搜索引擎技术中相对顶层的技术——查询处理. 转载自:http://blog.csdn.net/hguisu/article/details/7978451 1. 查询处理的流程用户输入想要查询的query,搜索引擎是怎样一步一步对查询进行处理的,或者说搜索引擎是怎样一步…

[Search Engine] 搜索引擎技术之倒排索引

倒排索引是搜索引擎中最为核心的一项技术之一,可以说是搜索引擎的基石.可以说正是有了倒排索引技术,搜索引擎才能有效率的进行数据库查找.删除等操作. 1. 倒排索引的思想倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index). 在搜索引擎中,查询词可以切分成若干个单词,所以对于搜索引擎中的倒排索引对应的属性就是单词,而对应的记录就是…

[Search Engine] 搜索引擎技术之网络爬虫

随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战.网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性的抓取,它就像是一只蜘蛛一样在互联网中爬来爬去,所以我们很形象地将其称为是网络爬虫技术.其中网络爬虫也被称为是网络机器人或者是网络追逐者. 网络爬虫技术是搜索引擎架构中最为根本的数据技术,通过网络爬虫技术,我们可以将互联网中数以百亿计的网页信息保存到本地,形成一个镜像文件,为整个搜索引擎提供数据支撑. 1.…

[Search Engine] 搜索引擎分类和基础架构概述

大家一定不会多搜索引擎感到陌生,搜索引擎是互联网发展的最直接的产物,它可以帮助我们从海量的互联网资料中找到我们查询的内容,也是我们日常学习.工作和娱乐不可或缺的查询工具.之前本人也是经常使用Google和Baidu搜索,而对搜索引擎的知识架构没有一个整体的概念.前一阵子的实习,使我有机会全面的了解了搜索引擎,感觉还是蛮有意思.所以,即使在面临找工作的高压下,也一定要抽时间来总结和回顾一下学到的知识,以便以后查阅,如果能给其他人带来帮助,那最好不过了. 搜索引擎的标准定义:搜索引擎(Search…

各大搜索引擎智能提示API（JSONP跨域实现自动补全搜索建议）

---------------------------------------搜索引擎JSONP接口--------------------------------------------- 提示:URL中的 #content# 为搜索的关键字谷歌(Google) http://suggestqueries.google.com/complete/search?client=youtube&q=#content#&jsonp=window.google.ac.h callback:wi…

如何记录搜索引擎爬行记录php版

写博客也有一段时间了,为什么搜索引擎迟迟不收录你的页面呢?想知道每天都有哪些蜘蛛“拜访”你的网站吗?作为一名网站长,有必要知道每天都有哪些蜘蛛爬行过你的网站,以便于了解各搜索引擎蜘蛛爬行频率,对网站进行针对性的SEO优化,因此我们需要了解搜索引擎爬行记录. 其实很简单,只要添加以下代码,然后再调用文件代码就OK了,是不是很方便呢?那就开始行动吧. 之前我也找过几个蜘蛛爬行记录工具PHP版,结果都不尽人意.而且这些PHP程序大多要进行安装,还要将蜘蛛爬行记录添加到MYSQL中,未免太麻烦.那就寻找…