最早是在百度贴吧里看到的lucene这个名称,只知道跟搜索引擎有关,因为工作中一直以来没有类似的需求,所以没有花时间学习这方面的知识。

刚过完年,公司不忙,自己闲不住把《Netty权威指南》大致刷了起来(后续有时间再把Netty这块的一些知识分享出来)。不过就在前几天,领导突然说后面有个新项目准备让我来做,目前还在整理需求中。然后巴拉巴拉简单的跟我讲了一下,大概就是说去年我给客户做了个小的WAP网站,人家觉还行今年准备搞个大一点的,门户+文库+机器人客服,这个文库需要搜索功能,用户在搜索框里面输入指定关键字,需要匹配现有的文档附件里面的内容,返回匹配成功的文档下载地址... 听到这个需求的时候,我并没有因为自己没有做过类似的项目而慌张,相反内心有种莫名的欣喜,可能是因为我脑袋里闪过Lucene这个词,借此机会可以好好的深入了解一下了。

一周之前,我对Lucene的认识正如 《Lucene实战 》中所写的一样,以为它是一个完整的搜索引擎,后来才知道它是一个 “信息检索工具库”并不能拿来即用,需要配合java来让它变成一个搜索引擎。当然,Lucene项目下还有一些子项目,基于Lucene开发的,可拿来即用,如solr,nutch等,感兴趣的可以百度搜索一下相关内容,此处不再介绍。

下面我就来现学现卖。先带你认识一下Lucene,知道它的干什么的;下一篇会写个简单的实例,能让你快速用起来;后面再慢慢的介绍一些概念和底层细节,有助于深入理解Lucene。

1.是什么

它是一款高性能、可扩展的信息检索(IR)工具库,信息检索是指文档(txt,json,xml,csv等)搜索,文档内容搜索及文档相关的一些元数据搜索等操作;

2.能做什么

通过Lucene的几个核心类,使你可以在不必深入了解全文索引和搜索机制的同时,也能轻松的将它集成到自己的应用中。Lucene的核心是索引和搜索,它可以为文本文档内容添加索引,使得你在搜索关键字的时候,能迅速返回包含这些关键字的文档。Lucene本身无法为docx,pdf,xlsx等格式的二进制格式文档添加索引,因为他不做内容编码的处理。但是借助Tika工具,可以将这些二进制文档转换成文本形式,来实现Lucene对这些文档支持。当然,内容的来源不仅仅局限于文件,还可以是互联网资源,数据库数据,这些一般都由开发者自己处理,Lucene也有现成的组件。总之,Lucene的核心专注于对内容的索引和搜索,并不关心内容的来源。

3.浅谈索引和搜索

索引和搜索是Lucene的核心,看过新华字典吗?厚厚的一本新华字典,如果我们要从中找一个字需要一页一页的翻吗?当然不是,字典的前几页有目录索引,根据目录索引我们能快速定位到被查字的位置。Lucene中的索引有着异曲同工的效果,通过对文档内容分析,提取出很多关键字(分词),再为每个关键字添加位置信息(可能为多个),这样我们就能通过关键字快速定位到文档位置,提高搜索的速度。有人可能不太理解为什么添加索引能提高搜索效率,这么说你可能会懂:拿中文文档来说,汉字的数量和词的数量是有限的,假设我现在为一万本中文书建立索引 , 那么我关键词的数量最多为 一本新华字典+现代汉语词典的量,我为2万本书建立索引,我关键词的数量是不是不会发生改变,不过关键词下位置信息会增多对吧。数据越多,建立索引的时间会越长,不过能换来搜索时间稳定,很值。

大致介绍了一下Lucene的用途和核心功能,本篇到此结束。下一篇会直接上个简单的实例,让开发者能快速上手,并且会详细介绍Lucene的索引过程。

本篇中有没说清楚或者有误的地方,欢迎指点,大家相互学习。

初识lucene(想看代码的跳过)的更多相关文章

  1. 【前端模板之路】一、重构的兄弟说:我才不想看你的代码!把HTML给我交出来!

    写在前面 随着前端领域的发展和社会化分工的需要,继前端攻城湿之后,又一重要岗位横空出世——重构攻城湿!所谓的重构攻城湿,他们的一大特点之一,就是精通CSS配置文件的编写...前端攻城湿跟重构攻城湿是一 ...

  2. (转)【前端模板之路】一、重构的兄弟说:我才不想看你的代码!把HTML给我交出来!

    原文地址:http://www.cnblogs.com/chyingp/archive/2013/06/30/front-end-tmplate-start.html 写在前面 随着前端领域的发展和社 ...

  3. php spl标准库简介(SPL是Standard PHP Library(PHP标准库)(直接看代码实例,特别方便)

    php spl标准库简介(SPL是Standard PHP Library(PHP标准库)(直接看代码实例,特别方便) 一.总结 直接看代码实例,特别方便易懂 thinkphp控制器利眠宁不支持(说明 ...

  4. 初识lucene

    lucene的介绍网上有好多,再写一遍可能有点多余了. 使用lucene之前,有一系列的疑问 为什么lucene就比数据库快? 倒排索引是什么,他是怎么做到的 lucene的数据结构是什么样的,cpu ...

  5. calltree看代码调用图

    calltree是在linux下面看c代码(尤其是复杂的内核代码)的神器. 推荐  calltree+vim + ctags + cscope + taglist [ vim: 搭建vim看代码的环境 ...

  6. 免费的Lucene 原理与代码分析完整版下载

    Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...

  7. CGAL代码阅读跳坑指南

    CGAL代码阅读跳坑指南 整体框架介绍 CGAL中的算法和数据结构由它们使用的对象类型和操作参数化.它们可以处理满足特定语法和语义需求的任何具体模板参数.为了避免长参数列表,参数类型被收集到一个单独的 ...

  8. 使用tkinter打造一个小说下载器,想看什么小说,就下什么

    前言 今天教大家用户Python GUI编程--tkinter 打造一个小说下载器,想看什么小说,就下载什么小说 先看下效果图 Tkinter 是使用 python 进行窗口视窗设计的模块.Tkint ...

  9. 【JavaScript基础】Js的定时器(你想看的原理也在哟)

    [JavaScript基础]Js的定时器(你想看的原理也在哟) 博客说明 文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢! 说明 本章是经历 ...

随机推荐

  1. php 处理并发问题

    对于商品抢购等并发场景下,可能会出现超卖的现象,这时就需要解决并发所带来的这些问题了 在PHP语言中并没有原生的提供并发的解决方案,因此就需要借助其他方式来实现并发控制. 方案一:使用文件锁排它锁 f ...

  2. CentOS下安装XAMPP详细教程(转)

    [原文]http://blog.csdn.net/hel12he/article/details/49781813 现在PHP的集成运行环境越来越多,个人比较喜欢XAMPP,更新速度快,好用,安装便捷 ...

  3. centos 7 双网卡建网桥脚本实现

    #!/bin/bash interface1=`ls /sys/class/net|grep en|awk 'NR==1{print}'` interface2=`ls /sys/class/net| ...

  4. [POJ 3581]Sequence

    [POJ 3581]Sequence 标签: 后缀数组 题目链接 题意 给你一串序列\(A_i\),保证对于$ \forall i \in [2,n],都有A_1 >A_i$. 现在需要把这个序 ...

  5. bzoj2151 种树 双向链表+堆

    2151: 种树 Time Limit: 10 Sec  Memory Limit: 259 MBSubmit: 1151  Solved: 613[Submit][Status][Discuss] ...

  6. 如何解决jQuery easyui中locale文件下easyui-lang-zh_CN中文乱码问题

    1.在保存eclipse项目的目录下找到引入easyui-lang-zh_CN.js 2.用记事本打开该js文件,若打开后的中文正常,直接复制,粘贴到项目中的该js文件中,保存 3.若打开后中文出现乱 ...

  7. JS中的Undefined和Null的区别

    Undefined ①在声明变量时,如果没有给变量赋值,则这个变量就是undefined类型: ②访问未声明的变量会报错误消息,但这样的变量使用 typeof 测试,返回的值为Undefined. 即 ...

  8. Visual Studio 环境路径答疑!

    工程目录结构如下: Console │ Console.sln │ Console.VC.db │ ├─Console │ │ Console.cpp │ │ Console.vcxproj │ │ ...

  9. openresty 中mime.types 文件缺失问题,无法展示图片

    看技术群有人问这个:"图片不展示了,直接下载了,怎么设置nginx",之前刚开始学习nginx时遇到过,然后 使用 openresty+lua在做网关时遇到过,这里还是记录下吧. ...

  10. 安装apache报没有找到VCRUNTIME40.dll错误

    解决办法 在Windows下运行最新版的Apache和php7都需要Visual C++Redistributable 2015,而之前的版本不需要那么高的,这个组件是运行Visual Studio ...