关于Lucene 3.0升级到Lucene 4.x 备忘

【关于Lucene 3.0升级到Lucene 4.x 备忘】的更多相关文章

关于Lucene 3.0升级到Lucene 4.x 备忘

最近,需要对项目进行lucene版本升级.而原来项目时基于lucene 3.0的,很古老的一个版本的了.在老版本中中,我们主要用了几个lucene的东西: 1.查询lucene多目录索引. 2.构建RAMDirectory,把索引放到内存中,以提高检索效率. 3.构建Lucene自定义分词. 4.修改Lucene默认的打分算法. 下面,将代码改造前和改造后做一对比: 1. 搜索多索引目录 3.0 构建多索引目录: // 初始化全国索引 private boolean InitGlobal(St…

Lucene学习总结之四：Lucene索引过程分析 2014-06-25 14:18 884人阅读评论(0) 收藏

对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后的文章中进行分析. Lucene的索引过程,很多的博客,文章都有介绍,推荐大家上网搜一篇文章:<Annotated Lucene>,好像中文名称叫<Lucene源码剖析>是很不错的. 想要真正了解Lucene索引文件过程,最好的办法是跟进代码调试,对着文章看代码,这样不但能够最详细准确…

Lucene 6.0下使用IK分词器

Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类: MyIKTokenizer.java import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.tokenattribute…

Lucene 4.0 正式版发布，亮点特性中文解读[转]

http://blog.csdn.net/accesine960/article/details/8066877 2012年10月12日,Lucene 4.0正式发布了(点击这里下载最新版),这个版本因为诸多的新特性和大胆的架构调整一直备受期待.无论是索引结构,索引算法以及整体架构的包容性都发生了翻天覆地的变化.正如大家一直所说的Lucene是一个搜索工具包 ,而4.0的发布则让Lucene向搜索框架的方向迈出了一大步. 下面我们来逐一解读Lucene 4.0的新特性吧. Lucene 4.0…

Lucene学习总结之六：Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读评论(0) 收藏

在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene的打分公式非常复杂,如下: 在推导之前,先逐个介绍每部分的意义: t:Term,这里的Term是指包含域信息的Term,也即title:hello和content:hello是不同的Term coord(q,d):一次搜索可能包含多个搜索词,而一篇文档中也可能包含多个搜索词,此项表示,当一篇文档中包…

Lucene学习总结之三：Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读评论(0) 收藏

Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程. Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程. 本文详细解读了Apache Lucene - Index File Formats(http://lucene.apache.or…

Lucene.Net3.0.3+盘古分词器学习使用

一.Lucene.Net介绍 Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎.开发人员可以基于Lucene.net实现全文检索的功能. Lucene.net是Apache软件基金会赞助的开源项目,基于Apache License协议. Lucene.net并不是一个爬行搜索引擎,也不会自动地索引内容.我们得先将要索引的文档中的文本抽取出来,然后再将其加到Lucene.…

Lucene学习总结之四：Lucene索引过程分析

对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后的文章中进行分析. Lucene的索引过程,很多的博客,文章都有介绍,推荐大家上网搜一篇文章:<Annotated Lucene>,好像中文名称叫<Lucene源码剖析>是很不错的. 想要真正了解Lucene索引文件过程,最好的办法是跟进代码调试,对着文章看代码,这样不但能够最详细准确…

Lucene学习总结之七：Lucene搜索过程解析

一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: IndexReader打开索引文件,读取并打开指向索引文件的流. 用户输入查询语句将查询语句转换为查询对象Query对象树构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分). 构造Scorer对象树,用于计算打分(T…

Lucene学习总结之六：Lucene打分公式的数学推导

在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene的打分公式非常复杂,如下: 在推导之前,先逐个介绍每部分的意义: t:Term,这里的Term是指包含域信息的Term,也即title:hello和content:hello是不同的Term coord(q,d):一次搜索可能包含多个搜索词,而一篇文档中也可能包含多个搜索词,此项表示,当一篇文档中包…

Lucene学习总结之三：Lucene的索引文件格式(1)

Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程. Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程. 本文详细解读了Apache Lucene - Index File Formats(http://lucene.apache.or…

Lucene系列六：Lucene搜索详解（Lucene搜索流程详解、搜索核心API详解、基本查询详解、QueryParser详解）

一.搜索流程详解 1. 先看一下Lucene的架构图由图可知搜索的过程如下: 用户输入搜索的关键字.对关键字进行分词.根据分词结果去索引库里面找到对应的文章id.根据文章id找到对应的文章 2. Lucene搜索API 图示 3. Lucene搜索代码示例先在pom.xml里面引入查询分析器模块  <dependency> <groupId>org.apache.lucene</groupI…

有关Lucene的问题(4):影响Lucene对文档打分的四种方式

原文出自:http://forfuture1978.iteye.com/blog/591804点击打开链接在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中. 如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值. 这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变. 如果不进行设定,则Document…

Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏

一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: IndexReader打开索引文件,读取并打开指向索引文件的流. 用户输入查询语句将查询语句转换为查询对象Query对象树构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分). 构造Scorer对象树,用于计算打分(T…

Lucene学习之一：使用lucene为数据库表创建索引，并按关键字查询

最近项目中要用到模糊查询,开始研究lucene,期间走了好多弯路,总算实现了一个简单的demo. 使用的lucene jar包是3.6版本. 一:建立数据库表,并加上测试数据.数据库表:UserInfo 二:新建java project,并引入lucene jar包.http://lucene.apache.org/ 三:为数据库表建立索引及利用索引查数据: import java.io.File; import java.io.IOException;import java.sql.Conne…

jackson2.5.0升级到2.7.0

开发环境:spring-mvc4.1.7.jackson2.7.0 问题描述:项目中将原来的jackson2.5.0升级到2.7.0,导致服务调用出错. mvc相关的配置文件如下: <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.…

系统补丁更新导致MVC3.0.0升级到3.0.1的问题解决

在更新了系统补丁之后,会不知觉的将MVC3.0.0升级到MVC3.0.1的问题,解决的思路如下: 1.全部MVC引用使用NuGet进行包的管理. 2.单独把MVC库抽离出来,然后放在单独的项目文件夹,统一引用,一并上传到SVN进行管理,也能解决团队开发. 3.(不靠谱)将解决方案下的MVC引用,使用复制到本地的形式,但我发觉这个只是发布的时候由于,不一定真正解决团队开发的不一样引用问题. 以下为收集比较对味的资料: http://stackoverflow.com/questions/26406…

李洪强iOS开发之-环信02.1_环信 SDK 2.x到3.0升级文档

李洪强iOS开发之-环信02.1_环信 SDK 2.x到3.0升级文档 SDK 2.x 至 3.0 升级指南环信 SDK 3.0 升级文档 3.0 中的核心类为 EMClient 类,通过 EMClient 类可以获取到 chatManager.groupManager.contactManager.roomManager对象.原来 2.0 版本的 SDK 很多方法提供了同步.异步回调.异步(block)三种方法,3.0 版只提供同步方法(async开头的方法为异步方法). 例如: //2.0…

UiAutomator2.0升级填坑记

UiAutomator2.0升级填坑记 SkySeraph May. 28th 2017 Email:skyseraph00@163.com 更多精彩请直接访问SkySeraph个人站点:www.skyseraph.com 啰嗦 Google Android Developers 在2015年3月就发布了UiAutomator 2.0版本(下文简称U2),而公司的核心产品中用到还是UiAutomator老版本(下文简称U1),业界用U2的也不是很多,虽然有诸多问题和不便(如高版本OS中不支持Re…

linux内核升级（ubuntu12.04从3.13.0升级到3.4.0 ）

花了一天的时间,终于把ubuntu12.04 的linux内核版本从3.13.0升级到3.4.0 升级后,系统更加稳定.具体步骤:# wget http://www.kernel.org/pub/linux/kernel/v3.x/linux-3.4.tar.gz# tar zxvf linux-3.4.tar.gz -C /usr/src# cd /usr/src/linux-3.4# make menuconfig# make# make modules_install# cp arch/x…

Spring Boot 2.0 升级指南

Spring Boot 2.0 升级指南前言 Spring Boot已经发布2.0有5个月多,多了很多新特性,一些坑也慢慢被填上,最近有空,就把项目中Spring Boot 版本做了升级,顺便整理下升级的时候遇到的一些坑,做个记录.后续的教程就以最新的2.03版本为主.参考官方文档翻译在你开始之前 2.x 至少需要 JDK 8 的支持,2.x 里面的许多方法应用了 JDK 8 的许多高级新特性,所以你要升级到 2.0 版本,先确认你的应用必须兼容 JDK 8. 另外,2.x 开始了对 JDK…

TL-WAR1200L V1.0升级软件20170609

TL-WAR1200L_V1.0升级软件20170609.part1.rar TL-WAR1200L_V1.0升级软件20170609.part2.rar TP-LINK WVR&WAR系列路由器升级说明注意事项: 1. 建议使用主流浏览器如IE11.chrome 或者firefox 对路由器进行升级操作. 2. 如果出现页面提示升级失败,请等待5 分钟左右再对路由器进行断电重启. 3. 升级过程不能断电,否则可能会导致路由器损坏. * 软件升级…

Caffe使用： Ubuntu 14.04(x64) 从cuda 7.0 升级到 cuda8.0

由于之前已经在Ubuntu 14.04 x64上面安装cuda7.0+caffe, 并且已经配置好,caffe也已经跑通. 但是最近需要使用Torch,而Torch对cuda的要求是8.0,因此决定对cuda的版本进行升级,以满足Torch平台的需求. 而最新版的caffe也已经支持cuda8.0. 话不多说,开始安装cuda8.0. 1. 电脑配置显卡:GeForce GTX TITAN X 系统:Ubuntu 14.04(x_64) CUDA:cuda_8.0.61_375.26_linu…

FileProvider N 7.0 升级安装APK 选择文件拍照临时权限 MD

Markdown版本笔记我的GitHub首页我的博客我的微信我的邮箱 MyAndroidBlogs baiqiantao baiqiantao bqt20094 baiqiantao@sina.com FileProvider N 7.0 升级安装APK 选择文件拍照临时权限 MD 目录目录问题官方文档的相关描述配置声明 FileProvider配置 resource系统提供的各种文件路径使用案例安装指定路径的apk拍照并指定保存位置问题我们在开发 app 时避免不了需要添加…

[VB6.0-->VB.NET]关于VB6.0升级到VB.NET的微软官方文档

升级流程大体是这样的: 1.用VS2008打开Vb6.0的工程(此时针对语言层面自动升级). 注: VS更新多版了(当前最新VS2017),用最新版再打开2008升级后的工程的时候还是会有自动升级,相对没多大问题. 2.手动修改自动升级后的编译错误.同时注意一些逻辑方面的变化,这些修改是比较麻烦的. 3.有第三方控件的话,针对第三方控件进行代码改修. 4.升级完成,测试,改bug. 在上面这四项之前,如果加一个步骤,就是: 0.预先修改VB6.0的工程,使之更符合新的平台,减少自动升级后需要手动…

Lucene学习之二：Lucene的总体架构

本文转载自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623596.html Lucene总的来说是: 一个高效的,可扩展的,全文检索库. 全部用Java实现,无须配置. 仅支持纯文本文件的索引(Indexing)和搜索(Search). 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程. 在Lucene in action中,Lucene 的构架和过程如下图, 说明Lucene是有索引和搜索的两个过程,包含索…

gazebo 7.0 升级到7.15 参考他人博客

gazebo 7.0 升级到7.14 网址:https://blog.csdn.net/riancy_riancy/article/details/84568322 编译后遇到报错 ,解决问题的网址:https://blog.csdn.net/xihuanzhi1854/article/details/82154502 详细步骤: sudo sh -c 'echo "deb http://packages.osrfoundation.org/gazebo/ubuntu-stable `lsb_r…

zabbbix4.0升级到4.2

一.添加Zabbix存储库 1.安装存储库配置包. rpm -ivh https://repo.zabbix.com/zabbix/4.2/rhel/7/x86_64/zabbix-release-4.2-1.el7.noarch.rpm 2.在将运行Zabbix前端的系统中启用可选rpms的存储库 yum-config-manager --enable rhel-7-server-optional-rpms 3.安装支持MySQL的Zabbix服务 yum install zabbix-ser…

Oracle Study之--Oracle 单实例11.2.0.1.0升级到11.2.0.3.0

Oracle Study之--Oracle 单实例11.2.0.1.0升级到11.2.0.3.0 系统环境: 操作系统:RedHat EL6(64位) Oracle: Oracle 11gR2 Oracle 11.2.0.1 单实例升级到11.2.0.3 Oracle 升级的步骤都差点儿相同,先升级Oracle software,然后升级Oracle instance. Oracle 11.2.0.2的patchset No 是:10098816. 关于该Patchset 的下载地址,參考…

Pytorch 1.0升级到Pytorch 1.1.0

Pytorch 1.0Pytorch 1.0于2018-12-8发布,详见https://github.com/pytorch/pytorch/releases/tag/v1.0.0 主要更新JIT全新的分布式训练包:torch.distributed旧的接口放到了 torch.distributed.deprecated 中C++ 接口 API [尚不稳定]Torch HUB:各种预训练模型集合重点更新众多新特性增加了对 N 维空的 tensor 的支持众多新的 tensor 操作新的分布函数…