时间:

2015/3/18

杨鑫newlife



对于文档的预处理后。就要開始使用Lucene来处理相关的内容了。

这里使用的Lucene的过程例如以下:

首先要为处理对象机那里索引

二是构建查询对象

三是在索引中查找

这里的代码是处理创建索引的部分

代码:

package ch2.lucenedemo.process;





import java.io.BufferedReader;

import java.io.File;

import java.io.FileReader;

import java.io.IOException;





import jeasy.analysis.MMAnalyzer;





import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.Field.Index;

import org.apache.lucene.index.IndexWriter;

public class IndexProcessor {

//成员变量。存储创建的索引文件存放的位置

private String INDEX_STORE_PATH = "E:\\Lucene项目\\索引文件夹";



//创建索引

public void createIndex(String inputDir){

try

{

System.out.println("程序開始执行。正在创建索引->->->->->");

IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new MMAnalyzer(), true);



File filesDir = new File(inputDir);



//取得全部须要建立索引的文件数组

File[] files = filesDir.listFiles();



//遍历数组

for(int i = 0; i < files.length; i++){



//获取文件名称

String fileName = files[i].getName(); 



//推断文件是否为txt类型的文件

if(fileName.substring(fileName.lastIndexOf(".")).equals(".txt")){



//创建一个新的Document

Document doc = new Document();

System.out.println("正在为文件名称创建索引->->->->");

//为文件名称创建一个Field

Field field = new Field("filename", files[i].getName(), Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field);

System.out.println("正在为文件内容创建索引->->->->");

//为文件内容创建一个Field

field = new Field("content", loadFileToString(files[i]), Field.Store.NO, Field.Index.TOKENIZED);

doc.add(field);



//把Document增加到IndexWriter

writer.addDocument(doc);



}



}

writer.close();

System.out.println("程序创建结束->->->->");

}catch(Exception e){

e.printStackTrace();

}



}



/*

* 从文件里把内容读取出来,全部的内容就放在一个String中返回

* */

public String loadFileToString(File file){

try{

BufferedReader br = new BufferedReader(new FileReader(file));

StringBuffer sb = new StringBuffer();

String line= br.readLine();

while(line != null){

sb.append(line);

line = br.readLine();

}

br.close();

return sb.toString();

}catch(IOException e){

e.printStackTrace();

return null;

}

}



public static void main(String[] args){

IndexProcessor ip = new IndexProcessor();

ip.createIndex("E:\\Lucene项目\\目标文件");



}



}

使用Lucene对预处理后的文档进行创建索引(可执行)的更多相关文章

  1. lucene全文搜索之三:生成索引字段,创建索引文档(给索引字段加权)基于lucene5.5.3

    前言:上一章中我们已经实现了索引器的创建,但是我们没有索引文档,本章将会讲解如何生成字段.创建索引文档,给字段加权以及保存文档到索引器目录 luncene5.5.3集合jar包下载地址:http:// ...

  2. ELK学习总结(2-4)bulk 批量操作-实现多个文档的创建、索引、更新和删除

    bulk 批量操作-实现多个文档的创建.索引.更新和删除 ----------------------------------------------------------------------- ...

  3. [翻译] DTCoreText 从HTML文档中创建富文本

    DTCoreText 从HTML文档中创建富文本 https://github.com/Cocoanetics/DTCoreText 注意哦亲,DTRichTextEditor 这个组件是收费的,不贵 ...

  4. es删除文档或者删除索引

    es删除文档或者删除索引 学习了:https://www.imooc.com/video/15771 删除文档: DELETE http://127.0.0.1:9200/people/man/1 删 ...

  5. js 文档加载完成之后执行 备用

    //文档加载完成之后执行 (function(){ var _globeCallback; window.$$ = function(callback){ _globeCallback = callb ...

  6. MongoDB 大数据技术之mongodb中在嵌套子文档的文档上面建立索引

    一.给collection objectid赋自定义的值 MongoDB Enterprise > db.testid.insert({_id:{imsi:"4567890123&qu ...

  7. matlab2018a安装后帮助文档打不开解决方法

    安装matlab2018a破解版后,帮助文档提示需要许可证问题(破解版没有可用许可证): 解决方法是把文档设置为离线即可(预设---->帮助---->安装在本地---->小窗口)

  8. 微信小程序API 文档快速参考索引

    内容那么多,这个页面到底做了什么? 第一:解决微信文档APi文档使用不便: 第二:解决了内容搜索与索引:—— 最好是写成全文索引文档,但是比较需要时间,而且更新是一件麻烦的事:所以以下是直接 连接官网 ...

  9. Linux命令学习之路——文档连接创建:ln

    使用权限:所有角色 使用方式:ln [ -options ] source target 作用:建立源文件与目标文件之间的连接 注意点: 1.连接分为硬连接和软连接,其中硬连接不能对目录做硬连接,且不 ...

随机推荐

  1. ROS-URDF-活动关节

    前言:介绍活动关节,并使机器人活动起来. 参考自:http://wiki.ros.org/urdf/Tutorials/Building%20a%20Movable%20Robot%20Model%2 ...

  2. Spring Cloud (3) 服务消费者-Ribbon

    在上一篇中使用LoadBalancerClient接口实现了获取某个服务的具体实例,并根据实例信息发起服务接口消费请求.但是这样的做法需要我们手工的区编写服务选取.连接拼接等繁琐的工作,对于开发人员来 ...

  3. Hibernate多表映射(三)

    一对多|多对一 一个分类对应多个商品,一个商品只属于一个分类 创建分类表 products用set装,set特点值不能够重复 package com.hibernate.domain; import ...

  4. 解决Latex复制到公众号可能报“图片粘贴失败”的问题

    前几天出了个版本,还发了篇“Md2All,让公众号完美显示Latex数学公式”的文章,发完后,心里还是不太爽的,因为那个版本还是遗留了一个问题:当把Latex公式转换为本地图片,再复制到公众号时,有可 ...

  5. js 字符串 处理方法

    charAt() 返回指定索引位置的字符 charCodeAt() 返回指定索引位置字符的 Unicode 值 concat() 连接两个或多个字符串,返回连接后的字符串 fromCharCode() ...

  6. SAP computer之input and MAR

    Input and MAR Below the program counter is the input and MAR block. It includes the address and data ...

  7. 《Linux程序设计》笔记(一)入门

    1. 头文件 使用-I标志来包含头文件. gcc -I/usr/openwin/include fred.c 2. 库文件 通过给出 完整的库文件路径名 或 用-l标志 来告诉编译器要搜索的库文件. ...

  8. 安卓系统使用摄像头API

    原文链接:定制自己的安卓Camera        参考链接:http://blog.csdn.net/tankai19880619/article/details/9075839           ...

  9. 【汇编】MASM6.15几个简单的汇编程序

    /***************通过调用(INT 21H)表中的01h号功能号从键盘输入一个字符并回显到视频显示器上*****************/ DATAS SEGMENT ;此处输入数据段代 ...

  10. 不能访问windows installer 服务,可能你在安全模式下运行 windows ,或者windows installer

    windows installer服务解决方案 很多朋友在安装MSI格式的文件包时,经常会遇到windows installer出错的情况,有如下几种现象: 1.所有使用windows install ...