Lucene 个人领悟（三）

　　其实接下来就是贴一下代码，熟悉一下Lucene的正常工作流程，或者说怎么使用这个API，更深层次的东西这篇文章不会讲到。

　　上一篇文章也说了maven的配置，只要你电脑联网就可以下载下来。我贴一下代码。

package com.muyi.lucene.mavenlucene.Ltest;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileReader;

import java.nio.file.FileSystems;

import java.util.ArrayList;

import java.util.Date;

import java.util.List;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field.Store;

import org.apache.lucene.document.TextField;

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.usermodel.Range;

import jxl.Cell;

import jxl.Sheet;

import jxl.Workbook;

/**

 * @author xinghl

 *

 */

public class IndexManager2{

    private static IndexManager indexManager;

    private static String content="";

    private static String INDEX_DIR = "D:\\luceneIndex";

    private static String DATA_DIR = "D:\\luceneData";

    private static Analyzer analyzer = null;

    private static Directory directory = null;

    private static IndexWriter indexWriter = null;

    /**

     * 创建索引管理器

     * @return 返回索引管理器对象

     */

    public IndexManager getManager(){

        if(indexManager == null){

            this.indexManager = new IndexManager();

        }

        return indexManager;

    }

    /**

     * 创建当前文件目录的索引

     * @param path 当前文件目录

     * @return 是否成功

     */

    public static boolean createIndex(String path){

        Date date1 = new Date();

        List<File> fileList = getFileList(path);

        for (File file : fileList) {

            content = "";

            //获取文件后缀

            String type = file.getName().substring(file.getName().lastIndexOf(".")+1);

            if("txt".equalsIgnoreCase(type)){

                content += txt2String(file);

                System.out.println("文件名字："+file.getPath()+"文件内容"+content);

            }else if("doc".equalsIgnoreCase(type)){

                content += doc2String(file);

                System.out.println("文件名字："+file.getPath()+"文件内容"+content);

            }else if("xls".equalsIgnoreCase(type)){

                content += xls2String(file);

                System.out.println("文件名字："+file.getPath()+"文件内容"+content);

            }

            try{

                analyzer = new StandardAnalyzer();

                directory = FSDirectory.open(FileSystems.getDefault().getPath(INDEX_DIR));

                File indexFile = new File(INDEX_DIR);

                if (!indexFile.exists()) {

                    indexFile.mkdirs();

                }

                IndexWriterConfig config = new IndexWriterConfig(analyzer);

                indexWriter = new IndexWriter(directory, config);

                indexWriter.deleteAll();// 清除以前的index

                Document document = new Document();

                document.add(new TextField("filename", file.getName(), Store.YES));

                document.add(new TextField("content", content, Store.YES));

                document.add(new TextField("path", file.getPath(), Store.YES));

                indexWriter.addDocument(document);

                indexWriter.commit();

                closeWriter();

            }catch(Exception e){

                e.printStackTrace();

            }

            content = "";

        }

        Date date2 = new Date();

        System.out.println("创建索引-----耗时：" + (date2.getTime() - date1.getTime()) + "ms\n");

        return true;

    }

    /**

     * 读取txt文件的内容

     * @param file 想要读取的文件对象

     * @return 返回文件内容

     */

    public static String txt2String(File file){

        String result = "";

        try{

        	FileReader fileReader = new FileReader(file);

            BufferedReader br = new BufferedReader(fileReader);//构造一个BufferedReader类来读取文件

            String s = null;

            while((s = br.readLine())!=null){//使用readLine方法，一次读一行

                result = result + "\n" +s;

            }

            br.close();

        }catch(Exception e){

            e.printStackTrace();

        }

        return result;

    }

    /**

     * 读取doc文件内容

     * @param file 想要读取的文件对象

     * @return 返回文件内容

     */

    public static String doc2String(File file){

        String result = "";

        try{

            FileInputStream fis = new FileInputStream(file);

            HWPFDocument doc = new HWPFDocument(fis);

            Range rang = doc.getRange();

            result += rang.text();

            fis.close();

        }catch(Exception e){

            e.printStackTrace();

        }

        return result;

    }

    /**

     * 读取xls文件内容

     * @param file 想要读取的文件对象

     * @return 返回文件内容

     */

    public static String xls2String(File file){

        String result = "";

        try{

            FileInputStream fis = new FileInputStream(file);

            StringBuilder sb = new StringBuilder();

            jxl.Workbook rwb = Workbook.getWorkbook(fis);

            Sheet[] sheet = rwb.getSheets();

            for (int i = 0; i < sheet.length; i++) {

                Sheet rs = rwb.getSheet(i);

                for (int j = 0; j < rs.getRows(); j++) {

                   Cell[] cells = rs.getRow(j);

                   for(int k=0;k<cells.length;k++)

                   sb.append(cells[k].getContents());

                }

            }

            fis.close();

            result += sb.toString();

        }catch(Exception e){

            e.printStackTrace();

        }

        return result;

    }

    /**

     * 查找索引，返回符合条件的文件

     * @param text 查找的字符串

     * @return 符合条件的文件List

     */

    public static void searchIndex(String text){

        Date date1 = new Date();

        try{

            directory = FSDirectory.open(FileSystems.getDefault().getPath("D:\\luceneIndex"));

            analyzer = new StandardAnalyzer();

            DirectoryReader ireader = DirectoryReader.open(directory);

            IndexSearcher isearcher = new IndexSearcher(ireader);

            QueryParser parser = new QueryParser("content", analyzer);

            Query query = parser.parse(text);

            TopDocs topDocs = isearcher.search(query, 1000);

            System.out.println(topDocs.totalHits);

            ScoreDoc[] scoreDocs = topDocs.scoreDocs;

            System.out.println("--------------------查找结果-----------------------");

            for (ScoreDoc scoreDoc : scoreDocs) {  

                // 7、根据searcher和ScoreDoc对象获取具体的Document对象

                Document document = isearcher.doc(scoreDoc.doc);  

                // 8、根据Document对象获取需要的值  

                System.out.println(document.get("filename") + document.get("content") + " " + document.get("path"));

            }

            System.out.println("--------------------查找结果-----------------------");

            ireader.close();

            directory.close();

        }catch(Exception e){

            e.printStackTrace();

        }

        Date date2 = new Date();

        System.out.println("查看索引-----耗时：" + (date2.getTime() - date1.getTime()) + "ms\n");

    }

    /**

     * 过滤目录下的文件

     * @param dirPath 想要获取文件的目录

     * @return 返回文件list

     */

    public static List<File> getFileList(String dirPath) {

        File[] files = new File(dirPath).listFiles();

        List<File> fileList = new ArrayList<File>();

        for (File file : files) {

            if (isTxtFile(file.getName())) {

                fileList.add(file);

            }

        }

        return fileList;

    }

    /**

     * 判断是否为目标文件，目前支持txt xls doc格式

     * @param fileName 文件名称

     * @return 如果是文件类型满足过滤条件，返回true；否则返回false

     */

    public static boolean isTxtFile(String fileName) {

        if (fileName.lastIndexOf(".txt") > 0) {

            return true;

        }else if (fileName.lastIndexOf(".xls") > 0) {

            return true;

        }else if (fileName.lastIndexOf(".doc") > 0) {

            return true;

        }

        return false;

    }

    public static void closeWriter() throws Exception {

        if (indexWriter != null) {

            indexWriter.close();

        }

    }

    /**

     * 删除文件目录下的所有文件

     * @param file 要删除的文件目录

     * @return 如果成功，返回true.

     */

    public static boolean deleteDir(File file){

        if(file.isDirectory()){

            File[] files = file.listFiles();

            for(int i=0; i<files.length; i++){

                deleteDir(files[i]);

            }

        }

        file.delete();

        return true;

    }

    public static void main(String[] args){

    	Date date1 = new Date();

        File fileIndex = new File(INDEX_DIR);

        if(deleteDir(fileIndex)){

            fileIndex.mkdir();

        }else{

            fileIndex.mkdir();

        }

        createIndex(DATA_DIR);

        searchIndex("黑山洞");

        Date date2 = new Date();

        System.out.println("执行耗时：" + (date2.getTime() - date1.getTime()) + "ms\n");

    }

}

其实就是这几部，建立阅读器--建立索引--查找索引--获得结果--输出结果。

大概就是这些流程。Lucene先到此为止。我突然想学一些其他东西。

Lucene 个人领悟（三）的更多相关文章

Lucene 个人领悟（二）
想了想,还是继续写吧,因为,太无聊了,媳妇儿也还有半个小时才下班. 前面拖拖拉拉用了三篇文章来做铺垫,这一篇开始正经搞了啊. 首先,我要加几个链接 http://www.cnblogs.com/xin ...
Lucene 个人领悟（一）
在上学的时候就对搜索有着极大地兴趣,图书馆也借了好多的书看过,也用过Python写过爬虫. 有好多人在初步学习Lucene的时候都以为他是一个搜索引擎,或者搜索工具. 在此我要特别强调一下,Lucen ...
Lucene基础（三）-- 中文分词及高亮显示
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按 ...
Lucene学习之一：使用lucene为数据库表创建索引，并按关键字查询
最近项目中要用到模糊查询,开始研究lucene,期间走了好多弯路,总算实现了一个简单的demo. 使用的lucene jar包是3.6版本. 一:建立数据库表,并加上测试数据.数据库表:UserInf ...
Lucene 工作原理之倒排索引
1.简介倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排 ...
lucene.net 3.0.3、结合盘古分词进行搜索的小例子(转)
lucene.net 3.0.3.结合盘古分词进行搜索的小例子(分页功能) 添加:2013-12-25 更新:2013-12-26 新增分页功能. 更新:2013-12-27 新增按分类查询功能, ...
Lucene工作原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构.该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I l ...
[转载] Lucene 工作原理
转载自http://www.cnblogs.com/dewin/archive/2009/11/24/1609905.html Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引 ...
Lucene 4.4.0中常用的几个分词器
一.WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理.很明显这个实用英文,单词之间用空格. 二.SimpleAnalyzer 以非字母符来分割文本信息,并将语汇 ...

随机推荐

前端 HTML 标签嵌套规则
标签嵌套规则块元素可以包含内联元素或某些块元素,但内联元素却不能包含块元素,它只能包含其它的内联元素,例如: <div><div></div><h1> ...
Dockerfile语法解析
Dockfile介绍从上到下依次执行每次执行一条指令就创建一个镜像层第一条指令必须是FROM 表示需要构建的镜像是由哪个镜像为基础镜像后续的指令运行于此基准镜像所提供的运行环境可以 ...
Windows下用户变量和系统变量
环境变量分为用户变量和系统变量. 系统变量,对所有用户起作用;而用户环境变量只对当前用户起作用. 例如你要用java,那么你把java的bin目录加入到path变量下面,那么它就是系统环境变量,所用用 ...
（转）Docker镜像构建上下文（Context）
镜像构建上下文(Context) Docker在构建镜像时,如果注意,会看到 docker build 命令最后有一个 ... 表示当前目录,而 Dockerfile 就在当前目录,因此不少初学者以为 ...
DLNg序列模型第一周
1.为何选择序列模型? 给出上面一些序列数据的例子,真的很神奇,语音识别.音乐生成.情感分类.DNS序列分析.机器翻译.视频活动检测.命名实体识别. 2.数字符号对于输入序列x,进行人名识别,输出中 ...
8款不错的 CI/CD工具
Jenkins Jenkins是CI市场中最知名且最常见的名号之一.其最初是由Sun公司的一位工程师打造的一个辅助项目,并迅速扩展为最大的开源CI工具之一,可帮助工程团队实现自动化部署.顺带一提:我们 ...
mac-禅道环境
开机不能访问,换成IP地址就好了
Ubuntu16.04源的问题
今天执行下列语句 sudo apt-get update报错安装redis时 sudo apt-get install redis-server报错报错内容大致如下: 在网上查了一下是源的问题,我 ...
pd.concat/merge/join
pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:pd.merge, pd.join 一.回顾numpy.concatenate 生成1个6*3的矩阵,一个2*3的矩 ...
ionic环境配置
1.现在 npm install -g ionic 直接安装ionic2版本.用ionic1版本开发,用 npm install -g ionic@1.6. 2.第一次输入: ionic serve ...

Lucene 个人领悟 （三）

Lucene 个人领悟 （三）的更多相关文章

随机推荐

热门专题

Lucene 个人领悟（三）

Lucene 个人领悟（三）的更多相关文章