Lucene.net

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算法进行切词，分词后的结果存储在索引库中，从索引库检索数据的速度非常快。Lucene.net需要有索引库，并且只能进行站内搜索。（来自百度百科）

效果图

盘古分词

如何使用

将PanGu.dIl与PanGu.Lucenet.Analyzer. dl并加入到项目中

将Dict文件，拷贝到项目Bin文件夹里面

字典文件夹下载：https://pan.baidu.com/s/1HNiLp6bCcodN8vqlck066g 提取码: xydc

测试

可以看到，盘古分词相对Lucene.net自带的一元分词来说，是比较好的，因为一元分词不适合进行中文检索。

一元分词是按字拆分的，比如上面一句话，使用一元分词拆分的结果是："有","一","种","方","言","叫","做","不","老","盖","儿"。如果查找“方言”这个词，是找不到查询结果的。不符合我们的检索习惯，所以基本不使用。

拓展

上面的"不老盖儿"（河南方言），这里想组成一个词，那么需要创建"不老盖儿"词组并添加到字典里面。

使用DictManage工具：https://pan.baidu.com/s/1Yla2DBM74kSbno8cg5kvGw 提取码：tphe

解压，运行 DictManage.exe

然后打开 Dict 文件下的 Dict.dct 文件，并添加"不老盖儿"词组

然后查找就可以看到"不老盖儿"词组

然后保存覆盖原有的 Dict.dct 文件

刷新页面或者重新打开页面看下效果

Demo文件说明

简单实现

创建索引核心代码

        /// <summary>

        /// 创建索引

        /// </summary>

        /// <returns></returns>

        [HttpGet]

        [Route("createIndex")]

        public string CreateIndex()

        {

            //索引保存位置

            var indexPath = Directory.GetCurrentDirectory() + "/Index";

            if (!Directory.Exists(indexPath)) Directory.CreateDirectory(indexPath);

            FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NativeFSLockFactory());

            if (IndexWriter.IsLocked(directory))

            {

                //  如果索引目录被锁定（比如索引过程中程序异常退出），则首先解锁

                //  Lucene.Net在写索引库之前会自动加锁，在close的时候会自动解锁

                IndexWriter.Unlock(directory);

            }

            //Lucene的index模块主要负责索引的创建

            //  创建向索引库写操作对象  IndexWriter(索引目录,指定使用盘古分词进行切词,最大写入长度限制)

            //  补充:使用IndexWriter打开directory时会自动对索引库文件上锁

            //IndexWriter构造函数中第一个参数指定索引文件存储位置；

            //第二个参数指定分词Analyzer，Analyzer有多个子类，

            //然而其分词效果并不好，这里使用的是第三方开源分词工具盘古分词；

            //第三个参数表示是否重新创建索引，true表示重新创建（删除之前的索引文件），

            //最后一个参数指定Field的最大数目。

            IndexWriter writer = new IndexWriter(directory, new PanGuAnalyzer(), true,

                IndexWriter.MaxFieldLength.UNLIMITED);

            var txtPath = Directory.GetCurrentDirectory() + "/Upload/Articles";

            for (int i = ; i <= ; i++)

            {

                //  一条Document相当于一条记录

                Document document = new Document();

                var title = "天骄战纪_" + i + ".txt";

                var content = System.IO.File.ReadAllText(txtPath + "/" + title, Encoding.Default);

                //  每个Document可以有自己的属性（字段），所有字段名都是自定义的，值都是string类型

                //  Field.Store.YES不仅要对文章进行分词记录，也要保存原文，就不用去数据库里查一次了

                document.Add(new Field("Title", "天骄战纪_" + i, Field.Store.YES, Field.Index.NOT_ANALYZED));

                //  需要进行全文检索的字段加 Field.Index. ANALYZED

                //  Field.Index.ANALYZED:指定文章内容按照分词后结果保存，否则无法实现后续的模糊查询

                //  WITH_POSITIONS_OFFSETS:指示不仅保存分割后的词，还保存词之间的距离

                document.Add(new Field("Content", content, Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS));

                writer.AddDocument(document);

            }

            writer.Close(); // Close后自动对索引库文件解锁

            directory.Close(); //  不要忘了Close，否则索引结果搜不到

            return "索引创建完毕";

        }

搜索代码

        /// <summary>

        /// 搜索

        /// </summary>

        /// <returns></returns>

        [HttpGet]

        [Route("search")]

        public object Search(string keyWord, int pageIndex, int pageSize)

        {

            Stopwatch stopwatch = new Stopwatch();

            stopwatch.Start();

            string indexPath = Directory.GetCurrentDirectory() + "/Index";

            FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NoLockFactory());

            IndexReader reader = IndexReader.Open(directory, true);

            //创建IndexSearcher准备进行搜索。

            IndexSearcher searcher = new IndexSearcher(reader);

            // 查询条件

            keyWord = GetKeyWordsSplitBySpace(keyWord, new PanGuTokenizer());

            //创建QueryParser查询解析器。用来对查询语句进行语法分析。

            //QueryParser调用parser进行语法分析，形成查询语法树，放到Query中。

            QueryParser msgQueryParser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "Content", new PanGuAnalyzer(true));

            Query msgQuery = msgQueryParser.Parse(keyWord);

            //TopScoreDocCollector:盛放查询结果的容器

            //numHits 获取条数

            TopScoreDocCollector collector = TopScoreDocCollector.create(, true);

            //IndexSearcher调用search对查询语法树Query进行搜索，得到结果TopScoreDocCollector。

            // 使用query这个查询条件进行搜索，搜索结果放入collector

            searcher.Search(msgQuery, null, collector);

            // 从查询结果中取出第n条到第m条的数据

            ScoreDoc[] docs = collector.TopDocs(, ).scoreDocs;

            stopwatch.Stop();

            // 遍历查询结果

            List<ReturnModel> resultList = new List<ReturnModel>();

            var pm = new Page<ReturnModel>

            {

                PageIndex = pageIndex,

                PageSize = pageSize,

                TotalRows = docs.Length

            };

            pm.TotalPages = pm.TotalRows / pageSize;

            if (pm.TotalRows % pageSize != ) pm.TotalPages++;

            for (int i = (pageIndex - ) * pageSize; i < pageIndex * pageSize && i < docs.Length; i++)

            {

                var doc = searcher.Doc(docs[i].doc);

                var content = HighlightHelper.HighLight(keyWord, doc.Get("Content"));

                var result = new ReturnModel

                {

                    Title = doc.Get("Title"),

                    Content = content,

                    Count = Regex.Matches(content, "<font").Count

                };

                resultList.Add(result);

            }

            pm.LsList = resultList;

            var elapsedTime = stopwatch.ElapsedMilliseconds + "ms";

            var list = new { list = pm, ms = elapsedTime };

            return list;

        }

盘古分词

        /// <summary>

        /// 盘古分词

        /// </summary>

        /// <param name="words"></param>

        /// <returns></returns>

        public static object PanGu(string words)

        {

            Analyzer analyzer = new PanGuAnalyzer();

            TokenStream tokenStream = analyzer.TokenStream("", new StringReader(words));

            Lucene.Net.Analysis.Token token = null;

            var str = "";

            while ((token = tokenStream.Next()) != null)

            {

                string word = token.TermText(); // token.TermText() 取得当前分词

                str += word + "   |  ";

            }

            return str;

        }

搜索结果高亮显示

        /// <summary>

        /// 搜索结果高亮显示

        /// </summary>

        /// <param name="keyword"> 关键字 </param>

        /// <param name="content"> 搜索结果 </param>

        /// <returns> 高亮后结果 </returns>

        public static string HighLight(string keyword, string content)

        {

            // SimpleHTMLFormatter：这个类是一个HTML的格式类，构造函数有两个，一个是开始标签，一个是结束标签。

            SimpleHTMLFormatter simpleHTMLFormatter =

                new SimpleHTMLFormatter("<font style=\"color:red;" +

                                        "font-family:'Cambria'\"><b>", "</b></font>");

            // 创建 Highlighter ，输入HTMLFormatter 和 盘古分词对象Semgent

            Highlighter highlighter =

                new Highlighter(simpleHTMLFormatter,

                    new Segment());

            // 设置每个摘要段的字符数

            highlighter.FragmentSize = int.MaxValue;

            // 获取最匹配的摘要段

            var str = highlighter.GetBestFragment(keyword, content);

            return str;

        }

对关键字进行盘古分词处理

        /// <summary>

        /// 对关键字进行盘古分词处理

        /// </summary>

        /// <param name="keywords"></param>

        /// <param name="ktTokenizer"></param>

        /// <returns></returns>

        private static string GetKeyWordsSplitBySpace(string keywords, PanGuTokenizer ktTokenizer)

        {

            StringBuilder result = new StringBuilder();

            ICollection<WordInfo> words = ktTokenizer.SegmentToWordInfos(keywords);

            foreach (WordInfo word in words)

            {

                if (word == null)

                {

                    continue;

                }

                result.AppendFormat("{0}^{1}.0 ", word.Word, (int)Math.Pow(, word.Rank));

            }

            return result.ToString().Trim();

        }

Github：https://github.com/tenghao6/Lucene-PanGu

Net Core使用Lucene.Net和盘古分词器实现全文检索的更多相关文章

【原创】Lucene.Net+盘古分词器(详细介绍)
本章阅读概要 1.Lucenne.Net简介 2.介绍盘古分词器 3.Lucene.Net实例分析 4.结束语(Demo下载) Lucene.Net简介 Lucene.net是Lucene的.net移 ...
Lucene.Net+盘古分词器(详细介绍)(转)
出处:http://www.cnblogs.com/magicchaiy/archive/2013/06/07/LuceneNet%E7%9B%98%E5%8F%A4%E5%88%86%E8%AF%8 ...
Lucene.Net3.0.3+盘古分词器学习使用
一.Lucene.Net介绍 Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索 ...
Lucene.Net+盘古分词器(详细介绍)
本章阅读概要1.Lucenne.Net简介2.介绍盘古分词器3.Lucene.Net实例分析4.结束语(Demo下载)Lucene.Net简介 Lucene.net是Lucene的.net移植版本,是 ...
Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
Lucene.Net和盘古分词应用
Lucene.Net.dll:用做全文索引 PanGu.dll(盘古分词):作为中文分词的条件大致原理: 1.Lucene先根据PanGu将需要搜索的内容分隔.分词,然后根据分词的结果,做一个索引页 ...
Lucene.Net 与盘古分词
1.关键的一点,Lucene.Net要使用3.0下面的版本号,否则与盘古分词接口不一致. 关键代码例如以下 using System; using System.IO; using System.Co ...
lucene定义自己的分词器将其分成单个字符
问题描写叙述:将一句话拆分成单个字符.而且去掉空格. package com.mylucene; import java.io.IOException; import java.io.Reader; ...
Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）
注意:基于lucene5.5.x版本一.简单介绍下IK Analyzer IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2 ...

随机推荐

认识Git与GitHub
Git介绍 Git是一个开源的分布式版本控制系统,用以有效.高速的处理从很小到非常大的项目版本管理.相比CVS.SVN等版本控制工具,Git更加优秀,功能也更加强大.但是相对也难学. 使用Git来管理 ...
python学习方法
python学习体系 python相关书籍若干本了解python基础数据类型熟悉各种类型的操作方法理解函数与类的概念练习练习再练习前期以被动学习为主,把每个知识点都认真的学过去,后期慢慢再把 ...
网络最大流(EK)
以前在oi中见到网络流的题都是直接跳过,由于本蒟蒻的理解能力太弱,导致网络流的学习不断推迟甚至被安排在了tarjan之后,原本计划于学习完最短路后就来学网络流的想法也随之破灭,在看完众多大佬的博客后 ...
python 内置模块之ConfigParser--配置读写
用于对特定的配置进行操作,当前模块的名称在 python 3.x 版本中变更为 configparser. #配置文件test.cfg [section1] k1 = v1 k2 :v2 k3 = 1 ...
Yandex Big Data Essentials Week1 Unix Command Line Interface File System exploration
File System Function In computing, a file system or filesystem is used to control how data is stored ...
finalize的用法
public class GC { public static GC SAVE_HOOK = null; public static void main(Strin ...
backgroud图片充满元素的方法
background-image: url("img/headimg.png"); height: 219px; background-size: 100% 100%; backg ...
服务器字体导致NPE
服务器字体问题服务器在windows下运行正常. 搬到Linux之后,注册页有个404??? HTTP Status 500 – Internal Server Error Type 异常报告消息 ...
了解JavaScript的语法基础，值和变量
通过JavaScript语法基础学习了解到1.怎么使用js/*通常js的引入和css一样,分为内部,外部和行内引入,执行自上而下,有着先后顺序*/:2.js的语法/*2.1js是用字母,数字.特殊字符 ...
SAP MM 采购订单与相关合同的价格差异问题分析
SAP MM 采购订单与相关合同的价格差异问题分析笔者所在的项目里,一般生产性物料PO的价格是来自于合同价格的,而合同的价格来自于采购信息记录的价格,业务部门不允许PO里随便改价格的. 但是业务部门 ...

Net Core使用Lucene.Net和盘古分词器 实现全文检索

Lucene.net

效果图

盘古分词

如何使用

测试

拓展

Demo文件说明

简单实现

创建索引核心代码

搜索代码

盘古分词

搜索结果高亮显示

对关键字进行盘古分词处理

Net Core使用Lucene.Net和盘古分词器 实现全文检索的更多相关文章

随机推荐

热门专题

Net Core使用Lucene.Net和盘古分词器实现全文检索

Net Core使用Lucene.Net和盘古分词器实现全文检索的更多相关文章