solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）

首先，不知道大家在前面的例子中没有试着搜索文本串，就是在第二节，我们添加了很多文档。如果字段值是一个文本。你如果只搜索这个字段的某个单词，是不是发现搜不到？

这就是因为我们没有配置Analyzer，因此在搜索的时候会“全匹配”。可以从直观感觉上理解为SQL的 like和= 的区别。

通过前面这段引文，我们就能知道：Analyzer就是分析我们的文本的。

一般来说：solr.TextField类型的字段才需要分析器。

最简单的配置分析器的如下：

<fieldType name="nametext" class="solr.TextField">
<analyzer class="org.apache.lucene.analysis.WhitespaceAnalyzer"/>
</fieldType>

其实分析器（Analyzer）还可以包括一个分词器(Tokenizer)和多个过滤器(filter)，这2个东西，是为了实现更复杂的场景，我们后续再讲。

分析器一般出现在2个环境：建索引（index）和查询（query），大多数情况下这2个场景的分析过程都是一样，也就是说用的是相同的分析器。但是，你仍然可以为2个不同的阶段指字不同的分析器：

<fieldType name="nametext" class="solr.TextField">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.KeepWordFilterFactory" words="keepwords.txt"/>
<filter class="solr.SynonymFilterFactory" synonyms="syns.txt"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

同过 type来指阶段。

Tokenizer：

分词器，从字面意思都可以理解，就是将句子拆成一个个的词（或者是词组），比如A B C D,可以拆成A,B,C,D4个单独的单词，也有可能拆成AB,CD 或者其它。。。。这个就看你分词规则了。

使用如下：

<fieldType name="text" class="solr.TextField">
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>
</fieldType>

值得注意的是：这里配的class是Factory，而不是真正的分词器，他是通过工厂类来创建分词器实例的。所有的工厂类，必须实现org.apache.solr.analysis.TokenizerFactory

工厂的产出物，也必须派生至：org.apache.lucene.analysis.TokenStream

Filter：

就是经过Tokenizer分词之后，再再行的继续处理，比如全转成小写，时态处理，去掉语气词等。。。

solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）的更多相关文章

Elasticsearch Analyzer 内置分词器
Elasticsearch Analyzer 内置分词器篇主要介绍一下 Elasticsearch中 Analyzer 分词器的构成和一些Es中内置的分词器以及如何使用它们前置知识 es 提供 ...
solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...
Es学习第五课，分词器介绍和中文分词器配置
上课我们介绍了倒排索引,在里面提到了分词的概念,分词器就是用来分词的. 分词器是ES中专门处理分词的组件,英文为Analyzer,定义为:从一串文本中切分出一个一个的词条,并对每个词条进行标准化.它由 ...
【solr】solr5.0整合中文分词器
1.solr自带的分词器远远满足不了中文分词的需求,经查使用最多的分词器是solr是mmseg4j分词器,具体整合大家可以参考 https://github.com/zhuomingliang/mms ...
solr学习笔记-增加mmesg4J中文分词
solr版本6.1.centos6.7.mmesg4j版本2.30 solr安装目录:/usr/local/solr-6.1.0 1.下载mmesg4j包: 地址:https://github.com ...
Solr 安装与集成IK中文分词器
创建wangchuanfu core 1. 在example目录下创建wangchuanfu-solr文件夹: 2. 将./solr下的solr.xml拷贝到wangchuanfu-solr目录下 ...
solr 7.7.0配置中文分词器的数据类型
<dynamicField name="*_is" type="pints" indexed="true" stored=" ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...

随机推荐

使用git bush 生成github SSH公钥
1 如果没有安装ssh,那么使用下面的指令 sudo apt-get install ssh 2 检查SSH公钥 cd ~/.ssh 看看存不存在.ssh,如果存在的话,掠过下一步:不存在的请看下一步 ...
读underscore
最近在拜读只有1700行(含注释)代码的Underscore.js 1.9.1,记录一些东西 (参考https://underscorejs.org/underscore.js,https://git ...
MySQL —— 基本查询方法
MySQL —— 简单查询与按条件查询在MySQL中从数据表中查询数据的基本语句时select语句. select语句基本语法格式: select 查询内容 from 表名 ...
Linux命令详解-echo
echo会将输入的字符串送往标准输出.输出的字符串间以空白字符隔开,并在最后加上换行号. 1．命令格式: file [ -bchikLnNprsvz ] [ -f namefile ] [ -F se ...
hdu2516斐波那契博弈
刚开始想用sg函数做,想了半天没一点思路啊. 原来这是一个新题型,斐波那契博弈斐波那契博弈模型:有一堆个数为 n 的石子,游戏双方轮流取石子,满足:1. 先手不能在第一次把所有的石子取完:2. 之后 ...
Meteor.js异步全解
翻译来源: http://phucnguyen.info/blog/everything-you-need-to-know-about-async-meteor/ posted in Web Deve ...
openfalcon源码分析之graph
openfalcon源码分析之graph 本节内容 graph功能 graph源码分析 2.1 graph中重要的数据结构 2.2 graph的简要流程图 2.3 graph处理数据过程 2.4 gr ...
趣谈StateServer在Web Garden，Web Farm下的使用
上一篇翻译的博客[译文]漫谈ASP.NET中的Session已经介绍了Session的基础知识,如果看过了的话对Session应该有了一个比较清晰的认识了,现在我来谈谈我所遇到的困境以及对Sessio ...
vue.js 源代码学习笔记 ----- decoder
/* @flow */ let decoder export function decode (html: string): string { decoder = decoder || documen ...
Linux:自动获取静态IP地址,清空iptable,修改selinux脚本
自动获取静态IP地址,清空iptable,修改selinux脚本环境:VMware 平台:centos6.8全新功能: 1)应用ifconfig -a,route -n,cat /etc/reso ...

solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）

solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）的更多相关文章

随机推荐

热门专题