有些时候,我们需要自定义 fieldType。下面的例子就是自定义的 fieldType,<analyzer type="index"> 表示索引时怎么处理,<analyzer type="query">表示查询时怎么处理。

  1. <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
  2. <analyzer type="index">
  3. <tokenizer class="solr.StandardTokenizerFactory"/>
  4. <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  5. <!-- 本例中,我们只在查询时应用同义词
  6. <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
  7. -->
  8. <filter class="solr.LowerCaseFilterFactory"/>
  9. </analyzer>
  10. <analyzer type="query">
  11. <tokenizer class="solr.StandardTokenizerFactory"/>
  12. <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  13. <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
  14. <filter class="solr.LowerCaseFilterFactory"/>
  15. </analyzer>
  16. </fieldType>

tokenizer: 对输入流进行分词。这里的“solr.” 代表:org.apache.solr.analysis. 这个包

filter: 对tokenizer输出的每一个分词,进行处理。

Tokenizer

1. solr.StandardTokenizerFactory

把文本用空格和标点符号分割。对于小数点(.),如果后面不是空格的话,将会被保留。如网址。连字符(-)的两边会被分割成两个分词(token)。

参数:maxTokenLength  分词的最大长度,超出部分将被忽略。

example:

  1. <analyzer>
  2. <tokenizer class="solr.StandardTokenizerFactory" maxTokenLength="100"/>
  3. </analyzer>

输入:   Please email john.doe@foo.com by 03-09, re: m37-xq.

输出:   "Please", "email", "john.doe", "foo.com", "by", "03", "09", "re", "m37", "xq"

2. solr.ClassicTokenizerFactory

跟StardardTokenizerFactory差不多,不同点如下:

(1)连字符(-)两边如果有数字的话,将不会被拆分。

(2)能识别邮件地址

参数:maxTokenLength  分词的最大长度,超出部分将被忽略。

示例:

输入:   Please email john.doe@foo.com by 03-09, re: m37-xq.

输出:   "Please", "email", "john.doe@foo.com", "by", "03-09", "re", "m37-xq"

3. solr.KeywordTokenizerFactory

整个文本做为一个分词。

示例:

输入:   Please email john.doe@foo.com by 03-09, re: m37-xq.

输出:   “Please email john.doe@foo.com by 03-09, re: m37-xq"

4. solr.LetterTokenizerFactory

连续的字母做为一个分词。

示例:

输入:   I can't.

输出:   “I", "can", "t"

5. solr.LowerCaseTokenizerFactory

按非字母进行分词,并转化成小写。

示例:

输入:   I LOVE my iPhone.

输出:   “I", "love", "my", "iphone"

6. solr.NGramTokenizerFactory

对文本按照 n-Gram 进行分词。

参数:minGramSize (default 1) -- 必须 > 0

maxGramSize (default 2) -- 必须 >= minGramSize

示例:

输入:   hey man

输出:   “h", "e", "y", " ", “m", "a", "n", "he", “ey", "y ", " m", "ma", "an"

7. solr.EdgeNGramTokenizerFactory

对文本按照 n-Gram 进行分词。

参数:minGramSize (default 1) -- 必须 > 0

maxGramSize (default 1) -- 必须 >= minGramSize

side (default "front") -- "front" or "back"

示例:

输入:   babaloo

输出(default):   “b"

输出(minGramSize=2, maxGramSize=5):"ba", "bab", "baba", "babal"

8. solr.ICUTokenizerFactory

对多语言文本,基于其语言特性,进行恰当地分词。

参数:rulefile-- 此值的格式:  四个字母的语言代码+“:”+文件路径

  1. <analyzer>
  2. <tokenizer class="solr.ICUTokenizerFactory" rulefile="Latn:my.Latin.rule.rbbi,Cyrl:my.Cyrillic.rules.rbbi"/>
  3. </analyzer>

注意:需要添加额外的jar包到Solr 的 classpath下。

9. solr.PathHierarchyTokenizerFactory

用replace指定的字符代替delimiter指定的字符,并进行分词

参数:delimiter (no default)

replace (no default)

示例:

  1. <analyzer>
  2. <tokenizer class="solr.PathHierarchyTokenizerFactory" delimiter="\" replace="/"/>
  3. </analyzer>

输入:   d:\usr\local\apache

输出:   "d:", "d:/usr", "d:/usr/local", "d:/usr/local/apache"

10. solr.PatternTokenizerFactory

利用Java的正则表达式进行分词。

参数:pattern -- 必填

group --   可选。默认 -1 。

-1 表示正则表达式作为分割符。0 表示符合正则表达式的才会被认为是一个分词而保留。大于0的值(比如2)表示只保留符合正则表达式的部分中的第2个部分。

示例:

  1. <analyzer>
  2. <tokenizer class="solr.PatternTokenizerFactory" pattern="\s*\s*" />
  3. </analyzer>

输入:   fee,fie, foe , fun,  foo

输出:   "fee", "fie", "foe", "fun", "foo"

示例:

  1. <analyzer>
  2. <tokenizer class="solr.PatternTokenizerFactory" pattern="[A-Z][A-Za-z]*" group="0"/>
  3. </analyzer>

输入:   Hello, My name is Rose.

输出:   "Hello", "My", "Rose"

11. solr.UAX29URLEmailTokenizerFactory

空格和标点符号做为分割符。小数点如果后面不是空格,则被保留。连接符(“-”)连起来的各个部分将被划分为独立的分词,除非其中包含数字。网址、Email、IP地址将会被认为一个整体。

参数:maxTokenLength -- 长度超过此值的分词将会被截断。

12. solr.WhitespaceTokenizerFactory

仅将空格做为分割符。

参数:rule -- "java": 默认值,利用Character.isWhitespace(int)确定是否是whitespace。 “unicode”: 利用Unicode的whitespace做为分割符。

Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml) - Analyzer, tokenizer(4)的更多相关文章

  1. Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml) -- 样例(6)

    managed-schema 样例: <?xml version="1.0" encoding="UTF-8" ?> <!-- License ...

  2. Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml) - filter(5)

    自定义fieldType时,通常还会用到filter.filter必须跟在tokenizer或其它filter之后.如: <fieldType> <analyzer> < ...

  3. Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml)(3)

         5. <fieldType> fieldType主要定义了一些字段类型,其name属性值用于前面<field>中的type属性的值.e.g. <fieldTyp ...

  4. Solr 6.7学习笔记(04)-- Suggest

    当我们使用baidu或者Google时,你输入很少的字符,就会自动跳出来一些建议选项,在Solr里,我们称之为Suggest,在solrconfig.xml里做一些简单的配置,即可实现这一功能.配置如 ...

  5. 软件测试之loadrunner学习笔记-02集合点

    loadrunner学习笔记-02集合点 集合点函数可以帮助我们生成有效可控的并发操作.虽然在Controller中多用户负载的Vuser是一起开始运行脚本的,但是由于计算机的串行处理机制,脚本的运行 ...

  6. 机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN)

    机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...

  7. OpenCV 学习笔记 02 使用opencv处理图像

    1 不同色彩空间的转换 opencv 中有数百种关于不同色彩空间的转换方法,但常用的有三种色彩空间:灰度.BRG.HSV(Hue-Saturation-Value) 灰度 - 灰度色彩空间是通过去除彩 ...

  8. SaToken学习笔记-02

    SaToken学习笔记-02 如果排版有问题,请点击:传送门 常用的登录有关的方法 - StpUtil.logout() 作用为:当前会话注销登录 调用此方法,其实做了哪些操作呢,我们来一起看一下源码 ...

  9. Redis:学习笔记-02

    Redis:学习笔记-02 该部分内容,参考了 bilibili 上讲解 Redis 中,观看数最多的课程 Redis最新超详细版教程通俗易懂,来自 UP主 遇见狂神说 4. 事物 Redis 事务本 ...

  10. Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml)(1)

    刚学Solr(版本6.7.0),新建一个core时,提示要求schema.xml文件,我找了半天也没在源码包中找到名为schema.xml的文件.这个版本其实用的是managed-schema文件,没 ...

随机推荐

  1. Nodejs 中常见的加密算法:RSA(1)

    Linux用户(以Ubuntu为例) $ openssl 进入OpenSSL程序 OpenSSL> genrsa -out rsa_private_key.pem 1024 生成私钥 OpenS ...

  2. Java拓展教程:文件DES加解密

    Java拓展教程:文件加解密 Java中的加密解密技术 加密技术根据一般可以分为对称加密技术和非对称加密技术.对称加密技术属于传统的加密技术,它的加密和解密的密钥是相同的,它的优点是:运算速度快,加密 ...

  3. 04-树7 二叉搜索树的操作集(30 point(s)) 【Tree】

    04-树7 二叉搜索树的操作集(30 point(s)) 本题要求实现给定二叉搜索树的5种常用操作. 函数接口定义: BinTree Insert( BinTree BST, ElementType ...

  4. JVM性能分析工具详解--MAT等

    获得堆转储文件 巧妇难为无米之炊,我们首先需要获得一个堆转储文件.为了方便,本文采用的是 Sun JDK 6.通常来说,只要你设置了如下所示的 JVM 参数: -XX:+HeapDumpOnOutOf ...

  5. 《高性能Javascript》 Summary(一)

    第一章.加载和执行 Loading & Execution 原因:Javascript 的执行导致页面渲染中止等待. 解决: 将script放在页面底部,紧靠body 闭合标签之前,保证页面在 ...

  6. 学习c语言的第14天

    #include <stdio.h> #include <string.h> struct student { int age; char sex; char name[100 ...

  7. 第三届蓝桥杯预赛c++b组

    1.微生物增值 假设有两种微生物 X 和 Y     X出生后每隔3分钟分裂一次(数目加倍),Y出生后每隔2分钟分裂一次(数目加倍).     一个新出生的X,半分钟之后吃掉1个Y,并且,从此开始,每 ...

  8. PSPnet:Pyramid Scene Parsing Network——作者认为现有模型由于没有引入足够的上下文信息及不同感受野下的全局信息而存在分割出现错误的情景,于是,提出了使用global-scence-level的信息的pspnet

    from:https://blog.csdn.net/bea_tree/article/details/56678560 2017年02月23日 19:28:25 阅读数:6094 首先声明,文末彩蛋 ...

  9. Spring注解实现原理

    ​[Spring如何使用注解机制完成自动装配] Java实例构造时会调用默认父类无参构造方法,Spring正是利用了这一点,让"操作元素的代码"得以执行.   [两种处理策略] ( ...

  10. labview初步理解

    1.labview是NI公司开发的一款以图形方式开发程序(G语言)的程序开发环境软件.它的作用与VS一样,是一种程序开发环境.只是vs是以文本语言开发环境而已. 2.labview最广泛应用于开发测试 ...