solr6.6 配置同义词

1.配置managed-schema <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <filter class="solr.SynonymGraphFilterFactory" expand="true" ignoreCase…

参考:solr6.6 配置同义词 1.下载拼音分析包下载地址:pinyin.zip 解压后放在core下面的lib文件夹下面: 2.修改managed-schema配置文件 <fieldType name="text_smartcn" class="solr.TextField" positionIncrementGap="0"> <analyzer type="index"> <tokeniz…

[大数据]-Logstash-5.3.1的安装导入数据到Elasticsearch5.3.1并配置同义词过滤

阅读此文请先阅读上文:[大数据]-Elasticsearch5.3.1 IK分词,同义词/联想搜索设置,前面介绍了ES,Kibana5.3.1的安装配置,以及IK分词的安装和同义词设置,这里主要记录Logstash导入mysql数据到Elasticsearch5.3.1并设置IK分词和同义词.由于logstash配置好JDBC,ES连接之后运行脚本一站式创建index,mapping,导入数据.但是如果我们要配置IK分词器就需要修改创建index,mapping的配置,下面详细介绍. 一.Log…

solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）

概念说明:同义词大体的意思是指,当用户输入一个词时,solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出,展示给用户,提高交互的友好性(当然这些同义词的定义是要在配置文件中事先定义好的),比如:用户输入:日本,那么就可能有一些相关的近义词如:鬼子,屠杀,战犯等的词,这个可在配置文件中事先定义好. 搜索:http://localhost:8080/solr/testcore/select/?q=content:笔笔音乐会结果如下: 结果不仅有笔笔音乐会,还有周笔畅音乐会.…

solr配置同义词，停止词，和扩展词库（IK分词器为例）

定义同义词:搜索结果里出现的同义词.如我们输入”还行”,得到的结果包括同义词”还可以”. 停止词:在搜索时不用出现在结果里的词.比如is .a .are .”的”,“得”,“我” 等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉. 扩展词:在搜索结果里额外出现的词.扩展词只能是你输入词的本身或子串.比如我们输入”重庆开县人”,正常分词得到的结果是“重庆” “开县”“人”:当我们在扩展词里加入“重庆开县”时,分词的结果是“重庆开县”“重庆” “开县”“人”. 配置同义词…

转:solr6.0配置中文分词器IK Analyzer

solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持solr6.0这个高版本的,所以就会发送运行错误的界面.下面就来介绍一下solr6.0中中文分词器IK Analyzer的配置. 步骤1: 下载solr6.0专用的IK Analyzer的jar包和相应的配置文件.因为IK Analyzer可以很方便的对词库近些年扩展,所以我在IK Analyzer中…

我与solr(六)--solr6.0配置中文分词器IK Analyzer

转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无法进行正确的高亮显示.现在配置一下分词器来解决相关问题. solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持solr6.0这个高版本的,所以就会发送运行…

docker环境下solr6.0配置（中文分词+拼音）

前言:这篇文章是基于之前的“linux环境下配置solr5.3详细步骤”(http://www.cnblogs.com/zhangyuan0532/p/4826740.html)进行扩展的.本篇的步骤是后来记录的,所以没有细节的命令代码,也没有截图,谅解. 原先是solr5.3部署在linux环境下,本篇是solr6.0部署在docker环境下.大概是半年前2016年8月进行配置的,solr现在有小版本变化. 一.docker创建镜像和容器 (由于dockerfile里默认用户为“solr",从…

Solr6.5配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer (二)

之前在 Solr6.5在Centos6上的安装与配置 (一) 一文中介绍了solr6.5的安装.这篇文章主要介绍创建Solr的Core并配置中文IKAnalyzer分词和拼音检索. 一.创建Core: 1.首先在solrhome(solrhome的路径和配置见Solr6.5在Centos6上的安装与配置 (一)中solr的web.xml)中创建mycore目录; [root@localhost down]# [root@localhost down]# mkdir /down/apache-to…

[大数据]-Fscrawler导入文件（txt,html,pdf,worf...）到Elasticsearch5.3.1并配置同义词过滤

fscrawler是ES的一个文件导入插件,只需要简单的配置就可以实现将本地文件系统的文件导入到ES中进行检索,同时支持丰富的文件格式(txt.pdf,html,word...)等等.下面详细介绍下fscrawler是如何工作和配置的. 一.fscrawler的简单使用: 1.下载: wget https://repo1.maven.org/maven2/fr/pilato/elasticsearch/crawler/fscrawler/2.2/fscrawler-2.2.zip 2.解压: …

solr6.6 配置自带中文分词

1.配置solrconfig.xml solr的自带中文分词包在solr-6.6.0\contrib\analysis-extras\lucene-libs下修改solrconfig.xml增加 <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" /> <lib dir="${solr.install.dir:..…

Solr6.5配置中文分词器

Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索.以下介绍solr自带的中文分词器和第三方分词器IKAnalyzer. 注:下面操作在Linux下执行,所添加的配置在windon下依然有效. 运行环境 Solr:6.5.1 系统 : Linux 以下是设置 solr中文分词器的方法. 注:开始之前,假定你已经成功登录solr的界面,并创建了core. 一:使用solr自带中文分词器 1.进入解压好的solr文件夹根目录下执行以下命令 cp ./contrib/analy…

Elasticsearch 配置同义词

配置近义词近义词组件已经是elasticsearch自带的了,所以不需要额外安装插件,但是想要让近义词和IK一起使用,就需要配置自己的分析器了. 首先创建近义词文档在config目录下 mkdir analysis vim analysis/synonym.txt 编辑: i-pod, i pod, i pad => ipod, sea biscuit, sea biscit => seabiscuit, 中文,汉语,汉字这里可以看到近义词的写法有两种: a,b => c a,b,…

Solr6.6 配置中文分词库mmseg4j

1.准备首先安装solr:参照搜索引擎Solr-6.6.0搭建,如果版本高于6,可能会不支持,需要改mmseg4j包 mmseg4j包下载: mmseg4j-solr-2.3.0-with-mmseg4j-core.zip 或https://pan.baidu.com/s/1dD7qMFf#list/path=%2F 开源地址:https://github.com/chenlb/mmseg4j-solr 解压下载的压缩包mmseg4j-solr-2.3.0-with-mmseg4j-core.…

Solr6.5在Centos6上的安装与配置 (一)

这篇文章主要是介绍在Centos6上Solr6.5的安装与配置. 一.安装准备及各软件使用版本说明: 1.JDK8,版本jdk1.8.0_121下载地址:jdk-8u121-linux-x64.tar.gz 2.Apache Tomcat,版本8.5.13 下载地址:apache-tomcat-8.5.13.tar.gz 3.Solr,版本solr-6.5.0,下载地址:solr-6.5.0.tgz 此文使用的是centos6.6的系统.在系统根目录下建立down目录.然后依次下载上面的三个软件…

[大数据]-Elasticsearch5.3.1 IK分词，同义词/联想搜索设置

--题外话:最近发现了一些问题,一些高搜索量的东西相当一部分没有价值.发现大部分是一些问题的错误日志.而我是个比较爱贴图的.搜索引擎的检索会将我们的博文文本分词.所以图片内容一般是检索不到的,也就是说同样的问题最好是帖错误代码,日志,虽然图片很直观,但是并不利与传播.希望大家能够优化一部分博文的内容,这样有价值的东西传播量可能会更高. 本文主要是记录Elasticsearch5.3.1 IK分词,同义词/联想搜索设置,本来是要写fscrawler的多种格式(html,pdf,word...)数据…

solr学习之域的管理与中文分析器配置

该文使用 Centos6.5 64 位 solr4.10.3 IK-Analyzer中文分析器一.solr域在solr中域的概念与lucene中域的概念相同,数据库的一条记录或者一个文件的信息就是一个document,数据库记录的字段或者文件的某个属性就是一个Field域,solr中对索引的检索也是对Field的操作.lucene中对域的操作是通过代码,solr对域的管理是通过一个配置文件schema.xml. solr中域的类型是schema.xml中<fieldType>元…

Elasticsearch5.3.1 IK分词，同义词/联想搜索设置

[大数据]-Elasticsearch5.3.1 IK分词,同义词/联想搜索设置原文地址:http://www.cnblogs.com/NextNight/p/6837407.html --题外话:最近发现了一些问题,一些高搜索量的东西相当一部分没有价值.发现大部分是一些问题的错误日志.而我是个比较爱贴图的.搜索引擎的检索会将我们的博文文本分词.所以图片内容一般是检索不到的,也就是说同样的问题最好是帖错误代码,日志,虽然图片很直观,但是并不利与传播.希望大家能够优化一部分博文的内容,这样有价…

elasticsearch ik同义词

由于elasticsearch 更新实在太快,配置同义词的资料层次不齐,费尽千辛万苦终于找到了.本文通过一个同义词搜索的简单实例来说明ik同义词的配置. 环境介绍这点很重要,本文是基于elasticsearch7.1.1,ik7.1.1. 配置同义词文件上传文件的路径位于 es 安装路径的 config 下,新建 analysis 文件夹,并新建 synonym.txt 文件. 此处我是通过配置docker-compose 完成文件挂载,可以简单参考. version: '3' servic…

macOS安装Solr并索引MySQL

安装 Java 语言的软件开发工具包 brew cask install java 或者在 Oracle官网中选择 Mac 版本 jdk-8u111-macosx-x64.dmg 下载并安装. 安装 Solr brew install solr 当前(2016-11-10) brew 源的 Solr 版本为 6.1.0,你可以通过brew edit solr来修改你要安装的版本,或者通过官方网站下载源码包来进行编译安装. 启动 Solr solr start 返回以下文字提示,则表示 solr…

ElasticSearch 入门笔记1

1. 起步 1. 建demo工程,看文档,做典型demo 2. 资源列表: http://es.xiaoleilu.com/010_Intro/10_Installing_ES.html 3. 启动: elasticsearch.bat 启动完成后用ARC工具访问 http://localhost:9200/ 这说明你的ELasticsearch集群已经启动并且正常运行,接下来我们可以开始各种实验了. https://imququ.com/post/elasticsearch.html 用El…

使用 Elasticsearch 实现博客站内搜索

Reference: http://www.open-open.com/lib/view/open1452046497511.html 一直以来,为了优化本博客站内搜索效果和速度,我使用 bing 的 site: 站内搜索做为数据源,在服务端获取.解析.处理并缓存搜索结果,直接输出 HTML.这个方案唯一的问题是时效性难以保证,尽管我可以在发布和修改文章时主动告诉 bing,但它什么时候更新索引则完全不受我控制. 本着不折腾就浑身不自在的原则,我最终还是使用 Elasticsearch 搭建了…

Solr 文章集成

Solr 文章集成 solr原理 solr wiki: http://wiki.apache.org/solr/ 分布式全文检索系统SolrCloud简单介绍 http://my.oschina.net/004/blog/175768 collection,shard.core,leader,replica solr组件图.http://www.solr.cc/blog/? attachment_id=106 索引组件,检索组件:solrconfig配置流水线各组件,schema.xml配置…

ES快速开发，ElasticsearchRestTemplate基本使用以及ELK快速部署

最近博主有一些elasticsearch的工作,所以更新的慢了些,现在就教大家快速入门,并对一些基本的查询.更新需求做一下示例,废话不多说开始: 1. ES快速上手 es下载:[https://elasticsearch.cn/download/]()这里关于es所需要的链接基本都有,可以快速下载使用当你解压好了归档文件之后,Elasticsearch 已经准备好运行了 1 cd elasticsearch-<version> 2 ./bin/elasticsearch es默认端口9200…

solr6.1-----相关配置-详细介绍-启动-全文检索

环境准备 jdk1.8.0_60 + apache-tomcat-8.5.4 + solr-6.1.0 进过测试.使用tomcat 7.x 不能正常启动solr .会报错,至于怎么原因,lz 暂时还没有找到,请大家务必按照以上版本进行配置下载solr 地址:http://apache.fayea.com/lucene/solr/6.1.0/solr-6.1.0.zip 解压solr后 ,将D:\solr-6.1.0\server\solr-webapp 文件下的webapp 改名为sol…

Solr6.2.0 + zookeeper 集群配置

zookeeper1 : 192.168.1.103zookeeper2 : 192.168.1.104zookeeper3 : 192.168.1.105solr1 : 192.168.1.106solr2 : 192.168.1.107solr3 : 192.168.1.108 JDK安装目录:/data/jdkSolr安装目录:/data/SolrCloud/Solr/solrSolr配置文件目录:/data/SolrCloud/Solr/solr-configSolr数据文件目录:/da…

solr4.x配置IK2012FF智能分词+同义词配置

本文配置环境:solr4.6+ IK2012ff +tomcat7 在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口TokenizerFactory.因此IK分词器2012 FF版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory类. 这里IK的文档给了一个solr的配置如下: <fieldType name="text" class="solr…

solr6.5 的安装与配置

运行环境: JDK: 1.8.0_131 Tomcat: 9.0.0.M21 Solr: 6.5.1 注:1.建议打开两个连接linux的窗口,一个负责 solr压缩目录,另外一个负责tomcat下的目录,这样在使用过程中就不需要来回切换路径. 2.以下的Solr所有配置在Window中一样适用,除了操作文件的过程需要命令外,其他没有任何不同. 3.在操作前请先将用户切换到root,否则有些操作可能不成功.或者在操作的每个命令前加上sudo.如创建文件夹命令:sudo mkdi…

Solr6.5.0配置solrcore图文详解

准备环境: solr6.5.0安装完成 jdk1.8 solrhome配置成功详情:…

Solr6.5.0配置中文分词器配置

准备工作: solr6.5.0安装成功 1.去官网https://github.com/wks/ik-analyzer下载IK分词器 2.Solr集成IK a)将ik-analyzer-solr6.x.jar复制到tomcat8\webapps\solr\WEB-INF\lib目录下. b)将stopword.dic.IKAnalyzer.cfg.xml复制到tomcat8\webapps\solr\WEB-INF\classes c)将mydict.dic文件拷贝IKAnalyzer.cfg.…