[转]solr系统query检索词特殊字符的处理

原文地址：http://blog.csdn.net/wgw335363240/article/details/39889979

solr是基于 lucence开发的应用，如果query中带有非法字符串，结果很可能是检索出所有内容或者直接报错，所以你对用户的输入必须要先做处理。输入星号，能够检索出所有内容；输入加号，则会报错。

官方的处理办法（java，因为solr是java开发的）：

https://svn.apache.org/repos/asf/lucene/dev/trunk/solr/solrj/src/java/org/apache/solr/client/solrj/util/ClientUtils.java

public static String escapeQueryChars(String s) {

    StringBuilder sb = new StringBuilder();

    for (int i = 0; i < s.length(); i++) {

      char c = s.charAt(i);

      // These characters are part of the query syntax and must be escaped

      if (c == '\\' || c == '+' || c == '-' || c == '!'  || c == '(' || c == ')' || c == ':'

        || c == '^' || c == '[' || c == ']' || c == '\"' || c == '{' || c == '}' || c == '~'

        || c == '*' || c == '?' || c == '|' || c == '&'  || c == ';' || c == '/'

        || Character.isWhitespace(c)) {

        sb.append('\\');

      }

      sb.append(c);

    }

    return sb.toString();

  }

翻译的php版本（利用preg_replace函数进行正则替换）：

static public function escape($value)

{

    //list taken from http://lucene.apache.org/java/docs/queryparsersyntax.html#Escaping%20Special%20Characters

    $pattern = '/(\+|-|&|\||!|\(|\)|\{|}|\[|]|\^|"|~|\*|\?|:|;|~|\/)/';

    $replace = '\\\$1';

   return preg_replace($pattern, $replace, $value);

}

翻译后的python版本：

import re

def escape_solr(word):

    return re.sub('(\\\|\+|-|&|\|\||!|\(|\)|\{|}|\[|]|\^|"|~|\*|\?|:|;|/|\~)','\\\1', word )

[转]solr系统query检索词特殊字符的处理的更多相关文章

solr系统query检索词特殊字符的处理
solr是基于 lucence开发的应用,如果query中带有非法字符串,结果很可能是检索出所有内容或者直接报错,所以你对用户的输入必须要先做处理.输入星号,能够检索出所有内容:输入加号,则会报错. ...
我的solr学习笔记--solr admin 页面检索调试
前言 Solr/Lucene是一个全文检索引擎,全文引擎和SQL引擎所不同的是强调部分相关度高的内容返回,而不是所有内容返回,所以部分内容包含在索引库中却无法命中是正常现象. 多数情况下我们 ...
【大数据技术】HBase与Solr系统架构设计
如何在保证存储量的情况下,又能保证数据的检索速度. HBase提供了完善的海量数据存储机制,Solr.SolrCloud提供了一整套的数据检索方案. 使用HBase搭建结构数据存储云,用来存储海量数据 ...
Solr DIH query 工作流
本文地址 http://www.cnblogs.com/jasonxuli/p/6491270.html DataImportHandler (DIH) 支持全量数据导入和增量数据导入,主要有四个qu ...
solr如何让全词匹配结果在最前面
在全文搜索中默认排序是按照匹配度权值score排序的,权值越大位置越靠前,那为什么有很多时候全词匹配反而不在最前面那,其实很简单因为全词匹配权值也就是100,但是还有很多权值大于100的排在了前面. ...
Solr查询query效果对比
q条件默认分词(org.apache.solr.analysis.TokenizerChain) "parsedquery" IK分词(org.wltea.analyzer.lu ...
[Spring cloud 一步步实现广告系统] 8. 检索系统配置&依赖
工作流程项目依赖 <dependencies>  <dependency> <groupId>org.spr ...
DIH增量、定时导入并检索数据--转载
原文地址:http://www.ifunit.com/984/solr%E5%AD%A6%E4%B9%A0%EF%BC%88%E4%BA%94%EF%BC%89dih%E5%A2%9E%E9%87%8 ...
soso官方：基于相关排序的判断
http://www.wocaoseo.com/thread-186-1-1.html 议程概述检索词用户的信息需求网页的自有信息网页的附属信息相关性的计算框架概述相关性的表象检索词 ...

随机推荐

Ruby(2): 基本语法上
表达式和变量: 这两点和其他主流的编程语言基本没有差别,这里直接跳过. 需要注意的是 ruby中 x=x+1 可以写成 x+=1 但是不支持 x++ , x-- 等一元运算符比较运算符和表达式: ...
一个简单的json解析器
实现一个简单地json解析器. 两部分组成,词法分析.语法分析词法分析 package com.mahuan.json; import java.util.LinkedList; import ja ...
javascript的ajax功能的概念和示例
AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML). 个人理解:ajax就是无刷新提交,然后得到返回内容. 对应的不使用ajax时的传统网 ...
Vue学习笔记：Slot
转自:https://www.w3cplus.com/vue/vue-slot.html 在Vue中,slot也分多种,从Vue的官网中可以获知,其主要分为:单个插槽.具名插槽和作用域插槽三种父组件 ...
[javaSE] 网络编程（URL）
获取URL对象,new出来,构造参数:String的路径调用URL对象的getProtocal()方法,获取协议调用URL对象的getHost()方法,获取主机调用URL对象的getPath() ...
spring boot2 使用log4j2
spring boot默认使用的是logback,看到好多地方说logback比log4j耗性能,具体么我也没试过,不过个人还是log4j用得更多. 先看pom依赖 <dependency> ...
12、springboot注解
@RestController和@Controller import java.lang.annotation.Documented; import java.lang.annotation.Elem ...
UVA1583（最小生成元）
对于这种需要一遍遍枚举求解的,打表可以提高很多效率 #include <iostream> #include <string> #include <cstring> ...
SQLHappy微软数据库连接查询操作，对数据的处理和查询
(软件已更新,部分介绍与新版软件有出处) 1.服务连接界面介绍 2.主界面介绍 3.表搜索介绍 4.命令菜单部分介绍 5.插件介绍 6.帮助菜单介绍 7.数据库列表右键菜单 8.数据库结构和数据操作( ...
LeetCode GrayCode
class Solution { public: vector<int> grayCode(int n) { vector<int> res; res.push_back(); ...

[转]solr系统query检索词特殊字符的处理

[转]solr系统query检索词特殊字符的处理的更多相关文章

随机推荐

热门专题