问题一: 测试人员告诉我数字不能被搜索。于是开始找原因:

<fields>

***
<field name="productName" type="text" indexed="true" stored="true" />
***
</fields>

fieldType text配置:
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
   <analyzer type="index">
  <tokenizer class="solr.LowerCaseTokenizerFactory"/>
  <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front"/>
   </analyzer>
   <analyzer type="query">
  <tokenizer class="solr.LowerCaseTokenizerFactory"/>
  <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front"/>
   </analyzer>
</fieldType>

当我的productName中包含数字字符的时。比如有个产品的名字叫 ‘嘎嘎噶123’ 那么用数字1/2/3/12等等都不能搜索到

当时‘123嘎嘎噶’时也是一样。找了好久没有找到原因。也不知道怎么去找这个原因。于是边问喷油。猜想是分词的问题。于是边看Solr的管理界面看能发现点啥?

终于QQ群里一哥们说 solr.LowerCaseTokenizerFactory
会过滤掉数字  在Solr的Analysis
菜单下 看到了可以进行分词的演示正对当前的schema.xml配置。还可以选择相应的 field  一试 果真是LowerCaseTokenizerFactory
这个家伙的问题。于是寻找替代方案。经过尝试与搜索。下面的配置

最终解决了数字不能被搜索的问题。(相应的属性也改为此类型)

<fieldType
name="text_inclunum" class="solr.TextField" positionIncrementGap="100">
 
<analyzer
type="index">
 <tokenizer
class="solr.WhitespaceTokenizerFactory"/>
 <filter
class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50"
side="front"/>
 
</analyzer>
  <analyzer
type="query">
 <tokenizer
class="solr.WhitespaceTokenizerFactory"/>
 <filter
class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50"
side="front"/>
 
</analyzer>
</fieldType>

由于我们库里的产品有拼音字段。而且是大写。
如果我用AMXL 搜索 能搜到相应的拼音。进而搜索相应的产品阿莫西林。(solr配置了all查询。拼音字段copy到了all中。)

可如果我用amxl搜索则不能搜到。于是我在程序中solr的查询语句时把查询值toUpperCase();
终于解决了小写字母不能搜索的问题。

问题二:

但第二天发现引入的了新的问题。如果一个产品是
‘d阿莫西林’ 那么我用d阿莫西林
进行搜索,将不能把 'd阿莫西林'这个产品搜出来。开始不知道为啥,放到Solr的Analysis中一测。发现了。我程序把它变为
‘D阿莫西林’
进行查询了。但SOlr中搜索的却是'd阿莫西林
' ,这次所有已小写字母打头的产品。如果用产品全名如‘‘d阿莫西林’进行搜索(自动补全出来的),将不能搜索出来。

解决了数字的问题。又遇到了小写字母的问题。
这次没有找到个Solr这边的方案。于是打算修改程序。 思路就是
把程序中SOlr的查询值变大写的地方改为。如果查询的值中有中文则不变大写。如果没有则变大写。

这样的话。如果产品是有数字的,或者有小写字母的
都能被搜索出来。 全字母的也能根据拼音搜索出来。("solr.EdgeNGramFilterFactory"
minGramSize="1"
maxGramSize="50")这个就是从左到右一个一个分词的。

于是
网上搜索一个正则查找字符串中是否有中文:

/**
* 判断一个字符串中是否含有中文
* @param str
* @return
*/
public static boolean isContainsChinese(String str)
{
Matcher matcher = Pattern.compile("[\u4e00-\u9fa5]").matcher(str);
boolean flg = false;
if (matcher.find()) {
flg = true;
}
return flg;
} public static String toUpperOrNot(String temp)
{
if (temp == null)
return "";
if(StringUtils.isContainsChinese(temp))
{
return temp;
}else
{
return temp.toUpperCase();
}
}

于是在SOLR查询值的地方调用下toUpperOrNot()即可。最好调用下下面的转义。

温馨提示:
Solr查询中如果查询值中有特殊字符需要转义:

public static final String	NEAD_TO_CONVERT_CHAR	= "([/:()!])";
// solr query need to convert meaning
public static String convertMeaningChar(String temp)
{
if (temp == null)
return "";
temp = temp.replaceAll(NEAD_TO_CONVERT_CHAR, "\\\\$1");
return temp;
}

Solr 数字字符不能搜索的一个问题的更多相关文章

  1. solr服务(搜索服务)

    1   Solr实现全文搜索 1.1   Solr是什么? Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的 ...

  2. 基于Solr的空间搜索

    如果需要对带经纬度的数据进行检索,比如查找当前所在位置附近1000米的酒店,一种简单的方法就是:获取数据库中的所有酒店数据,按经纬度计算距离,返回距离小于1000米的数据. 这种方式在数据量小的时候比 ...

  3. 利用SOLR搭建企业搜索平台 之——MultiCore

    Solr Multicore 是 solr 1.3 的新特性.其目是一个solr实例,可以有多个搜索应用. 下面着手来将solr给出的一个example跑出来.这篇文章是基于<利用SOLR搭建企 ...

  4. SOLR搭建企业搜索平台

    一. SOLR搭建企业搜索平台  运行环境:  运行容器:Tomcat6.0.20  Solr版本:apache-solr-1.4.0  分词器:mmseg4j-1.6.2  词库:sogou-dic ...

  5. 【solr基础教程之中的一个】Solr相关知识点串讲

           Solr是Apache Lucene的一个子项目.Lucene为全文搜索功能提供了完备的API.但它仅仅作为一个API库存在.而不能直接用于搜索. 因此,Solr基于Lucene构建了一 ...

  6. Solr实现全文搜索

    1.1 Solr是什么? Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展 ...

  7. 整合Solr与tomcat以及第一个core的配置

    整合Solr与tomcat以及第一个core的配置 一.准备安装文件 Tomcat : apache-tomcat-8.5.32.tar.gz Solr:solr-5.3.1.tgz 二.创建目录并解 ...

  8. 【Solr】 solr对拼音搜索和拼音首字母搜索的支持

    问:对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输入拼音和拼音首字母就给出商品的信息,怎么办呢? 实现方式有2种,但是他们其实是对应的.  用lucene实现 1.建索引, 多建一个索引字段 ...

  9. 利用SOLR搭建企业搜索平台 之——solr配置solrconfig.xml

    来源:http://blog.csdn.net/zx13525079024/article/details/25310781 solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括 ...

随机推荐

  1. 如何固定OpenERP顶的主菜单,方便滚动至第二屏以及多屏时,快速切换主菜单

    如何固定OpenERP顶的主菜单,方便滚动至第二屏以及多屏时,快速切换主菜单 作者:广州-步科,来自OpenERP应用群() 将“addons\web\static\src\css”目录下的“base ...

  2. POJ--2752--Seek the Name, Seek the Fame【KMP】

    链接:http://poj.org/problem? id=2752 题意:对于一个字符串S,可能存在前n个字符等于后n个字符,从小到大输出这些n值. 思路:这道题加深了对next数组的理解.next ...

  3. J2EE项目集成SAP的BO报表

    网上的方案: 每个用户在自己的J2EE系统的用户登陆的同时登陆bo系统,这做法的缺点是登陆bo速度慢,而且如果J2EE用户比较多的话会在bo服务器生成很多的token. 最佳方案(自己研究): 1.调 ...

  4. C#:设置焦点在最小的TabIndex控件上

    private void FocusFirstTabIndex(Control container) { // init search result varialble Control searchR ...

  5. 【自创+转发】jQuery给input 密码框绑定回车事件

    <script type="text/javascript" src="Scripts/jquery-1.6.2.js"></script&g ...

  6. 原创:微信小程序调用PHP后台接口,解析纯html文本

    ---效果图片预览---    1.微信js动态传参:wx.request({        url: 'https://m.****.com/index.php/Home/Xiaoxxf/activ ...

  7. python函数中把列表(list)当参数时的"入坑"与"出坑"

    在Python函数中,传递的参数如果默认有一个为 列表(list),那么就要注意了,此处有坑!! 入坑 def f(x,li=[]): for i in range(x): li.append(i*i ...

  8. matplotlib热图

    1.基础知识点回顾 1.plot(x, y, marker='D')表示绘制折线图,marker设置样式菱形. 2.scatter(x, y, marker='s', color='r')绘制散点图, ...

  9. Python学习笔记010——作用域

    1 作用域的分类 全局变量:在文件中所有函数外部创建的变量,整个文件可见 局部变量:在函数.类等内部创建的变量且仅用在函数内部的变量: 函数的形参也是局部变量. 注:所有的变量必须是先创建,再使用. ...

  10. oracle导表小结

    事件描述:从A主机oracle服务器导出.sql文件到B主机,发现1.导入存在乱码 2.提示USERS表空没有权限(A B主机均为window系统) 1.针对第一点乱码 首先确认系统的默认字符编码GB ...