在CMS开发中,经常会有类似这样的需求:

提问——回答模式,最经典的例子就是百度提问。

提问者提出问题,由其他人回答,其他人可以是用户,也可以是服务商。

在这个模式中,如何充分利用历史数据是最关键的技术。很多时候,由于客户不擅长使用搜索功能,一上来就提问,而这些问题往往早已经有近乎完美的答案,但没有充分利用。这样一来,不仅加大了劳动量,又增加了数据冗余。

如果在提问的时候能充分调动历史数据,提交问题之前先看看历史问题能不能解决客户疑问,解决了,最好不过,解决不了,再提交。百度提问就是采用的这种方案:

模式固然好,可怎么实现就有些困难了,毕竟这是百度作为搜索引擎的看家本领。

从上图可以看出“CSDN网站如何注册用户”这句话被拆成了N个词,然后分开去数据库中匹配,为什么?因为直接去匹配“CSDN网站如何注册用户”这句话,汉语博大精深,稍微变动一下:“如何在CSDN网站注册用户”,意思完全一样,但直接匹配绝对匹配不到!

因此,我们需要把一句话拆分成词组,这个在网上有现成的组件,比如“庖丁解牛”等,它们大多数是免费开源的。拆成词组之后,应该还要有一个关键词筛选词库,用这个词库确定出有效的词组,比如上图中,“CSDN”、“注册”、“用户”是有效的,而“网站”显然没有匹配,因为它在这句话中没有实际意义。

有点跑题了,拆词、选词不是本文的重点,但却是本文的前提。拿到关键词之后,怎么去数据库中匹配呢?

大家都知道T-SQL中的LIKE语句,通过类似LIKE “%abc%”这样的语法,可以进行模糊匹配,但是它仅仅能进行一次模糊匹配。举个例子:

假如我们确定了a,b,c三个关键词,要查找的记录当然是匹配的越多越好,于是可以这样写:LIKE “%a%b%c%”,这样匹配出的就是包含a,b,c三个关键词的记录,但是如果根本没有包含这三个关键词的记录,最多只有包含两个的,甚至是只包含一个,那么如何写LIKE语句呢?这样LIKE “%a%b%”?这样LIKE “%a%c%”?这样LIKE “%b%c%”?这样LIKE “%a%”?这样LIKE “%b%”?这样LIKE “%c%”?

显然,需要判断的情况太多,简单的LIKE语句已经无法满足需求。需要注意的是,千万不要试图选出范范的记录,返回到程序中去处理,在程序中处理虽然简单,但是范范的记录,在一个中型系统中,往往能达到千万级别,这么大的数据量,从数据库返回到程序,无疑会给服务器造成相当大的压力。

经过探索,本小菜总结了一个比较简单的方法,暂且称为“LIKE语句多条件贪婪匹配算法”。

         算法思想:先用LIKE选出每一组符合一个条件的记录,只选择表的主键。然后把这些记录合并在一起,通过主键分组、统计数量,数量最多的,也就是匹配最多的,最后根据数量降序排序,越靠上的记录,匹配的越多。选出匹配的多的记录主键字段,再根据主键去表中选出内容即可。

为了方便大家使用,已经把算法封装成存储过程(直接把下边代码在查询分析器中执行即可)。

存储过程(函数)如下:

  1. GO
  2. CREATE function Get_StrArrayLength
  3. (
  4. @str varchar(1024), --要分割的字符串
  5. @split varchar(10) --分隔符号
  6. )
  7. returns int
  8. as
  9. begin
  10. declare @location int
  11. declare @start int
  12. declare @length int
  13. set @str=ltrim(rtrim(@str))
  14. set @location=charindex(@split,@str)
  15. set @length=1
  16. while @location<>0
  17. begin
  18. set @start=@location+1
  19. set @location=charindex(@split,@str,@start)
  20. set @length=@length+1
  21. end
  22. return @length
  23. end
  24. GO
  25. CREATE function Get_StrArrayStrOfIndex
  26. (
  27. @str varchar(1024), --要分割的字符串
  28. @split varchar(10), --分隔符号
  29. @index int --取第几个元素
  30. )
  31. returns varchar(1024)
  32. as
  33. begin
  34. declare @location int
  35. declare @start int
  36. declare @next int
  37. declare @seed int
  38. set @str=ltrim(rtrim(@str))
  39. set @start=1
  40. set @next=1
  41. set @seed=len(@split)
  42. set @location=charindex(@split,@str)
  43. while @location<>0 and @index>@next
  44. begin
  45. set @start=@location+@seed
  46. set @location=charindex(@split,@str,@start)
  47. set @next=@next+1
  48. end
  49. if @location =0 select @location =len(@str)+1
  50.  
  51. --这儿存在两种情况:1、字符串不存在分隔符号 2、字符串中存在分隔符号,跳出while循环后,@location0,那默认为字符串后边有一个分隔符号。
  52. return substring(@str,@start,@location-@start)
  53. end
  54. GO
  55. CREATE PROCEDURE proc_Common_SuperLike
  56. --要查询的表的主键字段名称
  57. @primaryKeyName varchar(999),
  58. --要查询的表名
  59. @talbeName varchar(999),
  60. --要查询的表的字段名称,即内容所在的字段
  61. @contentFieldName varchar(999),
  62. --查询记录的个数(TOP *),匹配的个数越多,排名越靠前
  63. @selectNumber varchar(999),
  64. --匹配字符分隔标记
  65. @splitString varchar(999),
  66. --匹配字符组合字符串
  67. @words varchar(999)
  68.  
  69. AS
  70. declare @sqlFirst varchar(999)
  71. declare @sqlCenter varchar(999)
  72. declare @sqlLast varchar(999)
  73. BEGIN
  74. set @sqlCenter=''
  75. declare @next int
  76. set @next=1
  77. while @next<=dbo.Get_StrArrayLength(@words,@splitString)
  78. begin
  79. --构造sql查询条件(中间部分)
  80. set @sqlCenter = @sqlCenter+'SELECT '+@primaryKeyName+' FROM '+@talbeName+' WHERE '+@contentFieldName+' like ''%'+dbo.Get_StrArrayStrOfIndex(@words,@splitString,@next)+'%'' UNION ALL '
  81. set @next=@next+1
  82. end
  83. --处理sql语句中间部分,去除最后无用语句
  84. set @sqlCenter=left(@sqlCenter,(len(@sqlCenter)-10))
  85. --构造sql语句开头部分
  86. set @sqlFirst='SELECT TOP '+@selectNumber+' '+@primaryKeyName+',COUNT(*) AS showCout FROM ('
  87. --构造sql语句结尾部分
  88. set @sqlLast=') AS t_Temp GROUP BY '+@primaryKeyName+' ORDER BY showCout DESC'
  89. --拼接出完整sql语句,并执行
  90. execute(@sqlFirst+@sqlCenter+@sqlLast)
  91. END

调用示例:

  1. executeproc_Common_SuperLike 'id','t_test','content','20','|','i|o|c'

id表的主键字段名称。

t_test表名。

content匹配内容字段名称。

20选出20个记录(从顶至下匹配度越来越低)。

|关键字的分隔符号。

i|o|c一共有i,o,c三个关键字,通过|分隔。

SQL LIKE语句多条件贪婪匹配算法的更多相关文章

  1. SQL 视图 局部变量 全局变量 条件语句 事务 触发器

    一.视图 1.视图是一张虚拟表,他所存储的不是实际数据,而是查询语句,但我们可以对视图进行像数据表一样的操作. 2.为什么使用视图呢?我的理解是:1.在远程传输数据时,可以避免过长的查询字符,减少流量 ...

  2. sql语句之条件,分页,排序

    sql语句之条件,分页,排序

  3. SQL查询语句分类

    SQL查询语句有多种,下面总结下.首先先建三张表用于后面的实验 -- 学生表,记录学生信息 CREATE TABLE student( sno ), sname ), ssex ENUM('男','女 ...

  4. [转]MySQL 最基本的SQL语法/语句

    MySQL 最基本的SQL语法/语句,使用mysql的朋友可以参考下.   DDL-数据定义语言(Create,Alter,Drop,DECLARE) DML-数据操纵语言(Select,Delete ...

  5. SQL入门语句之ORDER BY 和GROUP BY

    一.SQL入门语句之ORDER BY ORDER BY 是用来基于一个或多个列按升序或降序顺序排列数据 1.从数据库表获取全部数据按字段A的升序排列 select *from table_name o ...

  6. SQL入门语句之LIKE、GLOB和LIMIT

    一.SQL入门语句之LIKE LIKE用来匹配通配符指定模式的文本值.如果搜索表达式与模式表达式匹配,LIKE 运算符将返回真(true),也就是 1.这里有两个通配符与 LIKE 运算符一起使用,百 ...

  7. SQL入门语句之SELECT和WHERE

    一.SQL入门语句之SELECT SELECT语句用于从数据库表中获取数据,结果表的形式返回数据.这些结果表也被称为结果集 1.从数据库表中取部分字段 select 字段A,字段B from tabl ...

  8. SQL入门语句之INSERT、UPDATE和DELETE

    一.SQL入门语句之INSERT insert语句的功能是向数据库的某个表中插入一个新的数据行 1.根据对应的字段插入相对应的值 insert into table_name(字段A, 字段B, 字段 ...

  9. SQL SELECT 语句

      本章讲解 SELECT 和 SELECT * 语句. SQL SELECT 语句 SELECT 语句用于从表中选取数据. 结果被存储在一个结果表中(称为结果集). SQL SELECT 语法 SE ...

随机推荐

  1. javascript操作正则表达式对象的方法总结

    //正则表达式对象 /* var s = 'good good study day day up '; var r, re; re = new RegExp('study',"g" ...

  2. $.each()方法,其实挺不错的

    例子为主 html主要代码 <div class="fl search">厂商:<select id="firms"><optio ...

  3. 文件上传<springmvc>

    使用commons-fileupload-1.3.1.jar和commons-io-2.4.jar web.xml <?xml version="1.0" encoding= ...

  4. Volt 模块引擎与phalcon框架组合使用指南

    ---- 近期工作中web页面使用由C语言编写的VOLT模板引擎,相比之前由js动态加载页面速度更快,更利于百度数据的抓取,现根据文档整理一下使用思路 (Volt是一个超快速和设计者友好的模板语言,C ...

  5. 函数四种调用模式以及其中的this指向

    第一种:函数直接执行模式 function add(a,b){ console.log(this); return a+b; } add(10,20)//this===window 第二种:对象方法的 ...

  6. php集成环境和自己配置的区别,php集成环境、php绿色集成环境、php独立安装版环境这三者的区别

    最近有学生问我,直接使用PHP集成环境和我们自己独立安装的php环境有什么不一样吗? 答:PHP集成环境,和自己安装的php环境实际上没啥区别的,只不过大部分的集成环境进行了一些绿化操作,本质上没啥区 ...

  7. SpringMVC 学习-上传文件分解器 CommonsMultipartResolver 类

    Spring 组件 CommonsMultipartResolver 类的主要作用是配置文件上传的一些属性,也可以控制上传文件的大小. 在 springmvc-servlet.xml 配置文件中: & ...

  8. Linux CentOS 7 YUM 安裝 MySQL 5.7

    MySQL YUM 源:http://dev.mysql.com/downloads/repo/yum/ # 下載源 $ wget http://dev.mysql.com/get/mysql57-c ...

  9. maven插件报错之解决

    maven插件报错之解决 用m2eclipse创建Maven项目时报错 maveneclipsebuilddependenciesauthorizationplugins 用m2eclipse创建 ...

  10. CoreJavaE10V1P3.9 第3章 Java的基本编程结构-3.9 大数值(Big Numbers)

    如果基本的整型与浮点型不能满足需求,可以使用java.Math包提供的 BigInteger 和 BigDecimal 两个类,这两个类可以存储任意长度的数, BigInteger 实现的任意精度整数 ...