SQL Serve提供了简单的字符模糊匹配功能,比如:like, patindex,不过对于某些字符处理场景还显得并不足够,日常碰到的几个问题有:

  • 1. 同一个字符/字符串,出现了多少次
  • 2. 同一个字符,第N次出现的位置
  • 3. 多个相同字符连续,合并为一个字符
  • 4. 是否为有效IP/身份证号/手机号等
  • 5. 去除所有数字/字母

 

同一个字符/字符串,出现了多少次

同一个字符,将其替换为空串,即可计算

declare @text varchar(1000)
declare @str varchar(10)
set @text = 'ABCBDBE'
set @str = 'B' select len(@text) - len(replace(@text,@str,''))

同一个字符串,仍然是替换,因为是多个字符,方法1替换后需要做一次除法;方法2替换时增加一个字符,则不需要

--方法1
declare @text varchar(1000)
declare @str varchar(10)
set @text = 'ABBBCBBBDBBBE'
set @str = 'BBB' select (len(@text) - len(replace(@text,@str,'')))/len(@str) --方法2
declare @text varchar(1000)
declare @str varchar(10)
set @text = 'ABBBCBBBDBBBE'
set @str = 'BBB' select len(replace(@text,@str,@str+'_')) - len(@text)

同一个字符/字符串,第N次出现的位置

SQL SERVER定位字符位置的函数为CHARINDEX:

CHARINDEX ( expressionToFind , expressionToSearch [ , start_location ] )

可以从指定位置起开始检索,但是不能取第N次出现的位置,需要自己写SQL来补充,有以下几种思路:

1. 自定义函数, 循环中每次为charindex加一个计数,直到为N

if object_id('NthChar','FN') is not null
drop function Nthchar
GO create function NthChar
(
@source_string as nvarchar(4000),
@sub_string as nvarchar(1024),
@nth as int
)
returns int
as
begin
declare @postion int
declare @count int set @postion = CHARINDEX(@sub_string, @source_string)
set @count = 0 while @postion > 0
begin
set @count = @count + 1
if @count = @nth
begin
break
end
set @postion = CHARINDEX(@sub_string, @source_string, @postion + 1)
End
return @postion
end
GO --select dbo.NthChar('abcabc','abc',2)
--

2. 通过CTE,对待处理的整个表字段操作, 递归中每次为charindex加一个计数,直到为N

if  object_id('tempdb..#T') is not null
drop table #T create table #T
(
source_string nvarchar(4000)
) insert into #T values (N'我们我们')
insert into #T values (N'我我哦我') declare @sub_string nvarchar(1024)
declare @nth int
set @sub_string = N'我们'
set @nth = 2 ;with T(source_string, starts, pos, nth)
as (
select source_string, 1, charindex(@sub_string, source_string), 1 from #t
union all
select source_string, pos + 1, charindex(@sub_string, source_string, pos + 1), nth+1 from T
where pos > 0
)
select
source_string, pos, nth
from T
where pos <> 0
and nth = @nth
order by source_string, starts --source_string pos nth
--我们我们 3 2

3. 借助数字表 (tally table),到不同起点位置去做charindex,需要先自己构造个数字表

--numbers/tally table
IF EXISTS (select * from dbo.sysobjects where id = object_id(N'[dbo].[Numbers]') and OBJECTPROPERTY(id, N'IsUserTable') = 1)
DROP TABLE dbo.Numbers --===== Create and populate the Tally table on the fly
SELECT TOP 1000000
IDENTITY(int,1,1) AS number
INTO dbo.Numbers
FROM master.dbo.syscolumns sc1,
master.dbo.syscolumns sc2 --===== Add a Primary Key to maximize performance
ALTER TABLE dbo.Numbers
ADD CONSTRAINT PK_numbers_number PRIMARY KEY CLUSTERED (number) --===== Allow the general public to use it
GRANT SELECT ON dbo.Numbers TO PUBLIC --以上数字表创建一次即可,不需要每次都重复创建 DECLARE @source_string nvarchar(4000),
@sub_string nvarchar(1024),
@nth int
SET @source_string = 'abcabcvvvvabc'
SET @sub_string = 'abc'
SET @nth = 2 ;WITH T
AS
(
SELECT ROW_NUMBER() OVER(ORDER BY number) AS nth,
number AS [Position In String]
FROM dbo.Numbers n
WHERE n.number <= LEN(@source_string)
AND CHARINDEX(@sub_string, @source_string, n.number)-number = 0
----OR
--AND SUBSTRING(@source_string,number,LEN(@sub_string)) = @sub_string
)
SELECT * FROM T WHERE nth = @nth

4. 通过CROSS APPLY结合charindex,适用于N值较小的时候,因为CROSS APPLY的次数要随着N的变大而增加,语句也要做相应的修改

declare @T table
(
source_string nvarchar(4000)
) insert into @T values
('abcabc'),
('abcabcvvvvabc') declare @sub_string nvarchar(1024)
set @sub_string = 'abc' select source_string,
p1.pos as no1,
p2.pos as no2,
p3.pos as no3
from @T
cross apply (select (charindex(@sub_string, source_string))) as P1(Pos)
cross apply (select (charindex(@sub_string, source_string, P1.Pos+1))) as P2(Pos)
cross apply (select (charindex(@sub_string, source_string, P2.Pos+1))) as P3(Pos)

5. 在SSIS里有内置的函数,但T-SQL中并没有

--FINDSTRING in SQL Server 2005 SSIS
FINDSTRING([yourColumn], "|", 2), --TOKEN in SQL Server 2012 SSIS
TOKEN(Col1,"|",3)

注:不难发现,这些方法和字符串拆分的逻辑是类似的,只不过一个是定位,一个是截取,如果要获取第N个字符左右的一个/多个字符,有了N的位置,再结合substring去截取即可;

多个相同字符连续,合并为一个字符

最常见的就是把多个连续的空格合并为一个空格,解决思路有两个:

1. 比较容易想到的就是用多个replace

但是究竟需要replace多少次并不确定,所以还得循环多次才行

--把两个连续空格替换成一个空格,然后循环,直到charindex检查不到两个连续空格
declare @str varchar(100)
set @str='abc abc kljlk kljkl'
while(charindex(' ',@str)>0)
begin
select @str=replace(@str,' ',' ')
end
select @str

2. 按照空格把字符串拆开

对每一段拆分开的字符串trim或者replace后,再用一个空格连接,有点繁琐,没写代码示例,如何拆分字符串可参考:“第N次出现的位置”;

是否为有效IP/身份证号/手机号等

类似IP/身份证号/手机号等这些字符串,往往都有自身特定的规律,通过substring去逐位或逐段判断是可以的,但SQL语句的方式往往性能不佳,建议尝试正则函数,见下。

去除所有数字/字母

上面定位第N个字符的方式也都可以尝试使用,只是在定位的同时将数字/字母替换掉即可;

另外也可以通过模糊匹配来做:

--去除所有非数字
declare @pos smallint
declare @string varchar(100) set @string = '1109A><":{$%^&*4DSE2@!~$%^&567KJHGT' --如果是1102e53这样的字符串,会被isnumeric认为是科学计数法数字,加上e0就会返回0
--如果是普通数字,加上e0也不会影响返回1
while isnumeric(@string+'e0') = 0 --也可同下用patindex判断
begin
set @pos = (select patindex('%[^0-9]%',@string))
set @string = (select replace(@string,substring(@string,@pos,1),''))
end select @string --去除所有数字
declare @pos smallint
declare @string varchar(100) set @string = '1109A><":{$%^&*4DSE2@!~$%^&567KJHGT' while patindex('%[0-9]%',@string) > 0
begin
set @pos = (select patindex('%[0-9]%',@string))
set @string = (select replace(@string,substring(@string,@pos,1),''))
end select @string --去除所有字母
declare @pos smallint
declare @string varchar(100) set @string = '1109A><":{$%^&*4DSE2@!~$%^&567KJHGT' while patindex('%[A-Za-z]%',@string) > 0
begin
set @pos = (select patindex('%[A-Za-z]%',@string))
set @string = (select replace(@string,substring(@string,@pos,1),''))
end select @string

正则表达式函数

1. Oracle

从10g开始,可以在查询中使用正则表达式,它通过一些支持正则表达式的函数来实现:

Oracle 10 g

REGEXP_LIKE

REGEXP_REPLACE

REGEXP_INSTR

REGEXP_SUBSTR

Oracle 11g (新增)

REGEXP_COUNT

Oracle用REGEXP函数处理上面几个问题:

(1) 同一个字符/字符串,出现了多少次

select length(regexp_replace('123-345-566', '[^-]', '')) from dual;
select REGEXP_COUNT('123-345-566', '-') from dual; --Oracle 11g

(2) 同一个字符/字符串,第N次出现的位置

不需要正则,ORACLE的instr可以直接查找位置:

instr('source_string','sub_string' [,n][,m])

n表示从第n个字符开始搜索,缺省值为1,m表示第m次出现,缺省值为1。

select instr('abcdefghijkabc','abc', 1, 2) position from dual; 

(3) 多个相同字符连续,合并为一个字符

select regexp_replace(trim('agc f   f  '),'\s+',' ') from dual;

(4) 是否为有效IP/身份证号/手机号等

--是否为有效IP
WITH IP
AS(
SELECT '10.20.30.40' ip_address FROM dual UNION ALL
SELECT 'a.b.c.d' ip_address FROM dual UNION ALL
SELECT '256.123.0.254' ip_address FROM dual UNION ALL
SELECT '255.255.255.255' ip_address FROM dual
)
SELECT *
FROM IP
WHERE REGEXP_LIKE(ip_address, '^(([0-9]{1}|[0-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])\.){3}([0-9]{1}|[0-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])$');
--是否为有效身份证/手机号,暂未举例

(5) 去除所有数字/字母

--去除非数字
SELECT regex_replace('1109A><":{$%^&*4DSE2@!~$%^&567KJHGT','[^0-9]','') FROM dual; --去除数字
SELECT regex_replace('1109A><":{$%^&*4DSE2@!~$%^&567KJHGT','[0-9]','') FROM dual; --去除字母
SELECT regex_replace('1109A><":{$%^&*4DSE2@!~$%^&567KJHGT','[A-Za-z]','') FROM dual;

2. SQL Server

目前最新版本为SQL Server 2017,还没有对REGEXP函数的支持,需要通用CLR来扩展,如下为CLR实现REG_REPLACE:

--1. 开启 CLR
EXEC sp_configure 'show advanced options' , ''
GO
RECONFIGURE
GO
EXEC sp_configure 'clr enabled' , ''
GO
RECONFIGURE
GO
EXEC sp_configure 'show advanced options' , '';
GO
--首次创建时,应该是从dll文件创建
--CREATE ASSEMBLY [RegexUtility] FROM 'C:\xxxxxxx.dll'
--GO --创建好后,可以生成脚本出来部署到其他支持CLR的SQL Server上
CREATE ASSEMBLY [RegexUtility]
FROM 
WITH PERMISSION_SET = SAFE GO
--3. 创建 CLR 函数
CREATE FUNCTION [dbo].[regex_replace](@input [nvarchar](4000), @pattern [nvarchar](4000), @replacement [nvarchar](4000))
RETURNS [nvarchar](4000) WITH EXECUTE AS CALLER, RETURNS NULL ON NULL INPUT
AS
EXTERNAL NAME [RegexUtility].[RegexUtility].[RegexReplaceDefault]
GO
--4. 使用regex_replace替换多个空格为一个空格
select dbo.regex_replace('agc f f ','\s+',' ');
--5. 使用regex_replace去除数字/字母
--去除非数字
select dbo.regex_replace('1109A><":{$%^&*4DSE2@!~$%^&567KJHGT','[^0-9]',''); --去除数字
select dbo.regex_replace('1109A><":{$%^&*4DSE2@!~$%^&567KJHGT','[0-9]',''); --去除字母
select dbo.regex_replace('1109A><":{$%^&*4DSE2@!~$%^&567KJHGT','[A-Za-z]','');
 

注:通过CLR实现更多REGEXP函数,如果有高级语言开发能力,可以自行开发;或者直接使用一些开源贡献也行,比如:http://devnambi.com/2016/sql-server-regex/

简单的正则表达式符号使用说明:

\f -> 匹配一个换页

\n -> 匹配一个换行符

\r -> 匹配一个回车符

\t -> 匹配一个制表符

\v -> 匹配一个垂直制表符

\s 匹配任何空白字符,包括空格、制表符、换页符等等, 等价于[ \f\n\r\t\v]

\s+ 匹配任意多个空白字符

\S 匹配非空白字符

^ 匹配最前边的字符

$ 与^类似,匹配最末的字符

+ 匹配+号前面的字符1次或n次.等价于{1,}

* 匹配*前面的字符0次或n次

? 匹配?前面的字符0次或1次

. (小数点)匹配除换行符外的所有单个的字符

小结:

1. 非正则SQL语句的思路,对不同数据库往往都适用;

2. 正则表达式中的规则(pattern) 在不同开发语言里,有很多语法是相通的,通常是遵守perl或者linux shell中的sed等工具的规则;

3. 从性能上来看,非循环写法的通用SQL判断 > REGEXP函数 > 自定义SQL函数;

4. SQL SERVER 除了CLR的方式扩展正则表达式函数,也可以开启OLE Automation通过VBS来扩展正式表达式函数,曾经测试过性能,比CLR要差很多。

参考:

regular expression enhancements in 11g

http://www.oracle-developer.net/display.php?id=508

Using Regular Expressions With Oracle Database

https://docs.oracle.com/cd/B12037_01/appdev.101/b10795/adfns_re.htm

Replace non numeric characters in string

https://www.sqlservercentral.com/Forums/Topic470379-338-1.aspx

IsNumeric, IsInt, IsNumber

https://www.tek-tips.com/faqs.cfm?fid=6423

原文

SQL Server 类似正则表达式的字符处理问题的更多相关文章

  1. sql server replace的替换字符,replace的使用

    sql server replace的替换字符,replace的使用 select REPLACE(name,'张','') * from entity_5c7a578c05c7042958d9148 ...

  2. Sql Server使用正则表达式

    近日因项目需求,需要在sql server中用到正则表达式,因Sql Server本身并不支持正则表达式,需要用到Clr函数. 在此记录一下步骤,与大家共享,虽然写的是原创,但有参考网上的文章. 1. ...

  3. hibernate mysql 分页时报错 显示的代码和sql server 类似 select top 1……

    [ERROR][com.alibaba.druid.filter.stat.StatFilter]merge sql error, dbType mysql, sql : select top 1 d ...

  4. Sql Server中使用特定字符分割字符串

    在T-SQL中我们经常批量操作时都会对字符串进行拆分,可是SQL Server中却没有自带Split函数,所以要自己来实现了.这里将字符串分割以table形式输出 语法如下: SET ANSI_NUL ...

  5. sql server 查询字符串指定字符出现的次数

    这里提取指定符串"A"在字段中的出现次数SQL为: select len(keyword)-len(replace(keyword, 'A', ' ')) from 表 原理:用r ...

  6. SQL Server 通配符为目标字符的查找

    create table t(x int identity(1,1) primary key,v nvarchar(32));go insert into t(v) values('this is % ...

  7. SQL Server 截取日期部分字符

    select GetDate() --用DateName()就可以获得相应的年.月.日 Select Datename(year,GetDate())+'-'+Datename (month,GetD ...

  8. sql server如何精准匹配字符中的字符,绝对匹配

    举例: 我现在是需要查询这字段里包含1的数据  我如果直接charindex,那么11,12也会被包含. 解决(1): select * from ( select '1,2,12,111' as s ...

  9. SQL Server如何精准匹配字符中的字符,绝对匹配。

    举例: 我现在是需要查询这字段里包含1的数据 我如果直接charindex,那么11,12也会被包含. 解决(1): SELECT * FROM ( SELECT '1,2,12,111' AS st ...

随机推荐

  1. Singer 修改tap-s3-csv 支持minio 连接

    singer 团队官方处了一个tap-s3-csv 的tap,对于没有使用aws 的人来说并不是很方便了,所以简单修改了 下源码,可以支持通用的s3 csv 文件的处理,同时发布到了官方pip 仓库中 ...

  2. 洛谷 P3371【模板】单源最短路径(弱化版)

    题面 既然是模板, 那就直接贴代码? 两种思路 1.迪杰斯特拉 #include <cstdio> #include <cstring> #include <iostre ...

  3. smartnic

    19年趋势: Intel® 2019网络技术研讨会圆满落幕 SANTOS: Flow and HQoS Acceleration Over DPDK Using Intel Programmable ...

  4. AntDesign-React与VUE有点不一样,第一篇深入了解React的概念之一:JSX

    AntDesign-React与VUE有点不一样,第一篇深入了解React的概念之一:JSX 一.什么是JSX 使用JSX声明一个变量(REACT当中的元素): const element =< ...

  5. java 中类初始化,构造方法,静态成员变量,静态块的加载顺序

    1.编译和运行概念要搞清:编译即javac的过程,负责将.java文件compile成.class文件,主要是类型.格式检查与编译成字节码文件,而加载是指java *的过程,将.class文件加载到内 ...

  6. nginx 反向代理配置示例

    Nginx反向代理在生产环境中使用很多的. 场景1: 域名没有备案,可以把域名解析到香港一台云主机上,在香港云主机做个代理,而网站数据是在大陆的服务器上. server { listen ; serv ...

  7. shell expect的简单实用

    一.在shell脚本中嵌入expect来实现密码输入 expect是一个自动交互功能的工具.expect是开了一个子进程,通过spawn来执行shell脚本,监测到脚本的返回结果,通过expect判断 ...

  8. 回滚事件只是让原数据看起来不变,但是id还是会自增吗?

    回滚事件只是让原数据看起来不变,但是id还是会自增对吗? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 ...

  9. Unable to resolve dependency for ':app@debug/compileClasspath' could not resolve com.android.support:design:28.0.0

    使用AndroidStudio3.2报这个错 配置 解决方法 1)去掉代理 gradle目录的下代理属性也 注销掉.   2)项目的gradle设定 3)设定项目的gradle-wrapper.pro ...

  10. Refused to execute script from '...' because its MIME type ('') is not executable, and strict MIME type checking is enabled.

    写在前面 部署项目到weblogic上启动首页访问空白, 浏览器控制台报如题错误. web.xml中把响应头添加防止攻击的报文过滤器禁用就行了(仅仅是为了启动), 以下为转载内容, 可以根据需要自行测 ...