SQL-一道特殊的字符串分解题目
本题不是一道直接的字符串拆解,
应用场景如下,表中有一个字段,是表示事件受影响的国家集合,使用逗号进行分隔,不幸的是,居然发现有些国家本身就带有逗号,这样在规范化的时候,如何准确地找到这些国家呢?
以下的代码是有一定限制的。但基本上够用。
下面的代码使用到了分析函数lag和lead还有cte,sqlserver2012及其以后的版本都支持,oracle好像10g以上就支持了。
主要思路:
字符串的分解,可以使用数字辅助表,然后cross join刷副本,然后根本分隔符出现的位置然后切豁字符串拆解到我们需要的东东。(解决方案中我使用的递归CTE来处理找到对应的位置)
现在还需要多加一步,就是对拆解的部分进行验证和去重不符合要求的那一部。
使用LAG和LEAD的好处,就是不需要再用自连接去找到对应的下一条数据了。
本题的解题原则是如何长项能连接到正确的国家,则取长项的,否则取短项的。
代码如下:
--准备示例表与数据 drop table my_countries; drop table valid_country; create table my_countries(rid int,country_name_cc varchar(200)); insert into my_countries(rid,country_name_cc) values(1,'china,test, public of'); insert into my_countries(rid,country_name_cc) values(2,'us, public of,china,Evan, public of'); create table valid_country(cid int, country_name varchar(30)); insert into valid_country(cid,country_name) values(1,'china'); insert into valid_country(cid,country_name) values(2,'test, public of'); insert into valid_country(cid,country_name) values(3,'Evan, public of'); insert into valid_country(cid,country_name) values(4,'us, public of'); insert into valid_country(cid,country_name) values(5,'Evan'); --select * from my_countries; --select * from valid_country;
正确的结果是:
WITH SPLIT_COUNTRY AS ( SELECT RID, 1 AS LVL, 1 AS STARTPOS, CHARINDEX(',',COUNTRY_NAME_CC+',')-1 AS ENDPOS FROM MY_COUNTRIES UNION ALL SELECT SC.RID, LVL+1 AS LVL, ENDPOS+2, CHARINDEX(',',COUNTRY_NAME_CC+',',ENDPOS+2)-1 FROM MY_COUNTRIES CC JOIN SPLIT_COUNTRY SC ON CC.RID=SC.RID WHERE CHARINDEX(',',CC.COUNTRY_NAME_CC+',',ENDPOS+2)>0 ) ,CTE_COUNTRY AS ( SELECT RID,LVL,STARTPOS,ENDPOS,LEAD(ENDPOS,1) OVER(PARTITION BY RID ORDER BY LVL) AS NEXTENDPOS FROM SPLIT_COUNTRY ) ,CTE AS ( SELECT MC.RID,SC.LVL, CASE WHEN NEXTENDPOS IS NOT NULL AND EXISTS (SELECT * FROM VALID_COUNTRY VC WHERE VC.COUNTRY_NAME = SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1)) THEN SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1) ELSE SUBSTRING(MC.COUNTRY_NAME_CC,STARTPOS,ENDPOS-STARTPOS+1) END AS COUNTRY FROM MY_COUNTRIES MC JOIN CTE_COUNTRY SC ON MC.RID=SC.RID ) ,CHECK_VALID AS ( SELECT CASE WHEN CHARINDEX(',',LAG(COUNTRY,1) OVER(PARTITION BY RID ORDER BY LVL))>0 THEN 0 ELSE 1 END AS ISVALID, * FROM CTE ) SELECT CV.RID,CV.COUNTRY,VC.CID FROM CHECK_VALID CV JOIN VALID_COUNTRY VC ON CV.COUNTRY = VC.COUNTRY_NAME AND ISVALID=1 ORDER BY RID;
另一种方案,在第一种的基础上稍加修改:
WITH SPLIT_COUNTRY AS ( SELECT RID, 1 AS LVL, 1 AS STARTPOS, CHARINDEX(',',COUNTRY_NAME_CC+',')-1 AS ENDPOS FROM MY_COUNTRIES UNION ALL SELECT SC.RID, LVL+1 AS LVL, ENDPOS+2, CHARINDEX(',',COUNTRY_NAME_CC+',',ENDPOS+2)-1 FROM MY_COUNTRIES CC JOIN SPLIT_COUNTRY SC ON CC.RID=SC.RID WHERE CHARINDEX(',',CC.COUNTRY_NAME_CC+',',ENDPOS+2)>0 ) ,CTE_COUNTRY AS ( SELECT RID,LVL,STARTPOS,ENDPOS,LEAD(ENDPOS,1) OVER(PARTITION BY RID ORDER BY LVL) AS NEXTENDPOS FROM SPLIT_COUNTRY ) ,CTE AS ( SELECT MC.RID,SC.LVL, SUBSTRING(MC.COUNTRY_NAME_CC,STARTPOS,ENDPOS-STARTPOS+1) AS COUNTRY, SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1) AS COUNTRY2 FROM MY_COUNTRIES MC JOIN CTE_COUNTRY SC ON MC.RID=SC.RID ) SELECT CTE.RID,VC.COUNTRY_NAME,VC.CID FROM CTE JOIN VALID_COUNTRY VC ON (CASE WHEN EXISTS(SELECT * FROM VALID_COUNTRY X WHERE X.COUNTRY_NAME=CTE.COUNTRY2) THEN CTE.COUNTRY2 ELSE CTE.COUNTRY END) = VC.COUNTRY_NAME ;
SQL-一道特殊的字符串分解题目的更多相关文章
- SQL Server中截取字符串常用函数
SQL Server 中截取字符串常用的函数: .LEFT ( character_expression , integer_expression ) 函数说明:LEFT ( '源字符串' , '要截 ...
- 使用List把一个长字符串分解成若干个短字符串
把一个长字符串分解成若干个固定长度的短字符串,由于事先不知道长字符串的长度,以及短字符串的数量,只能使用List. public static void get_list_sbody(String s ...
- sql server 查找包含字符串的对象
sql server 查找包含字符串的对象 SELECT sm.object_id, OBJECT_NAME(sm.object_id) AS object_name, o.type, o.type_ ...
- java字符串分解 StringTokenizer用法(比split()方法效率高)
Java中substring方法可以分解字符串,返回的是原字符串的一个子字符串.如果要讲一个字符串分解为一个一个的单词或者标记,StringTokenizer可以帮你. int countTokens ...
- SQL Server 中截取字符串常用的函数
SQL Server 中截取字符串常用的函数: 1.LEFT ( character_expression , integer_expression ) 函数说明:LEFT ( '源字符串' , '要 ...
- sql server中截取字符串的常用函数
我们如果要在sql server中,使用截取字符串的方法要怎样使用呢? sql server提供了3个常用截取字符串方法,LEFT().RIGHT().SUBSTRING() /****** Sql ...
- Sql动态查询拼接字符串的优化
Sql动态查询拼接字符串的优化 最原始的 直接写:string sql="select * from TestTables where 1=1";... 这样的代码效率很低的,这样 ...
- java字符串分解 StringTokenizer用法
Java中substring方法可以分解字符串,返回的是原字符串的一个子字符串.如果要讲一个字符串分解为一个一个的单词或者标记,StringTokenizer可以帮你. 先看个例子: 1 public ...
- XE4 TStringDynArray 比 c6 的TStringList 好用 字符串 分解 分割 转换 TByteDynArray
TStringDynArray 动态数组 字符串 分解 分割 System::DynamicArray<System::UnicodeString> TByteDynArray, ...
随机推荐
- jQuery $.extend() 和 $.fn.extend() 用法
http://blog.csdn.net/xuemoyao/article/details/19021659
- 【jQuery基础学习】06 jQuery表单验证插件-Validation
jQuery的基础部分前面都讲完了,那么就看插件了. 关于jQuery表单验证插件-Validation validation特点: 内置验证规则:拥有必填.数字.E-Mail.URL和信用卡号码等1 ...
- SignalR-入门
1.什么是SignalR: ASP.NET SignalR是为简化开发开发人员将实时web内容添加到应用程序过程而提供的类库.实时web功能指的是让服务器代码可以随时主动推送内容给客户端,而不是让服务 ...
- 移除NDK方法
以下内容由:于伟建 提供 删除.project中的以下字段基本都是有cdt关键字的位置 删除.cproject然后重启eclipse,clean,重新编译我这里还有错误,就手动删了gen 删除包含cd ...
- Css文字特效之text-shadow特效
今天总结一下文字特效text-shadow,如果用好它可以做出各种不一样的效果,下图是我做出的几种效果. 怎么样,看起来很不错吧,下面贴代码. /* css */ p{ width:300px; ma ...
- 转:EClipse 10个最有用的快捷键
Eclipse快捷键 10个最有用的快捷键 Eclipse中10个最有用的快捷键组合 一个Eclipse骨灰级开发者总结了他认为最有用但又不太为人所知的快捷键组合.通过这些组合可以更加容易的浏览源代 ...
- iOS didReceiveMemoryWarning 的处理
当iOS触发didReceiveMemoryWarning这个方法的时候,我们一般会做一些手动处理,强制清理掉一些目前不用的数据.但是这个方法并不只是单纯的通知开发者你的内存已经吃紧了,系统通知你的同 ...
- iOS本地数据存储(转载)
看到一篇不错的文章,推荐给大家!!! 应用沙盒 1)每个iOS应用都有自己的应用沙盒(应用沙盒就是文件系统目录),与其他文件系统隔离.应用必须待在自己的沙盒里,其他应用不能访问该沙盒 2)应用沙盒的文 ...
- Navicat 连接 Oracle数据库 提示 cannot load OCI DLL 的解决
一.32位系统下 cannot load OCI DLL,126 解决方法:工具->选项->OCI 选择oracle安装目录下bin里面的oci.dll 二 .在64位系统下安装了Orac ...
- [eclipse]“Syntax error, insert "}" to complete”报错的解决方案
背景:本人在网上学习java时,看到一段样例代码比较好,因此复制粘贴到eclipse中看看编译结果.结果eclipse报"Syntax error, insert "}" ...