Matlab 实现对码功能
1、什么叫对码?
举例说明,数据库中有两张表。
表 1:
编号 描述 儿科门诊 妇科门诊 产科门诊
表 2:
编号 描述 儿科门诊 妇科门诊 产科门诊
现在要在表 1 和表 2 之间找到一一对应。比如:
编号1 编号2
这就是对码。
是不是很简单?只要 select 出两个表中描述相同的编号就可以了。但如果两个表的描述并不是那么准确相等呢?譬如一个是「产科」,一个是「妇产科」,怎么找到匹配呢?有人会说用 like '%产科%' 模糊匹配,用存储过程也能实现,但你怎么知道哪个表的描述内容少呢,该 like 哪个表字段呢?还有,如果一个是「妇科」,一个是「妇产科」呢?这个想当然地用 like 肯定是不行了。这个时候就要找个方法来计算两个字符串的相似度或者匹配度,选择相似度最高的数据来做匹配。
对码这种需求其实是很常见的。比如,现有运行的系统里用的是表 1,现在上级部门要求你给它定期传数据,而且要求科室编号用表 2,一般情况下不可能直接在自己运行良好的系统里贸然用表 2 替换表 1,只有新建个表 1 和表 2 的对码表,在提取的时候对表 1 的编号做个替换。而且经常表 1 和表 2 的描述还不完全相同,这个对码就是个问题。
对码可以手工对,用自己的眼睛一个一个找,那么当数据量很大时,这将是场灾难。所以,正常点儿的工程师都会写程序先实现初级的字符串匹配,然后再人工检查,纠正程序处理不了的错误。
本文介绍的就是如何利用字符串相似度的知识来做这个对码。
2、对码,有很多方法可以实现。比如我相信一些对 SQL 高手可以轻松用存储过程实现。我这里是先把表 1 和表 2 读取到文本里,然后用 Matlab 读取并做匹配,再将匹配结果写入到新文本里。当然,这个用 Python、R 语言也可以轻松实现,很简单。我这里选择 Matlab 只是因为自己最近用得多点儿。
文本1:HIS.txt
心血管儿科
血液儿科
新生儿科
感染儿科
妇科门诊
产科门诊
文本2:YY.txt
生殖医学中心IVF
妇科化疗
妇科ICU
产科
妇科
妇产科门诊
妇产科教研室
妇产科
Matlab 代码如下:
[YYcode,YYdesc]=textread('YY.txt','%s%s');
yylen=length(YYcode);
[hiscode,hisdesc]=textread('HIS.txt','%s%s');
hislen=length(hiscode);
HISyy=cell(,);
HISyy{}=hiscode;
HISyy{}=hisdesc;
for i=::hislen
index=;
simMax=;
for j=::yylen
simValue=levenshtein(hisdesc{i},yydesc{j});
if simValue>simMax
simMax=simValue;
index=j;
end
end
HISyy{}{i}=YYcode{index};
HISyy{}{i}=YYdesc{index};
end
fp = fopen('HIS-yy.txt','wt');
for i=::hislen
fprintf(fp,'%s\t',HISyy{}{i});
fprintf(fp,'%s\t',HISyy{}{i});
fprintf(fp,'%s\t',HISyy{}{i});
fprintf(fp,'%s\n',HISyy{}{i});
end
fclose(fp);
其中 levenshtein 函数是计算两个字符串的相似度,用的是「最小编辑距离」。
levenshtein.m。该代码来自网络:http://download.csdn.net/detail/zc0928/4783710
function re=levenshtein(ch1,ch2)
n=length(ch1);
m=length(ch2);
if n==
LD=m;
end;
if m==
LD=n;
end;
A=zeros(n+,m+);
for ii=:n+
A(ii,)=ii-;
end;
for ii=:m+;
A(,ii)=ii-;
end;
for ii=:m+
for j=:n+
if ch2(ii-)==ch1(j-)
cost=;
else cost=;
end;
a=A(j-,ii)+;
b=A(j,ii-)+;
c=A(j-,ii-)+cost;
d=min(a,b);
A(j,ii)=min(c,d);
end;
end;
LD=A(n+,m+);
re = (max(n,m) - LD)/max(n,m);
生成的对码文件:HIS-yy.txt
普儿一区 普儿一科
普儿二区 普儿二科
心血管儿科 心血管科
血液儿科 新生儿科
新生儿科 新生儿科
感染儿科 感染管理科
3、Matlab 处理流程
首先读取两个表的文本,并计算数据个数。
[YYcode,YYdesc]=textread('YY.txt','%s%s');
yylen=length(YYcode);
[hiscode,hisdesc]=textread('HIS.txt','%s%s');
hislen=length(hiscode);
然后创建元胞数组,并把第一个文件的值复制进去。注意元胞数组的使用,这里创建了 1 行 4 列的元胞数组,每个元素又可以存储任意个字符串数组,每个元素的类型跟上面的 YYcode 和 YYdesc 一样。
HISyy=cell(,);
HISyy{}=hiscode;
HISyy{}=hisdesc;
接下来遍历第一个文件中的每一个描述,将该描述字符串同第二个文本中的每一个描述做匹配,计算相似度,最终取得相似度最高的存到元胞数组的第三列和第四列。
for i=::hislen
index=;
simMax=;
for j=::yylen
simValue=levenshtein(hisdesc{i},yydesc{j});
if simValue>simMax
simMax=simValue;
index=j;
end
end
HISyy{}{i}=YYcode{index};
HISyy{}{i}=YYdesc{index};
end
最后将 HISyy中的结果写入文件 HIS-yy.txt。
fp = fopen('HIS-yy.txt','wt');
for i=::hislen
fprintf(fp,'%s\t',HISyy{}{i});
fprintf(fp,'%s\t',HISyy{}{i});
fprintf(fp,'%s\t',HISyy{}{i});
fprintf(fp,'%s\n',HISyy{}{i});
end
fclose(fp);
Matlab 实现对码功能的更多相关文章
- Atitit java c# php c++ js跨语言调用matlab实现边缘检测等功能attilax总结
Atitit java c# php c++ js跨语言调用matlab实现边缘检测等功能attilax总结 1.1. 边缘检测的基本方法Canny最常用了1 1.2. 编写matlab边缘检测代码, ...
- Android二维码功能实现,在程序内嵌入ZXing项目
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/9526247 最近二维码真是越来越火了,随便电视上.网络上.商场里,到处都是二维码. ...
- FastReport 中添加二维码功能.(Delphi)
http://www.cnblogs.com/fancycloud/archive/2011/07/24/2115240.html FastReport 中添加二维码功能.(Delphi) 在实际 ...
- iOS开发——高级技术&二维码功能的实现
二维码功能的实现 ZBarSDK,一个比较优秀的开源项目,使用起来也很简单. ZBarSDK是一个开源的SDK,可从这里下载到源码,该SDK实现了识别和读取各种条形码,包括EAN-13/UPC-A, ...
- iOS--iOS7摄像头识别二维码功能
iOS–iOS7摄像头识别二维码功能 属性介绍: AVFoundation 框架基于以下几个类实现图像捕捉 ,通过这些类可以访问来自相机设备的原始数据并控制它的组件. AVCaptureDevice ...
- shopnc 商家中心添加打印商品二维码功能
需求中提到需要增加每一件商品可以打印,用于线下体验店实体商品的二维码标签,客人可以根据手机扫二维码功能进行购买 任务描述: 1.如附件实现”批量打印标签“和单个商品”打印“标签功能. 2.标签有两种” ...
- ios7下二维码功能的实现
苹果公司升级到IOS7后自己的PassBook自带二维码扫描功能,所以现在使用二维码功能不需要在借助第三方库了 使用前请先导入AVFoundation.frameWork // // YHQView ...
- ionic3 实现扫码功能
ionic3 通过插件phonegap-plugin-barcodescanner,调用机器硬件摄像头实现扫码功能. 首先当然先了解下 phonegap-plugin-barcodescanner,这 ...
- SNF开发平台WinForm-平板拍照及扫描二维码功能
在我们做项目的时候,经常会有移动平板处理检验,审核等,方便移动办公.这时就需要在现场拍照上传问题,把当场问题进行上传,也有已经拍完照的图片或加工过的图片进行上传.还有在车间现场一体机,工控机 这种产物 ...
随机推荐
- jquery prop attr
checked比较特殊,只要设置了属性checked,不管何值都是checked的.例如:<input type="checkbox" checked><inpu ...
- C#的Installer生成的msi的安装文件,安装新版本时提示:已经安装了该产品的另一个版本。无法继续安装此版本
之前折腾了个C#的项目: WLW (Windows Live Writer) Plugin–InsertSkydriveFiles 然后又弄了个对应的Installer: [已解决]给一个C#的Dll ...
- 联想yoga table2 1371f 进入bios 的巧妙方法
win8.1 的平板,无键盘,触屏失灵,接了个鼠标 我在这里向大家介绍最后一个方法<ignore_js_op>▲在metro界面下找到设置选项 <ignore_js_op> ...
- #运算符、不同的指针类型、数组和指针、指针运算、堆、栈、静态区、只读区、下标VS指针
#运算符:用于在预编译期将宏参数转换为字符串 #define CONVERS(x) #x //注:没用双引号包括. 不同类型的指针占用的内存空间大小相同. 局部变量 定义: a[5]; 打印a[ ...
- 禅道ZenTao在windows和Lniux下集成安装环境和一键安装方法整理
一共4种安装方法看官可以根据你自己的实际环境来选择一个都很简单 windows下用禅道官网的一键安装包方法(推荐): 为了简化大家在windows下面的安装,我们在xampp基础上做了禅道的windo ...
- Mediakit报告设备商的空间不足以执行此操作的纯MAC解法
使用Mac对磁盘进行分区,显示“Mediakit报告设备商的空间不足以执行此操作”,该怎么办? What 买了一个4TB的移动硬盘,准备进行分区给Time Machine用. 硬盘自带是HDFS的,所 ...
- python全栈开发从入门到放弃之socket并发编程多进程
1.1 multiprocessing模块介绍 python中的多线程无法利用多核优势,如果想要充分地使用多核CPU的资源(os.cpu_count()查看),在python中大部分情况需要使用多进程 ...
- 字典的fromkeys的用法
fromkeys方法语法 dict.fromkeys(iterable[,value=None]) iterable 用于创建新的字典的键的可迭代对象(字符串,列表,元组,字典) value 可选参数 ...
- PL/SQL Developer 登录 Oracle 12c和Win10下安装Oracle 11g
安装了Oracle 12c 后使用PL/SQL Developer怎么也不能连接到Oracle 12c.网上找一下,按照fcflying所说的操作成功了,所以做个笔记: 1)安装Oracle 12c ...
- https://www.cnblogs.com/skywang12345/category/455711.html
https://www.cnblogs.com/skywang12345/category/455711.html