继续《SAS编程与数据挖掘商业案例》学习笔记,本文側重数据处理实践。包含:HASH对象、自己定义format、以及功能强大的正則表達式

一:HASH对象

Hash对象又称散列表,是依据关键码值而直接进行訪问的数据结构。是依据关键码值而直接进行訪问的数据结构。

sas提供了两个类来处理哈希表。用于存储数据的hash和用于遍历的hiter,hash类提供了查找、加入、改动、删除等方法,hiter提供了用于定位和遍历的first、next等方法。

长处:键值的查找是在内存中进行的,有利于提高性能;

hash表能够在数据步执行时,动态的加入更新或删除观測。

hash表中能够非常快的定位数据,降低查找次数。

经常用法:

definekey:定义键

Definedata:定义值

definedone:定义完毕。能够加载数据

add:加入键值。如在hash表中已存在,则忽略;

replace:假设健在hash表中存在,则替换。假设不存在则加入键值

remove:清除键值对

find:查找健值,假设存在则将值写入相应变量

check:查找键值,假设存在则返回rc=0,不改动当前变量的值;

output:将hash表输出到数据集

clear:清空hash表,但并不删除对象

equal:推断两个hash类是否相等

find方法的演示样例:

libname chapt12 'f:\data_model\book_data\chapt12';

data results;

if _n_=0 then set chapt12.participants;

if _n_ = 1 then do;

declare hash h(dataset:'chapt12.participants');

h.definekey('name');

h.definedata('gender', 'treatment');

h.definedone();

end;

set chapt12.weight;

if h.find() = 0 then

output;

run;

hiter对象的引例:

data patients;

length patient_id $ 16 discharge 8;

input patient_id discharge:date9.;

datalines;

smith-4123 15mar2004

hagen-2834 23apr2004

smith-2437 15jan2004

flinn-2940 12feb2004

;

data _null_;

if _n_=0 then set patients;

declare hash ht(dataset:"patients",ordered:"ascending");

ht.definekey("patient_id");

ht.definedata("patient_id", "discharge");

ht.definedone();

declare hiter iter("ht");

rc = iter.first();

do while (rc=0);

put patient_id discharge:date9.;

rc = iter.next();

end;

run;

用declare hiter iter("ht");给hash表ht定义了一个遍历器iter,之后调用first方法将遍历器定位到hash表的第一条观測,然后使用next方法遍历hash表中的全部记录并输出。

商业实战-两个数据集的合并:

data both1(drop=rc);

declare hash plan ();

rc = plan.definekey ('plan_id');

rc = plan.definedata ('plan_desc');

rc = plan.definedone ();

do until (eof1) ;

set chapt12.plans end = eof1;

rc = plan.add ();

end;

do until (eof2) ;

set chapt12.members end = eof2;

call missing(plan_desc);

rc = plan.find ();

output;

end;

stop;

run;

上述程序能够简化为:

data both2;

length plan_id $3 plan_desc $20;

if _n_ = 1 then do;

declare hash h(dataset:'chapt12.plans');

h.definekey('plan_id');

h.definedata('plan_desc');

h.definedone();

call missing(plan_desc);

end;

set chapt12.members;

rc=h.find();

run;

二:format

自己定义format:

Proc Format;

Value $ Sex_Fmt

'F'='女'

'M'='男'

Other = '未知';

Value Age_Dur

Low-10="10岁下面"

11-13="11-13岁"

14-<15="14-15"

15-High="15岁以上";

Run;

应用:

Data  test;

Set  sashelp.class(keep=sex age);

x=put(sex,$sex_fmt);y=put(age,age_dur.);

Run;

三:正則表達式:

/.../  一个正則表達式的起止。

|  数项之间的选择,“或”运算;

()   匹配组,标记一个子表达式的開始和结束位置。

.    除换行符以外的随意字符。

\w  任一单词字符,数字大写和小写字母以及下划线

\W  任一非单词字符

\s   任一空白字符,包含空格、制表符、换行符、回车符、中文全角空格等;

\S   任一非空白字符,

\d   0-9任一数字

\D  任一非数字字符

[...]

[^...]

[a-z]  从a到z

[^a-z]  不在从a到z范围内的随意字符

^  匹配输入字符串的開始位置

$  匹配输入字符串的结尾位置

\b  描写叙述单词的前或后边界

\B  表示非单词边界

*  匹配0次或多次

+ 匹配一次或多次

?  匹配零次或 一次

{n}  匹配n次

{n,}  匹配n次以上

{n,m}  匹配n到m次

经常使用函数:

Prxparse     定义一个正則表達式

Prxmatch  返回匹配模式的首次匹配位置

Call prxsubstr   返回匹配模式在目标字符串的開始位置和长度

Prxposn    返回正則表達式子表达式相应的匹配模式值

Call  prxposn    返回正則表達式子表达式相应的匹配模式和长度

Cal l  prxnext  返回匹配模式在目标字符串中的多个匹配位置和长度

Prxchange    替代匹配模式的值

Call prxchange   替代匹配模式的值

eg1:

data _null_;

if _n_ = 1 then pattern_num = rxparse("/cat/");

retain pattern_num;

input string $30.;

position = rxmatch(pattern_num,string);

file print;

put pattern_num= string= position=;

datalines;

there is a cat in this line.

does not match cat

cat in the beginning

at the end, a cat

cat

;

run;

eg2:数据验证

data match_phone;

set chapt12.phone_numbers;

if _n_ = 1 then pattern = prxparse("/\(\d\d\d\) ?

\d\d\d-\d{4}/");

retain pattern;

if prxmatch(pattern,phone) gt 0 then output;

run;

找出不匹配的手机号码

data unmatch_phone;

set chapt12.phone_numbers;

where not prxmatch("/\(\d\d\d\) ?

\d\d\d-\d{4}/",phone);

run;

Eg3:提取匹配某种模式的字符串

data extract;

if _n_ = 1 then do;

pattern = prxparse("/\(\d\d\d\) ?

\d\d\d-\d{4}/");

if missing(pattern) then do;

put "error in compiling regular expression";

stop;

end;

end;

retain pattern;

length number $ 15;

input string $char80.;

call prxsubstr(pattern,string,start,length);

if start gt 0 then do;

number = substr (string,start,length);

number = compress(number," ");

output;

end;

keep number;

datalines;

this line does not have any phone numbers on it

this line does: (123)345-4567 la di la di la

also valid (123) 999-9999

two numbers here (333)444-5555 and (800)123-4567

;

run;

eg4:提取名字

data ReversedNames;

input name & $32.;

datalines;

Jones, Fred

Kavich, Kate

Turley, Ron

Dulix, Yolanda

;

data FirstLastNames;

length first last $ 16;

keep first last;

retain re;

if _N_ = 1 then

re = prxparse('/(\w+), (\w+)/');

set ReversedNames;

if prxmatch(re, name) then

do;

last = prxposn(re, 1, name);

first = prxposn(re, 2, name);

end;

run;

注:1,2分别代表正則表達式中的两个组

eg5:提取符合规定的名字

data old;

input name $60.;

datalines;

Judith S Reaveley

Ralph F. Morgan

Jess Ennis

Carol Echols

Kelly Hansen Huff

Judith

Nick

Jones

;

data new;

length first middle last $ 40;

re1 = prxparse('/(\S+)\s+([^\s]+\s+)?(\S+)/o');

re2 = prxparse('/(\S+)(\s+)([^\s]+\s+)(?)(\S+)/o');

set old;

id1=prxmatch(re1, name);

id2=prxmatch(re2, name);

if id1 then

do;

first = prxposn(re1, 1, name);

middle = prxposn(re1, 2, name);

last = prxposn(re1, 3, name);

end;

if id2 then test=prxposn(re1, 4, name);

put test=;

run;

Eg6:返回匹配模式的多个位置

data _null_;

expressionid = prxparse('/[crb]at/');

text = 'the woods have a bat, cat, and a rat!';

start = 1;

stop = length(text);

call prxnext(expressionid, start, stop, text, position, length);

do while (position > 0);

found = substr(text, position, length);

put found= position= length=;

call prxnext(expressionid, start, stop, text, position, length);

end;

run;

注:首次运行call prxnext返回一个position,然后进入循环,在抽取满足条件的子串中。再次运行all
prxnext,此时会返回下一个匹配的position;

Eg7:替换文本

data cat_and_mouse;

input text $char40.;

length new_text $ 80;

if _n_ = 1 then match = prxparse("s/[Cc]at/mouse/");

retain match;

call prxchange(match,-1,text,new_text,len,trunc,num);

if trunc then put "note: new_text was truncated";

datalines;

the Cat in the hat

there are two cat cats in this line

here is no replacement

;

run;

版权声明:本文博客原创文章。博客,未经同意,不得转载。

《SAS编程和数据挖掘商业案例》学习笔记# 19的更多相关文章

  1. 《SAS编程和数据挖掘商业案例》第14部分学习笔记

    继续<SAS编程与数据挖掘商业案例>学习笔记系列,本次重点:经常使用全程语句 所谓全程语句.是指能够用在不论什么地方的sas语句,既能够用在data数据步语句里面,也能够用在proc过程步 ...

  2. SAS学习笔记之《SAS编程与数据挖掘商业案例》(5)SAS宏语言、SQL过程

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(5)SAS宏语言.SQL过程 1. 一个SAS程序可能包含一个或几个语言成分: DATA步或PROC步 全程语句 SAS组件语言(SCL) ...

  3. SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(4)DATA步循环与控制.常用全程语句.输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和E ...

  4. SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(3)变量操作.观测值操作.SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 ...

  5. SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定 ...

  6. SAS学习笔记之《SAS编程与数据挖掘商业案例》(1)系统简介和编程基础

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(1)系统简介和编程基础 1. SAS系统简介 1.1 SAS是先编译后执行的语言,data步标志着编译的开始. 数据指针:当前内存缓存区, ...

  7. 《SAS编程与数据挖掘商业案例》学习笔记之十六

    <SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包含:宏变量.宏函数.宏參数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-to ...

  8. 《SAS编程与数据挖掘商业案例》学习笔记之十五

    继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包含:log窗体输出控制.output窗体输出控制.ods输出控制 1.log窗体输出控制 将日志输出到外部文件 ...

  9. 《SAS编程与数据挖掘商业案例》学习笔记之十八

    接着曾经的<SAS编程与数据挖掘商业案例>,之前全是sas的基础知识,如今開始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明. 一:数据挖 ...

随机推荐

  1. Android实战开发租赁管理软件(适配UI,数据的存储,多线程下载)课程分享

    亲爱的网友,我这里有套课程想和大家分享,假设对这个课程有兴趣的,能够加我的QQ2059055336和我联系. 课程内容简单介绍 我们软件是基于移动设备的.所以我们必定的选择了安卓作为我们的开发工具.课 ...

  2. CreateThread、_beginthreadex和AfxBeginThread 的区别

    CreateThread._beginthreadex和AfxBeginThread 创建线程好几个函数可以使用,可是它们有什么区别,适用于什么情况呢?参考了一些资料,写得都挺好的,这里做一些摘抄和整 ...

  3. 图像特征提取方法:Bag-of-words

    Bag-of-words简单介绍 最初的Bag-of-words ,也叫做"词袋",在信息检索中,Bag-of-words model假定对于一个文本,忽略其词序和语法,句法,将其 ...

  4. ural 1837. Isenbaev's Number bfs

    题目链接:http://acm.timus.ru/problem.aspx?space=1&num=1837 描述: Isenbaev是国外的一个大牛. 现在有许多人要参加ACM ICPC. ...

  5. MTK Android Driver:GPIO

    watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2JrODYxMTEw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA ...

  6. JSON-C 的安装与使用

    下载源代码安装步骤 wget http://oss.metaparadigm.com/json-c/json-c-0.9.tar.gz tar xvf json-c-0.9.tar.gz cd jso ...

  7. POJ 1300 Door Man - from lanshui_Yang

    Description You are a butler in a large mansion. This mansion has so many rooms that they are merely ...

  8. hdu 4908 BestCoder Sequence 发现M中值是字符串数, 需要预处理

    BestCoder Sequence Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Other ...

  9. Java http数据MD5、AES、DES加密

    一,数据加密 1.提供了,md5,Hex,Sha等不可逆算法加密 2.AES加密,此加密方式瘦平台影响较重,所以只适合同类平台加密解密 3.DES自定义加密,跨平台,兼容性好 1.org.apache ...

  10. Spring Data Redis—Pub/Sub(附Web项目源码) (转)

    一.发布和订阅机制 当一个客户端通过 PUBLISH 命令向订阅者发送信息的时候,我们称这个客户端为发布者(publisher). 而当一个客户端使用 SUBSCRIBE 或者 PSUBSCRIBE ...