sas单变量的特征分析

sas单变量的特征分析

大炮，我有个烦恼，我领导最近老叫我单变量结合因变量分析，但是都是分段分析，我总是写proc sql然后group by
,但是这个过程好无聊啊，有木有什么新的代码，让我可以分析的快点啊。

最近写了个宏，刚好可以解决你这个问题，在上代码之前，先来个结果图

詹大炮

这个结果对于分析来说是不好的，因为这个结果没啥实际意义，说白了就是跟因变量没关系，但是这个图我们不是要来讲变量怎么有用，我们要介绍的是这段代码最后呈现的一个结果是怎样的。

代码：

%macro ChcAnalysis(DSin, DVVar, VarX,
NBins, Method, DSChc);

proc sort data=&DSin;

by &VarX;

run;

Data temp;

set &DSin ;

by &VarX;

_Obs=_N_;

keep &DVVAr
&VarX _Obs;

run;

proc sql noprint;

%if &Method=1 %then
%do;

select count(&DVVar)
into :N from temp;

select max(_Obs), min(_Obs) into :Vmax,
:Vmin from temp;

%let
BinSize=%sysevalf((&Vmax)/&Nbins);

%let LB_1=0;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=&&Lb_&i
and
_obs<&&Ub_&i;

%end;

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=LB_&NBins and
_obs<=UB_&NBins;

%end;

%else %do ;

select count(&DVVar)
into :N from temp;

select max(&VarX),
min(&VarX) into :Vmax, :Vmin from temp;

%let
BinSize=%sysevalf((&Vmax-&Vmin)/&Nbins);

%let LB_1=&Vmin;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
&VarX>=&&Lb_&i
and
&VarX<&&Ub_&i;

%end;

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
&VarX>=&&Lb_&i
and
&VarX<=&&UB_&i;

%end;

quit;

data &DSChc;

%do i=1 %to &NBins;

Bin=&i;

LowerBound=&&LB_&i;

UpperBound=&&UB_&i;

if
(&&sum_&i =. ) then
N_1=0; else
N_1=&&Sum_&i;

if
&&N_&i=. then
BinTotal=0; else
BinTotal=&&N_&i;

N_0 = BinTotal-N_1;

Percent_1=100*N_1/BinTotal;

Percent_0=100*N_0/BinTotal;

output;

%end;

Run;

proc datasets nodetails nolist
library=work;

delete temp;

run;

quit;

%mend;

詹大炮

还是老样子，分段介绍。

% ChcAnalysis(DSin, DVVar, VarX, NBins,
Method, DSChc);

DSin：填入的是原数据集；

DVVar：填入因变量，这里我们分析的是二元的因变量，所以因变量一定要是二元的，并且必须是数值的0,1。因为在代码中设定的就是这样子的，至于你问我为什么不能是字符，那是因为我还没能耐写字符的。

VarX：你要分析的变量（数值的哈）

NBins：分几段分析。结果的例子是分了5段；

Method：怎么分。1-等高度分，2-等宽度分。我的结果图那个是按2分的。

DSChc：结果数据集的输出名字。

proc sort data=&DSin;by
&VarX;run;

Data temp;

set &DSin ;

by &VarX;

_Obs=_N_;

keep &DVVAr
&VarX _Obs;

run;

将原数据集中的变量排序，后面的分组的时候要用到。然后保留要分析的变量在temp数据集中，产生变量_Obs，作为序号，这是等高度分析的时候要用的。等高度的意思就是每个区间的数量是一样的，等宽度的意思是，区间的的差值是一样的。两个不同的情况，在分析的时候，如果等宽的结果你觉得不是很明显可以分析的话，就换等高，任意切换哈。

temp的数据集是长这样子的：

_obs是观测的序号。

proc sql noprint;

%if &Method=1 %then
%do;

select count(&DVVar)
into :N from temp;

select max(_Obs), min(_Obs) into :Vmax,
:Vmin from temp;

%let
BinSize=%sysevalf((&Vmax)/&Nbins);

%let LB_1=0;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=&&Lb_&i
and
_obs<&&Ub_&i;

%end;

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=LB_&i. and
_obs<=UB_&i.;

%end;

%else %do ;

select count(&DVVar)
into :N from temp;

select max(&VarX),
min(&VarX) into :Vmax, :Vmin from temp;

%let
BinSize=%sysevalf((&Vmax-&Vmin)/&Nbins);

%let LB_1=&Vmin;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
&VarX>=&&Lb_&i
and
&VarX<&&Ub_&i;

%end;

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
&VarX>=&&Lb_&i
and
&VarX<=&&UB_&i;

%end;

quit;

我知道你肯定要说，这密密麻麻的%
&*我不想看。但是你看下嘛，不难的，我介绍介绍给你看嘛。

首先这段代码需要分成两步来看，第一步是当我们的&Method=1
的情况执行do后面的程序，反之，则是当我们的&Method=2的时候的情况啦。

然后我们来讲&Method=1情况时执行的代码：

select count(&DVVar)
into :N from temp;

select max(_Obs), min(_Obs) into :Vmax,
:Vmin from temp;

第一个select赋值宏是算出全部的观测数。

第二个select是算出最大的那个序号，其实我个人觉得这步有点多
余，你想直接用n也可以的，只是我想跟&Method=2的思路一样，所以就没删。

%let
BinSize=%sysevalf((&Vmax)/&Nbins);

%let LB_1=0;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=&&Lb_&i
and
_obs<&&Ub_&i;

%end;

BinSize因为是&Method=1，所以这里BinSize是区间的差值，这里有个宏函数%sysevalf就自己百度下用法吧，这里就不介绍了。%do
i=1 %to
%eval_r(&Nbins-1);这一步就开始循环，这里为什么只循环到倒数第二个呢，是因为倒数第一个直接就是剩下的全部，就不需要再区间限制了。

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

这两步是产生这个分组的上下区间，然后用于后面的select语句中的where条件，把该区间的数量统计出来。

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=&&Lb_&i
and
_obs<&&Ub_&i;

%end;

这个过程特别注意的就是sum(&DVVar)，是用sum，这就是我一开始为什么说因变量是二元的，而且要是0,1的情况就是方便这里统计啦。

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=LB_&i. and
_obs<=UB_&i.;

%end;

这就是第四步啦，

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

产生最后的区间，这里的i是5了，其实我一直很不能理解到这步，为什么还可以输出i=5呢，不是i只循环到4吗？但是执行的时候就是这样子的，这个套路是仿照之前的等高度分变量区间的那个代码写的。

我还特地看了日志也循环了：

我觉得应该是sas的处理流程，在pdv层面应该可以解释，跪求大神在留言区解释。万分感激。

那么&Method=2的部分就留给你自己去看啦，还是&Method=1的那种套路，只是等区间变量等量而已。

data &DSChc;

%do i=1 %to &NBins;

Bin=&i;

LowerBound=&&LB_&i;

UpperBound=&&UB_&i;

if
(&&sum_&i =. ) then
N_1=0; else
N_1=&&Sum_&i;

if
&&N_&i=. then
BinTotal=0; else
BinTotal=&&N_&i;

N_0 = BinTotal-N_1;

Percent_1=100*N_1/BinTotal;

Percent_0=100*N_0/BinTotal;

output;

%end;

Run;

然后这部分就是以上产生的宏，拼接成结果数据集。这里应该注意的是，每循环一个，就是产生一条观测之后output到数据集，如此循环之后需知道i=&nbins为止。数据分析师培训

sas单变量的特征分析的更多相关文章

R 单变量重命名与删除
单变量重命名 b = rename(b,c(target="flag")) 单变量删除 b = b[,names(b)!='age'] 或者 b[,"age&quo ...
机器学习之单变量线性回归（Linear Regression with One Variable）
1. 模型表达(Model Representation) 我们的第一个学习算法是线性回归算法,让我们通过一个例子来开始.这个例子用来预测住房价格,我们使用一个数据集,该数据集包含俄勒冈州波特兰市的住 ...
Coursera《machine learning》--（2）单变量线性回归(Linear Regression with One Variable)
本笔记为Coursera在线课程<Machine Learning>中的单变量线性回归章节的笔记. 2.1 模型表示参考视频: 2 - 1 - Model Representation ...
MATLAB 单变量函数一阶及N阶求导
1 对一维函数的求导及求特定函数处的变量值 %%最简单的一阶单变量函数进行求导 function usemyfunArray() %主函数必须位于最上方 clc clear syms x %syms ...
机器学习（二）--------单变量线性回归(Linear Regression with One Variable)
面积与房价训练集 (Training Set) Size Price 2104 460 852 178 ...... m代表训练集中实例的数量x代表输入变量 ...
[数据可视化之一]Pandas单变量画图
Pandas单变量画图 Bar Chat Line Chart Area Chart Histogram df.plot.bar() df.plot.line() df.plot.area() df. ...
Machine Learning 学习笔记2 - linear regression with one variable(单变量线性回归)
一.Model representation(模型表示) 1.1 训练集由训练样例(training example)组成的集合就是训练集(training set), 如下图所示, 其中(x,y) ...
Ng第二课：单变量线性回归(Linear Regression with One Variable)
二.单变量线性回归(Linear Regression with One Variable) 2.1 模型表示 2.2 代价函数 2.3 代价函数的直观理解 2.4 梯度下降 2.5 梯度下 ...
python 单变量线性回归
单变量线性回归(Linear Regression with One Variable)¶ In [54]: #初始化工作 import random import numpy as np imp ...

随机推荐

js 中继承方式小谈
题外话前段时间面试中笔试题有这道题目: 请实现一个继承链,要求如下: 构造函数A():构造函数中有consoleA方法,可以实现console.log("a") 实例对象 a:a ...
VS2010-MFC（对话框：文件对话框）
转自:http://www.jizhuomi.com/software/173.html 一文件对话框的分类文件对话框分为打开文件对话框和保存文件对话框,相信大家在Windows系统中 ...
夏令营501-511NOIP训练18——高三楼
传送门:QAQQAQ 题意:定义矩阵A与矩阵B重复,当且仅当A可以通过任意次行列交换得到B,例如下图A,B即为合法矩阵现求对于$n*n$的矩阵有多少个不重复的矩阵数据范围: 对于10%的数据 N≤ ...
18.scrapy_maitian_analysis
1_info.py # encoding: utf-8 import pandas as pd # 租房基本信息 # 读取文件 df=dataframe df = pd.read_json(&quo ...
(转)Linux使用RSA密钥登录远程服务器
一切操作都在本机执行,不需要进入远程主机/服务器~~ 1.生成密钥.默认生成的是rsa加密. ssh-keygen 2.私钥是给本地的,公钥是给远程的.下面将公钥上传到远程服务器 ~ ssh-copy ...
关于java 线程的停止同时用 interrupt 和 join 的作用
/** * @FileName: ThreadTest.java * @Description: * @Author : xingchong * @CreateTime: Sep 22, 2018 1 ...
Ansible-playbook简单应用的几个实例
①ansible-playbook的循环: 重复执行某任务:对迭代项的引用,固定变量名为“item”,而后要在task中使用with_items给定要迭代的元素列表,列表方法:字符串/字典(类似jso ...
jvisualvm 工具使用【转】
VisualVM 是Netbeans的profile子项目,已在JDK6.0 update 7 中自带(java启动时不需要特定参数,监控工具在bin/jvisualvm.exe). https:// ...
leetcode-86-分割链表
题目描述: 方法一: # Definition for singly-linked list. # class ListNode: # def __init__(self, x): # self.va ...
C++构造与析构函数中调用虚函数的问题
前些天想把以前写的内存池算法重写一遍,跨平台是第一目标,当时突发奇想,因为不愿意做成一大堆#if..#end,所以想利用C++的多态性,但是怎么让内存池完好退出却没想到自认为完美的方案.但是一个很偶然 ...

sas单变量的特征分析

sas单变量的特征分析的更多相关文章

随机推荐

热门专题