PROC MEANS和PRC FREQ在做描述性分析的时候很常用,用法也比较简单,不过这两个过程步的某些选项容易忘记,本文就梳理一下. 在进入正文前,我们先创建所需的数据集TEST_SCORES: DATA TEST_SCORES; INPUT COUNTY : $9. SCHOOL & $21. TEACHER : $8. MATH SCIENCE ENGLISH; DATALINES; HUNTERDON FLEMING MIDDLE SCHOOL SMITH 92 95 88 HUNTER
Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/4 使用非参数方法的优势: 1. 对总体分布做的假设少,所以总体分布未知也可以: 2. 容易做: 3. 一般对离群值更具鲁棒性robust: 4. 适用于数据中包含ranks, ordinal or categorical的. In a skewed distribution, the population median, η, is a bette
MEANS过程 MEAN过程默认输出的统计量有:观测总数.均值.标准差.最大值和最小值.如果要计算其他统计量或其中的某一些统计量,则可在PROC语句中指定统计量的关键字. BY语句规定了分组变量,要求在BY分组内计算描述性统计量 . proc means data=data.bank min p1 q1 mean median q3 p99 max ; run; UNIVARIATE过程 UNIVARIATE过程也可以提供描述统计量的计算,另外还有统计频数.绘制图形和假设检验的功能. 使用UNI
7.2 频数表和列联表 > library(vcd) > head(Arthritis) ID Treatment Sex Age Improved 1 57 Treated Male 27 Some 2 46 Treated Male 29 None 3 77 Treated Male 30 None 4 17 Treated Male 32 Marked 5 36 Treated Male 46 Marked 6 23 Treated Male 58 Marked 7.2.1 生成频数表