SAS中的Order By - Proc Sort

1.排序proc sort

proc sort在按数据集中某一个变量或几个变量的升序或降序将记录重新排列，并把结果保存在输出数据集中，如果不另外指定输出数据集，则覆盖输入数据集。

在data步和proc步某些操作中，当需要用到by语句时，一般都需要源数据集按照by语句中的变量事先排序，这里就需要用到proc
sort。

By - Proc Sort">

(1)语法格式

PROC SORT ;

BY variable-1 <... variable-n>;

proc sort一些常用的选项：

·数据集选项

data= 输入数据集，缺省时使用最近创建的数据集

out= 输出数据集，缺省时表示排序后覆盖源数据集

·排序序列选项

sortseq=
指定排序的序列，这跟使用的操作系统有关，Windows/Unix都是ASCII编码，一般这个选项缺省就行；也可以直接在proc
sort后面加上编码名称。

·修改排序次序的选项

reverse
使用由正常排序序列相反的排序序列对字符变量进行排序，可以被by语句中的descending选项取代，reverse只能用于字符变量。

equals|noequals
规定输出数据集中具有相同by变量的那些记录的次序，equals选项是保持在输入数据集中原来的相对次序，而noequals选项则没有这一限制。

·删除重复记录的选项

noduprecs 删除重复的记录，发生在排序后，将完全相同的记录删除。

nodupkey
删除重复的by变量记录，发生在排序中，sort过程读取输入数据集中的记录，在写入输出数据集时先比较by变量值，如有重复则部写入输出数据集。这个选项要小心使用，因为SAS会删除by变量重复的记录，而不管该记录是不是重复的，这样就会丢失有效的数据。

·其他选项

datecopy
保留数据集创建或修改的日期，缺省时排序也会被认为是修改，上次的修改时间就会被覆盖，可是有些时候我们并不希望SAS这么做。

force 强制排序，不管输入数据集是否已经排序或有索引，都进行重新排序

内存与磁盘优化选项排序在各种语言中是一种基本的算法，当数据集很大时会占用大量的计算机资源，这些选项提供算法在这方面的优化。

by语句

缺省情况下，是按照变量进行升序排列(ascending)，降序则要显性的用descending指明。

特别的是，这两个关键字应该写在变量的前面，而其他语言可能相反，如SQL将排序关键字放在变量之后。

(2)运行机制

proc
sort会先检查输入数据集的排序信息，特别是sortedby=选项，如果输入数据集提示已经按照by变量进行过排序，或者sort过程检测到数据集中记录的顺序按照by变量本来就是有序的，则proc
sort就会偷懒，不进行排序，直接将输入数据集复制到输出数据集中；另外，如果输入数据集在by变量上已经创建索引，则也不进行排序，因为排序之后会破坏原来的索引。除此之外，proc
sort才会进行排序。

那么，如果用户要强制sort过程进行排序呢？那就需要用到force选项了。

(3)实例

对数据集按年龄大小进行排序，相同年龄的观测仍然按原来的次序。

proc sort data=age equals;http://www.cda.cn/view/18248.html

by age;

run;

SAS中的Order By - Proc Sort的更多相关文章

Hive中的order by、sort by、distribute by、cluster by解释及测试
结论: order by:全局排序,这也是4种排序手段中唯一一个能在终端输出中看出全局排序的方法,只有一个reduce,可能造成renduce任务时间过长,在严格模式下,要求必须具备limit子句. ...
2.12 Hivet中order by，sort by、distribute by和cluster by
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy 一.order by 对全局数据的排序,仅仅只有一个red ...
SAS中的聚类分析方法总结
SAS中的聚类分析方法总结说起聚类分析,相信很多人并不陌生.这篇原创博客我想简单说一下我所理解的聚类分析,欢迎各位高手不吝赐教和拍砖. 按照正常的思路,我大概会说如下几个问题: 1. 什么是 ...
PROC SORT
PROC SORT DATA=输入数据集 <OUT=输出数据集><选项>; BY 关键变量; RUN; PROC SORT 语法如上,其中在尖括号中的可以不出现,也不会报错. ...
Hive中的Order by与关系型数据库中的order by语句的异同点
在Hive中,ORDER BY语句是对查询结果集进行整体的排序,最终将会产生一个reducer进行全局的排序,达到的最终结果是和传统的关系型数据库是一样的. 在数据量非常大的时候,全局排序的单个red ...
mysql中的order by
一.order by的原理 1.利用索引的有序性获取有序数据当查询语句的 order BY 条件和查询的执行计划中所利用的 Index 的索引键(或前面几个索引键)完全一致,且索引访问方式为 ran ...
hive的排序 order by和sort by
在算法中,各个排序算法的复杂度都比较高,正常情况下为O (nlogn) ,所以当数据量特别大的时候,对数组进行排序消耗都很大. 因为hive的计算引擎MapReduce是分布式系统, 利用分布式的特点 ...
在UPDATE中更新TOP条数据以及UPDATE更新中使用ORDER BY
正常查询语句中TOP的运用: SELECT TOP 1000 * FROM MP_MemberGrade 随意更新一张表中满足条件的前N条数据: UPDATE TOP (1) MP_Member ...
SAS中常见的数组函数
SAS中常见的数组函数有: dim dimk hbound hboundk lbound lboundk 数组函数计萁数组的维数.上下界,有利于写出可移植的程序,数组函数包括:dim(x) 求数组x第 ...

随机推荐

2019牛客暑期多校训练营（第一场） - A - Equivalent Prefixes - 单调栈
A - Equivalent Prefixes - 单调栈题意:给定两个n个元素的数组a,b,它们的前p个元素构成的数组是"等价"的,求p的最大值."等价"的 ...
oracle ALL视图
select * from ALL_ALL_TABLES -- 用户可存取的所有表. select * from ALL_BASE_TABLE_MVIEWS -- 用户可存取的所有物化视 ...
Vue小白篇 - Vue介绍
Vue ?啥是Vue?能干嘛? vue 的介绍 Vue 是一套用于构建用户界面的渐进式框架 ,与其它大型框架不同的是, Vue 被设计为可以自底向上逐层应用.Vue 的核心库只关注视图层前端三大框 ...
JS中对象数据类型的基本结构和操作
Object类型 ECMAScript中的队形其实就是一组数据和功能的集合.对象可以通过执行new操作符后跟要创建的对象类型的名称来创建.而创建Object类型的示例并为其添加属性和(或)方法,就可以 ...
vue 踩坑之组件传值
Vue 报错[Vue warn]: Avoid mutating a prop directly since the value will be overwritten whenever the pa ...
关于Visual Studio Code 以及一些工具
常用插件 Path Intellisense 路径提示 open in browser 打开浏览器 ALT+B 代码块 ctrl + shift + p/或者设置(左下角右下角的齿轮)=> 命令 ...
快速的统计千万级别uv
菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧写一个统计uv和pv的系统吧网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己 ...
靶场练习--sqli(3&4)
第三关先解决一下第二关遗留下来的问题,嘻嘻.看来数据库原理应当过一遍~ 1.首先判断是否有SQL注入,然后再看是数字型.字符型.发现这里是字符型. 2.order by 查询字段数,记得后面要加一个 ...
JetbrainsCrack-4.2-release-enc.jar 激活补丁包
http://wangshuo.jb51.net:81/201904/tools/JetbrainsCrack_jb51.rar ps:这里提供jetbrainscrack-2.10.jar.jetb ...
Tomcat架构与原理
Tomcat架构与原理架构图原理 ①.用户点击网页内容,请求被发送到本机端口8080,被在那里监听的Coyote HTTP/1.1 Connector获得. ②.Connector把该请求交给它所 ...

SAS中的Order By - Proc Sort

SAS中的Order By - Proc Sort的更多相关文章

随机推荐

热门专题