SAS笔记(3) LAG和DIFF函数

在实际的应用中，我们会想查看当前观测的上一个观测值，在上一篇博客中我们使用了RETAIN语句来记录上一条观测，其实SAS还提供了一个很好用的函数LAG。当我们使用函数时，一定要明确该函数的返回值是什么。之前我一直认为LAG就是滞后一阶，返回当前观测的上一个值，实际上这种理解是错误的。

LAG返回的是上一次LAGE函数运行时的实参，即LAG(argument)=上一次LAG函数执行时的argument.

1. LAG函数

1.1 用LAG计算差值

DATA COMPARE;
   INPUT X;
   LAST_X = LAG(X);
   DIFF_X = X - LAST_X;
DATALINES;
4
2
9
6
;
PROC PRINT DATA=COMPARE NOOBS;
   TITLE "Demonstration the LAG Function";
RUN;

在这个例子中，LAG的确返回的是当前数据的上一个值，但是这只是表象，记住:LAG返回的是上一次LAGE函数运行时的实参，即LAG(argument)=上一次LAG函数执行时的argument。具体地，第一个X的值是4，但是在此之前LAG函数并没有执行过，那么它的实参当然是空，所以LAG(4)=.；接着X=2，上一次运行LAG时，LAG的实参是4，所以LAG(2)=4;接着X=9，上一次LAG运行时的实参是2，所以LAG(9)=2，依次类推。也许你觉得这两种理解对结果没有影响，那么我们来看看下一个例子：

DATA LAG2;
   INPUT X;
   IF X > 2 THEN LAG_X = LAG(X);
DATALINES;
1
3
.
5
2
7
; 
PROC PRINT DATA=LAG2;
   TITLE "Listing of LAG1 Data Set";
RUN;

注意，为什么LAG(3)是空呢，3的上一个值不是1吗，LAG(3)滞后一阶不是1吗？所以，记住:LAG返回的是上一次LAGE函数运行时的实参，即LAG(argument)=上一次LAG函数执行时的argument。在这个例子中，因为只用当X>2时才会调用LAG，所以第一次调用LAG时，X=3；当X=5时，第二次调用LAG，此时LAG(5)=3。

1.2 LAG2 LAG3等等

根据LAG可以推测出LAG2 LAG3的用法了：

DATA LAG_N;
   INPUT X;
   LAG_X = LAG(X);
   LAG2_X = LAG2(X);
   LAG3_X = LAG3(X);
DATALINES;
1
2
3
4
5
;
PROC PRINT DATA=LAG_N;
   TITLE "Demonstrating the LAGn Family of Functions";
RUN;

2. DIFF函数

在没有判断语句的前提下，相当于一阶差分 DIF(X)=X-LAG(X)

DATA COMPARE;
   INPUT X;
   DIFF_X = DIF(X);
DATALINES;
4
2
9
6
;
PROC PRINT DATA=COMPARE NOOBS;
   TITLE "Demonstration the DIF Function";
RUN;