关于stata中我们常用到的对数化处理

一、为什么要进行对数化处理

1. 缩小数据的绝对数值，方便计算。

例如，每个数据项的值都很大，许多这样的值进行计算可能对超过常用数据类型的取值范围，这时取对数，就把数值缩小了；在实证模型中，缩小值之后相关系数数值会更大一些（原值可能需要四到五位有效数字）。

2. 取对数后，可以将乘法计算转换称加法计算。

3. 某些情况下，在数据的整个值域中的在不同区间的差异带来的影响不同。

从log函数的图像可以看到，自变量x的值越小，函数值y的变化越快，还是前面的例子，同样是相差了300,但log500-log200>log800-log500，因为前面一对的比后面一对更小。也就是说，对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的，例如对于价格，买个家电，如果价格相差几百元能够很大程度影响你决策，但是你买汽车时相差几百元你会忽略不计了。

4. 取对数之后不会改变数据的性质和相关关系，但压缩了变量的尺度。

例如800/200=4, 但log800/log200=1.2616，数据更加平稳，也消弱了模型的共线性、异方差性等。

5. 且所得到的数据易消除异方差问题。

6. 在经济学中，常取自然对数再做回归，这时回归方程为 lnY=a lnX+b ，两边同时对X求导，1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。

当然，如果数据集中有负数当然就不能取对数了。实践中，取对数的一般是水平量，而不是比例数据，例如变化率等。

二、在进行对数化处理的过程中为什么要加1

如果在原始数据中，有一些数为0，在进行对数化的过程中可能会造成数据的缺失。+1不会让有效样本量变少