[转]数据对齐对CPU的影响

[转]http://www.cnblogs.com/wuzhenbo/archive/2012/06/05/2537465.html

1.前言

  在IBM开发社区上发现一篇叫'Data alignment: Straighten up and fly right'的文章,下面的很多内容都是来自那篇文章的。 

 内存可以看成一个byte数组,我们通过编程语言提供的工具对这个'大数组'中的每个元素进行读写,比如在C中我们可以用指针一次读写一个或者更多 个字节,这是我们一般程序员眼中的内存样子。但是从机器角度更具体的说从CPU角度看呢,CPU发出的指令是一个字节一个字节读写内存吗?答案是'否'。 CPU是按照'块(chunk)'来读写内存的,块的大小可以是2bytes, 4bytes, 8bytes, 16bytes甚至是32bytes. 这个CPU访问内存采用的块的大小,我们可以称为'内存访问粒度'。

2.程序员与CPU眼中的内存

程序员眼中的内存样子:

--------------------------------- 
| | | | | | | | | | | | | | | | | 
--------------------------------- 
0 1 2 3 4 5 6 7 8 9 A B C D E F  (地址)

CPU眼中的内存样子:(以粒度=4为例) 
--------------------------------------------- 
| | | | |      | | | | |     | | | | |      | | | | | 
--------------------------------------------- 
0 1 2 3     4 5 6 7     8 9 A B     C D E F  (地址)

注:实际上CPU是先访问cache的,当cache中的数据不存在时会以cache line大小为单位每次从memeory中读取数据到cache中,因此此处的粒度指的就是cache line的大小,cache line一般等于机器字长。

3. 访存粒度对CPU访问内存的影响

  假设这里我们需要的数据分别存储于地址0和地址1起始的连续4个字节的存储器中,我们目的是分别读取这些数据到一个4字节的寄存器中,

  •       如果'内存访问粒度'为1

CPU从地址0开始读取,需要4次访问才能将4个字节读到寄存器中; 
同样如果'内存访问粒度'为1,CPU从地址1开始读取,也需要4次访问才能将4个字节读到寄存器中;而且对于这种理想中的''内存访问粒度'为1的CPU,所有地址都是'aligned address'。

  •       如果'内存访问粒度'为2

CPU从地址0开始读取,需要2次访问才能将4个字节读到寄存器中;每次访存都能从'aligned address'起始。 
如果'内存访问粒度'为2,CPU从地址1开始读取,相当于内存中数据分布在1,2,3,4三个地址上,由于1不是'aligned address',所以这时CPU要做些其他工作,由于这四个字节分步在三个chunk上,所以CPU需要进行三次访存操作,第一次读取chunk1(即 地址0,1上两个字节,而且仅仅地址1上的数据有用),第二次读取chunk2(即地址2,3上两个字节,这两个地址上的数据都有用),最后一次读取 chunk3(即地址4,5上两个字节,而且仅仅地址4上的数据有用),最后CPU会将读取的有用的数据做merge操作,然后放到寄存器中。

  •   如果'内存访问粒度'为4

那么从地址1开始读取,需要2次访问,访问后得到的结果merge后放到寄存器中。

      注:有些厂商的CPU发现你访问unaligned address,就会报错,或者打开调试器或者dump core,比如sun sparc solaris绝对不会容忍你访问unaligned address,都会以一个core结束你的程序的执行。所以一般编译器都会在编译时做相应的优化以保证程序运行时所有数据都是存储在'aligned address'上的,这就是内存对齐的由来。

4. 指定访问内存的粒度

我们可以指定按照何种粒度访问特定内存块儿:其中void *T为指向特定内存块的地址指针 
char *p = (char*)T;每次操作一个字节 
short *p = (short*)T;每次操作两个字节 
int *p = (int*)T;每次操作四个字节 
以此类推。

注:在'Data alignment: Straighten up and fly right'这篇文章中作者还得出一个结论那就是:"如果访问的地址是unaligned的,那么采用大粒度访问内存有可能比小粒度访问内存还要慢"。

5. 小结

要想提高对结构体成员的访存速度,需要做到结构体你对齐,如果要做到更高效的访存,最好是将结构体按自然对齐(自然对齐指的是地址是字长的整数倍),但是自然对齐会带来空间的损失,因此结构体对齐是空间和访问时间的折中方案。

  • 结构体一般对齐

原则A:struct或者union的成员,第一个成员在偏移0的位置,之后的每个成员的起始位置必须是当前成员大小的整数倍;

原则B:如果结构体A含有结构体成员B,那么B的起始位置必须是B中最大元素大小整数倍地址;

原则C:结构体的总大小,必须是内部最大成员的整数倍;

  • 结构体自然对齐

struct或者union的成员,第一个成员在偏移0的位置,之后的每个成员的起始地址都做到自然对齐

原文地址:https://www.cnblogs.com/smartjourneys/p/6945326.html