内存屏障、编译屏障：

现代 CPU中指令的执行次序不一定按顺序执行，没有相关性的指令可以打乱次序执行，以充分利用 CPU的指令流水线，提高执行速度。同时，编译器也会对指令进行优化，例如，调整指令顺序来利用CPU的指令流水线。这些优化方式，大部分时候都工作良好，但是在一些比较复杂的情况可能会出现错误，例如，执行同步代码时就有可能因为优化导致同步原语之后的指令在同步原语前执行。

内存屏障和编译屏障就是用来告诉CPU和编译器停止优化的手段。编译屏障是指使用伪指令“memory”告诉编译器不能把“memory”执行前后的代码混淆在一起，这时“memory”起到了一种优化屏障的作用。内存屏障是在代码中使用一些特殊指令，如ARM中的dmb、dsb和isb指令，x86中的sfence、lfence和mfence指令。CPU遇到这些特殊指令后，要等待前面的指令执行完成才执行后面的指令。这些指令的作用就好像一道屏障把前后指令隔离开了，防止CPU把前后两段指令颠倒执行。

内存对齐：

内存地址对齐，是一种在计算机内存中排列数据（表现为变量的地址）、访问数据（表现为CPU读取数据）的一种方式，包含了两种相互独立又相互关联的部分：基本数据对齐和结构体数据对齐。

   为什么需要内存对齐？对齐有什么好处？是我们程序员来手动做内存对齐呢？还是编译器在进行自动优化的时候完成这项工作？

   在现代计算机体系中，每次读写内存中数据，都是按字（word，4个字节，对于X86架构，系统是32位，数据总线和地址总线的宽度都是32位，所以最大的寻址空间为232 = 4GB（也 许有人会问，我的32位XP用不了4GB内存，关于这个不在本篇博文讨论范围），按A[31,30…2,1,0]这样排列，但是请注意为了CPU每次读写 4个字节寻址，A[0]和A[1]两位是不参与寻址计算的。）为一个块（chunks）来操作（而对于X64则是8个字节为一个快）。注意，这里说的 CPU每次读取的规则，并不是变量在内存中地址对齐规则。既然是这样的，如果变量在内存中存储的时候也按照这样的对齐规则，就可以加快CPU读写内存的速 度，当然也就提高了整个程序的性能，并且性能提升是客观，虽然当今的CPU的处理数据速度(是指逻辑运算等,不包括取址)远比内存访问的速度快，程序的执 行速度的瓶颈往往不是CPU的处理速度不够，而是内存访问的延迟，虽然当今CPU中加入了高速缓存用来掩盖内存访问的延迟，但是如果高密集的内存访问，一 种延迟是无可避免的，内存地址对齐会给程序带来了很大的性能提升。

   内存地址对齐是计算机语言自动进行的，也即是编译器所做的工作。但这不意味着我们程序员不需要做任何事情，因为如果我们能够遵循某些规则，可以让编译器做得更好，毕竟编译器不是万能的。

   为了更好理解上面的意思，这里给出一个示例。在32位系统中，假如一个int变量在内存中的地址是0x00ff42c3,因为int是占用4个字节，所以它的尾地址应该是0x00ff42c6，这个时候CPU为了读取这个int变量的值，就需要先后读取两个word大小的块，分别是0x00ff42c0~0x00ff42c3和0x00ff42c4~0x00ff42c7，然后通过移位等一系列的操作来得到，在这个计算的过程中还有可能引起一些总线数据错误的。但是如果编译器对变量地址进行了对齐，比如放在0x00ff42c0，CPU就只需要一次就可以读取到，这样的话就加快读取效率。

   1、基本数据对齐
             在X86，32位系统下基于Microsoft、Borland和GNU的编译器，有如下数据对齐规则：
             a、一个char（占用1-byte）变量以1-byte对齐。
             b、一个short（占用2-byte）变量以2-byte对齐。
             c、一个int（占用4-byte）变量以4-byte对齐。
             d、一个long（占用4-byte）变量以4-byte对齐。
             e、一个float（占用4-byte）变量以4-byte对齐。
             f、一个double（占用8-byte）变量以8-byte对齐。
             g、一个long double（占用12-byte）变量以4-byte对齐。
             h、任何pointer（占用4-byte）变量以4-byte对齐。

            而在64位系统下，与上面规则对比有如下不同：
             a、一个long（占用8-byte）变量以8-byte对齐。
             b、一个double（占用8-byte）变量以8-byte对齐。
             c、一个long double（占用16-byte）变量以16-byte对齐。
             d、任何pointer（占用8-byte）变量以8-byte对齐。

   2、结构体数据对齐
   结构体数据对齐，是指结构体内的各个数据对齐。在结构体中的第一个成员的首地址等于整个结构体的变量的首地址，而后的成员的地址随着它声明的顺序和实际占用的字节数递增。为了总的结构体大小对齐，会在结构体中插入一些没有实际意思的字符来填充（padding）结构体。

   在结构体中，成员数据对齐满足以下规则：
    a、结构体中的第一个成员的首地址也即是结构体变量的首地址。
    b、结构体中的每一个成员的首地址相对于结构体的首地址的偏移量（offset）是该成员数据类型大小的整数倍。
    c、结构体的总大小是对齐模数（对齐模数等于#pragma pack(n)所指定的n与结构体中最大数据类型的成员大小的最小值）的整数倍。