C++11并发内存模型学习

    C++11标准已发布多年,编译器支持也逐渐完善,例如ms平台上从vc2008 tr1到vc2013。新标准对C++改进体现在三方面:1.语言特性(auto,右值,lambda,foreach);2.标准库(智能指针,容器,函数式编程);3.还有最重要,又最容易被忽视的改进,并发内存模型标准的制定。

    什么是内存模型?
    输入一定的内存操作序列,得到一定的内存结果,这种对应关系的集合,就是内存模型,任何一种CPU架构,都有该架构对应的内存模型。C++语言规范定义了一个虚拟机,这个虚拟机的指令集就是标准C++语句,虚拟机执行C++语句,对内存操作并得到相应的结果,这就是C++内存模型。直到C++03,C++都没有定义并发环境下的内存模型,之前的内存模型只适用于单线程。C++03并发环境下的内存模型,都是具体的编译器,运行库、操作系统及具体硬件定义。在并发环境下,同一序列的C++代码在不同编译器、不同运行环境、不同硬件平台上得到的内存结果可能会不一样。也就是说,到C++03为止,C++并发环境下的代码,不可移植,容易产生混乱。

    C++11的今天,程序员再没有免费的午餐,提升程序执行效率的手段必须与并发紧密结合,标准委员会已经意识到并发内存模型制定的重要性。并发内存模型制定后,任何一份符合C++标准的可并发代码(不包含特定平台API调用,特定平台汇编嵌入),在任何符合C++标准的编译器上编译,得到的二进制内容的运行时行为一致。

    并发不等于多线程!

    并发是指,多线程同时调度到多个cpu核心,并行执行。在以前单cpu核心系统上,多个线程的代码被限制在但个cpu核心上串行执行,所以C++03内存模型依然适用。多核心时代情况有所区别,不同线程的代码会并发执行,在这种情况下,内存(中的共享变量)在每个核心看来,是怎么样变化的?能看到变化吗?能看到变化的顺序一致吗?

    如果渴望能看到变化,或者更严格,看到变化的顺序也一致,就需要:缓存一致性和顺序一致性。

    缓存一致性:多核心系统,每个核心有私有的缓存,如果2个或以上核心的私有缓存引用了相同的内存位置,在并发执行情况下,就会出现有趣的现象。例如核心1刚把数据写到缓存(还没有回写内存),接着核心2读取内存,证核心2能读的到最新的数据吗?也就是说,核心2能看见核心1对内存的修改吗?缓存一致性机制保证了核心2能看到核心1对内存修改这一行为。http://en.wikipedia.org/wiki/Cache_coherence
有了缓存一致性,是不是就保证C++程序并发跨平台行为一致呢,不一定,因为从高级语言到机器码,隔了很多层。cpu实际执行的指令序列与源代码的语句序列有区别,于是引出另一个概念——顺序一致性。

    为什么强调顺序一致,因为:1.源代码顺序与编译出来的机器码顺序不一致;2.编译出来的机器码顺序与执行顺序不一致;3.并发执行时,每个核心观察到的总体指令序列不一致,或者说,内存改变的顺序不一致,这与cpu核心与核心之间共享数据同步策略有关。http://en.wikipedia.org/wiki/Sequential_consistency
什么情况下会破坏顺序一致性:a.编译器优化破坏顺序一致,例如为了优化cpu缓存效率而把load指令都集中一起先执行,再执行store指令的指令顺序优化,又例如提升执行效率的变量寄存器化;b.即使编译器不做任何优化,cpu也会执行优化,例如乱序执行,操作数预取等,这些行为破坏顺序一致性。顺序一致性对并发究竟产生什么影响?最简单设想:1.如果临界区锁仍然有效,但lock之前以及之后的代码被cpu乱序执行了,什么后果;2.又或者lock成功后,得到的结果并不能反映最近一次unlock的修改。

    C++11并发内存模型提供了什么给程序员?通过C++标准库,为程序员提供:“是否对代码启用顺序一致性及启用何种程度的顺序一致性”选项,这些选项就是std::memory_order。先了解几个概念再展开memory_order:

    1.synchronizes with:多核心情况下,核心1对内存变量a修改后,紧接着核心2读取内存a,如果核心2能读到核心1修改的内容,那么,变量a就具有synchronizes with属性。通过观察具有synchronizes with属性变量的变化顺序,能够得到核心之间执行指令的顺序,用以确定happens before关系。注意,并不是所有内存变量都具有synchronizes with属性,因为这些变量可能被编译器或者cpu优化掉。

    2.happens before:多核心情况下,如果指令A保证在指令B之前执行,就叫做A happens before B。并发环境下,happens before关系相当重要,例如lock及lock之后的代码就是happens before的关系。happens before关系与观测者有关,不同的观察者看到的顺序可以不同,也可以相同,将在展开memory_order_acquire和memory_order_release的时候举例子。

    3.acquire和release:与锁拥有类似的特性(这里的特性不是指阻塞,而是指指令序列),acquire与acquire之后的代码必然是happens before关系,acquire之后必然能够看见最近一次release操作所引起的内存变化;release操作完成后,在其他核心看来(其他核心必须使用acquire),该内存已产生变化,release之前的所有操作(源代码角度)在release之后都是有效——happens before。

    OK,逐一展开memory_order枚举

    memory_order_relaxed:最松散,或者说,不执行顺序一致性。该内存操作保证是原子操作,但可以在编译时优化或在运行时被cpu执行任意优化。而且在多核心平台上,relax操作产生的结果可能不会被立即同步到其他核心(没有synchronizes with属性),其他核心不会立即看见这个操作。relax的原子操作与上下文代码没有happens before的关系,也就是没有release语意。

    先看看memory_order_acquire和memory_order_release:这对操作具有acquire和release语义,被操作的内存变量在实施操作的核心之间有synchronizes with属性,可以保证源代码及编译后机器码顺序一致,但这种保证仍然不够严格,看这个例子:

 -Thread 1-  y.store (20, memory_order_release);

 -Thread 2-  x.store (10, memory_order_release);

 -Thread 3-  assert (y.load (memory_order_acquire) == 20 && x.load (memory_order_acquire) == 0)

 -Thread 4-  assert (y.load (memory_order_acquire) == 0 && x.load (memory_order_acquire) == 10)

运行时,两个assert都可能同时不触发,在t3角度看来xy的改变顺序与t4角度允许不一致,xy顺序无关,无论在源代码的角度,还是机器码的角度。如果没有t3和t4的观察,xy的执行顺序既是x-y,也是y-x,是不是跟那个什么猫的实验很像。如果要所有核心看来顺序一致,就要用memory_order_seq_cst。

    再看看memory_order_consume:与acquire类似,但不会涉及到代码上下文内与原子操作不相关的内存变量,看这个例子:

-Thread 1-  

n = 1  

m = 1

p.store(&n, memory_order_release)

-Thread 2-  

t = p.load(memory_order_acquire);  

assert( *t == 1 && m == 1 );

-Thread 3-  

t = p.load(memory_order_consume);  

assert( *t == 1 && m == 1 );

t3会fail,因为p与m无关,(p只与n有关),所以t3角度只得到n,p的release结果,m没有被同步,相反,t2会同步n、m、及p。

    memory_order_acq_rel:这个不用介绍了。

    memory_order_seq_cst:最严格的顺序一致性,所有标记seq_cst的操作,顺序都不能被打乱(不能被编译器优化,不能被cpu乱序),无论从代码角度(源代码)还是cpu指令流(并发执行)的角度。在任意一个核心看来,所有标记为seq_cst的操作的顺序都一致。

    说了这么多,C++11并发内存模型究竟起到什么作用,没有C++11并发内存模型,以前并发代码仍然可用!是的,因为以前的代码用了系统相关的锁,带有acquire和release语义,不过,这些代码不可移植。试想我们要编写一个用户模式下的spinlock,怎么做?vc下可以用interlockxxx这类编译器内置函数完成,你没看错,interlockxxx既不是C++标准,也不是windows API,它是ms c++编译器的内置函数(msdn remark有这样一段This function is implemented using a compiler intrinsic where possible),用于指导编译器生成顺序一致性代码。有了C++11并发内存模型,你就可以用标准库atomic和memory_order的memory_order_acquire、memory_order_release完成spinlock的编写,既符合C++标准,也具备一致性,而且代码的行为也得到保证。

参考

http://www.open-std.org/jtc1/sc22/wg14/www/docs/n1525.htm

http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2007/n2338.html

http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2007/n2480.html

http://gcc.gnu.org/wiki/Atomic/GCCMM/AtomicSync

http://gcc.gnu.org/wiki/Atomic/GCCMM/AtomicTypes

http://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-software-developer-vol-3a-part-1-manual.pdf

8.2.2及8.2.3章节

http://msdn.microsoft.com/en-us/library/windows/desktop/ms686355(v=vs.85).aspx

http://msdn.microsoft.com/en-us/library/windows/hardware/ff540496(v=vs.85).aspx

原文地址:https://www.cnblogs.com/rickerliang/p/3380302.html