从内存到 CPU Cache 之间的数据读写的时间消耗是线程切换性能消耗的主要原因之一是不正确的

有观点认为，从内存到 CPU Cache 之间的数据读写的时间消耗是线程切换性能消耗的主要原因之一。这是不正确的。

这是一个误区。

换句话说，从内存到 CPU Cache 之间的数据读写的时间消耗不是线程切换性能消耗的主要原因。

若要 “从内存到 CPU Cache 之间的数据读写的时间消耗是线程切换性能消耗的主要原因之一” 这一观点成立，需要满足以下 2 点：

1 线程切换时将线程的整个栈载入 CPU Cache

2 线程执行的代码用到的数据全部都在栈里

要弄清楚这个问题，需要考虑一点， CPU 对于 Cache 的管理，是不是和操作系统虚拟内存一样的 “页式管理” ？

函数的调用层级越多，栈里存的上下文数据就越多，上下文数据是函数每次调用的参数和局部变量。

栈的数据多，是不是也会增加 CPU Cache 和内存之间载入载出数据的次数？

假设一个任务进行了 1000 层函数调用，可以考虑分解为 10 个任务，平均每个任务进行 100 层函数调用，这样栈数据也会减少到只有 1/10 。

因为在 1000 层调用中，实际上大部分局部变量和参数并不是从头到尾都用到，也不需要因为参数传递等原因在栈里重复保存。

分解为 10 个任务后，每个任务返回下一个任务需要用到的数据，这只是少数的几个值。

这样就减少了栈数据，也就是减少了栈对内存空间的使用。这样，是不是就可以减少 CPU Cache 和内存之间载入载出数据的次数？

这个问题，已经不是线程切换的问题，即使只有一个线程或少数几个线程，这个问题一样的存在。

将多层函数调用分解为函数调用层级较少的多个任务，这种模式或架构称为 “任务机” 。

异步回调框架只是刚好自然的在一定程度上将程序架构变成了任务机。异步回调框架比如 libuv 、netty ，异步回调思想和框架在 java 社区和 Linux 服务器端很流行。

node.js 也是异步回调框架的代表， node.js 也使用 libuv 。

以高并发著名的 Erlang 似乎就是任务机。

Erlang ，可以说是一个操作系统，也可以说是一个平台，也可以说是一个框架。

由此，大家可以看看， C# 的 async await 解决的是语法糖问题，还是性能问题，还是什么问题？

这些问题分析清楚了，可以在程序的层面由程序员解决，不用搞 “抽象层” 、语法糖、 “黑魔法” 。 “黑魔法” 出自 “编译器黑魔法” 。

假设 CPU Cache，比如三级 Cache ，和内存之间的数据映射和载入载出是 “页式管理”，

假设现在有一个线程，运行完后销毁，然后再创建一个新的线程，同样也是运行完后销毁，再创建一个新的线程，重复这个过程。

假设这个过程中创建和销毁了 1000 个线程，但考虑到栈空间可能会重复利用，也就是说，操作系统分配给新线程的栈空间是刚销毁的线程的栈空间，

这样的话，这 1000 个线程使用的是同一段栈空间，则在创建、运行、销毁这 1000 个线程的过程中，这段栈空间可以常驻 CPU Cache，不用重复的和内存映射地址和载入载出数据。

也就是说，只需要在创建第一个线程时将栈空间从内存映射到 CPU Cache（比如三级 Cache），和从内存载入数据。

之后，栈空间就常驻 CPU Cache，在创建、运行、销毁这 1000 个线程的过程中， CPU 直接读写 Cache，而 Cache 不需要向内存载入载出数据。

当然，线程启动时栈数据通常并不多，就是入口函数的几个参数，但是， CPU （存储管理部件）并不知道栈空间里哪些数据有用，哪些没用，会把整个页的数据从内存加载到 Cache 。

这里说整个页，而不是整个栈，因为，如果栈的空间比较大，由多个页组成，那么，不一定一次就将栈的全部页从内存载入 Cache，这和操作系统虚拟内存的管理方法可能是类似的。

当 Cache 空间不够时，栈的不常用的一些页可能会被载出，将空间腾出来给其它的数据用。

同理，假设有 100 个线程，每个线程运行完成后，就销毁，并创建新的线程，运行，完成后销毁，再创建新的线程，重复这个过程。

这样，线程的数量保持在 100 个，假设创建和销毁了 1 万个线程，这个过程中，线程数量保持在 100 个，考虑到操作系统会重复利用栈空间，就是会把销毁的线程的栈空间分配给新的线程用，这样，假设这 100 个线程的栈一开始就在 Cache 里，比如三级 Cache，那么，在创建、运行、销毁了 1 万个线程的过程中，这 1 万个线程的栈空间始终都在 Cache 里，不会和内存载入载出数据。

当 Cache 不够时，会将一些不常用的页载出到内存，将空间腾出来给其它的数据用。此时，一些比较长时间未运行的线程的栈的页可能会被载出，最近运行的一些线程的栈中比较长时间未用到的数据的页也可能被载出。

Cache 除了存栈数据，还会存堆数据和操作系统数据，等等。

但事实上，栈空间可能不是操作系统来分配，而是应用程序自己分配，如果是在运行时创建线程，可能是从堆里分配，这样，新创建的线程的栈空间是否使用刚销毁的线程的栈空间，这取决于应用程序对堆的使用情况和管理方式。也许，新创建的线程的栈空间使用刚销毁的线程的栈空间是一个理想状况。

比较理想的状况是，只有少数几个线程，这几个线程的栈都在 Cache 里，这几个线程执行的都是小任务。小任务指函数调用层级较少的任务。

小任务之间通常通过堆共享（传递）数据，从这个角度来看，堆的申请分配算法可能在最近用到的空间附近分配比较好，这样可以比较大概率避免在 Cache 在内存间载入载出数据。

比如一个小任务返回了一个 DataTable，放在堆里，下一个小任务要用到这个 DataTable，同时也要申请一些堆空间，如果在这个 DataTable 的邻近位置申请空间，则新申请的空间和 DataTable 的空间是邻近的，可能在一个页里，而这个页在存 DataTable 时就应该在 Cache 里，这样下一个小任务申请空间就可以直接使用 Cache 里的这个页，不用映射一块新的内存空间（页），也不用从内存载入数据到 Cache 。

即使上一个小任务的数据大于一个页，或者下一个小任务的数据大于一个页，或者上一个小任务和下一个小任务的数据加起来大于一个页，但，只要在最近用到的空间附近分配新申请的内存块，应该能营造出常用的页比较大概率总是在 Cache 的效果。这样可以避免在 Cache 和内存间频繁载入载出数据。

但问题是，怎样是 “最近用到的空间”，我觉得简单的办法就是刚刚分配或者回收的空间附近。

但应该指出，以上只是从一个角度来考虑堆分配的策略，不是全面的考虑。

由上，可以看到，协程也存在同样的问题，协程并不能减小任务的栈数据，协程的作用应该主要是避免了线程切换和调度时切换到操作系统进程的开销。

协程切换，只是在线程里简单的执行几句代码，和执行几句普通代码一样。

线程切换，需要中断发起，调用操作系统原语，切换到操作系统进程，操作系统还要做一些调度逻辑，总之看起来是比较繁琐 “重型” 的一个过程。

“重型” ，是 “轻量” 的反义词。

和线程切换相比，协程切换就很轻量。

如果协程很多，这些协程的栈空间加起来远远大于 CPU Cache，比如三级 Cache，那么，当协程切换时，大概率的，切换到的协程的栈空间不在 Cache 里，要从内存映射到 Cache，并载入数据。

所以，协程也不能搞太多。

我以前写过一篇文章《再见异步回调，再见 Async Await， 10 万个协程的时代来了》 https://www.cnblogs.com/KSongKing/p/10802278.html ，

但现在看来，协程也不能玩 10 万个。

“线程切换的性能消耗” 的问题的本质是 CPU Cache 和内存间的时间延迟和保存了很多个执行单位的上下文数据之间的矛盾制约。

广义的， CPU Cache 和内存间的时间延迟是分级存储的时间延迟，也可以说是分级存储的瓶颈，

所以，也可以说， “线程切换的性能消耗” 的问题的本质是分级存储的时间延迟和保存了很多个执行单位的上下文数据之间的矛盾制约。

或者， “线程切换的性能消耗” 的问题的本质是分级存储的瓶颈和保存了很多个执行单位的上下文数据之间的矛盾制约。

在计算机系统结构中，分级存储普遍存在，比如硬盘和内存组成的虚拟内存，内存和 CPU 三级 Cache， CPU 一级 Cache 二级 Cache 三级 Cache 。

对于分级存储和多线程高并发的瓶颈制约，其实，线程池 + IO 异步是简单直接的解决方法。

C# async await 看起来也是把源代码切割成了一个个任务，也算是任务机，但实际的性能如何？

而《云原生时代，Java还能走多远？》 https://mp.weixin.qq.com/s?__biz=MzIzNjUxMzk2NQ==&mid=2247503699&idx=1&sn=3280cd6dbcb8b098b237387b236a16d4&chksm=e8d43091dfa3b987e82e21bda120e0b836199a54e8977bd3fd041e85e745d2a3c6f72fe484e4&mpshare=1&scene=23&srcid=12178I7ZbPMDZPC800erHFzw&sharer_sharetime=1608212243039&sharer_shareid=3ccc4c584e52d03ca8b47b71b3001007#rd

这篇文章里讲到：

“

一次内存访问（将主内存数据调入处理器 Cache）大约需要耗费数百个时钟周期，而大部分简单指令的执行只需要一个时钟周期而已。因此，在程序执行性能这个问题上，如果编译器能减少一次内存访问，可能比优化掉几十、几百条其他指令都来得更有效果。

……

通过分析，得知一个对象不会传递到方法之外，那就不需要真实地在对中创建完整的对象布局，完全可以绕过对象标识符，将它拆散为基本的原生数据类型来创建，甚至是直接在栈内存中分配空间（HotSpot 并没有这样做），方法执行完毕后随着栈帧一起销毁掉。

”

这个优化也是因为冯诺依曼瓶颈，也就是内存到 CPU 之间的时间延迟，也就是 CPU 和内存之间的速度差，也就是从内存到 CPU Cache 之间的数据读写的时间消耗。

但是，这个优化也是没有意义的，道理同上。

编译器没有必要去干这些无聊的事。无聊的事指各种各样奇形怪状的优化。

现代编译器的优化技术深奥复杂，俨然各家各派的秘技，哈哈哈哈。

一个架构，一个设计，简单明了，效率自然就高，且安全健壮。

优化，通常针对一些特定的情况，越特殊的情况，优化步骤大概越繁琐复杂。

优化，会不会篡改和擅自揣测源代码的意图，增加系统的不透明性，对安全和健壮性造成隐患？

优化会产生一些代码副本，导致代码膨胀。对每一种特定情况的优化会产生一段特定的代码，对应一个特定的代码副本，也就是说，一份源代码，经过优化，得到若干份目标代码副本，这就是代码膨胀。

当然，这里的副本，并不一定对应全部源代码，而是对应被优化的那一段代码，被优化的一段代码会产生若干副本，用在适合的场合。

比如，这个场合用这个副本更高效，就使用这个副本，另一个场合使用另一个副本更高效，就使用另一个副本。

副本导致代码膨胀，也就是目标代码的代码量增加，这意味着代码占用的存储空间增加，这是不是也会增加 CPU Cache 和内存之间载入载出数据的次数？

代码膨胀，和泛型相似，和泛型类比一下就很清楚。泛型为每一种具体类型生成一份代码，造成了代码膨胀，泛型是代码膨胀的经典代表。

什么 “尾递归优化”，如果觉得栈的大小不够，怕堆栈溢出，可以在堆（Heap）里创建一个栈（new Stack()），把递归的参数存在这个 Stack 对象里，自己递归。

如果希望把递归写成循环，且能写成循环，自己写不是更香吗？

说起优化，会想起简单类型和结构体的赋值和参数传递，这又想起内存的数据复制， CPU 的一级 Cache 二级 Cache 三级 Cache 之间，三级 Cache 和内存之间，内存和内存之间，存不存在 “批量复制” 数据？

批量复制，如果存在，应存在于汇编和硬件层面。

我记得在什么地方看到过， C 语言里有一个宏还是关键字是内存的批量复制。这个宏或关键字好像还是 Windows 操作系统特有的。

按理，批量复制应该存在，内存和外设之间，是有批量复制的，可以连续传输一个数据块，完成后，再通知 CPU 。这是内存和外设的控制电路实现的功能。

所以，按理， CPU 的一级 Cache 二级 Cache 三级 Cache 之间，三级 Cache 和内存之间，内存和内存之间，存在 “批量复制” 数据。

事实上，上面提到 CPU Cache 和内存之间的数据载入载出是否是 “页式管理”，这样的话， CPU Cache 和内存之间的数据载入载出，包括批量复制，这部分是 CPU 硬件设计比较复杂和重要的一块。

《云原生时代，Java还能走多远？》这篇文章还提到：

“

Java 语言抽象出来隐藏了各种操作系统线程差异性的统一线程接口，这曾经是它区别于其他编程语言（C/C++ 表示有被冒犯到）的一大优势，不过，统一的线程模型不见得永远都是正确的。

Java 目前主流的线程模型是直接映射到操作系统内核上的 1:1 模型，这对于计算密集型任务这很合适，既不用自己去做调度，也利于一条线程跑满整个处理器核心。但对于 I/O 密集型任务，譬如访问磁盘、访问数据库占主要时间的任务，这种模型就显得成本高昂，主要在于内存消耗和上下文切换上：64 位 Linux 上 HotSpot 的线程栈容量默认是 1MB，线程的内核元数据（Kernel Metadata）还要额外消耗 2-16KB 内存，所以单个虚拟机的最大线程数量一般只会设置到 200 至 400 条，当程序员把数以百万计的请求往线程池里面灌时，系统即便能处理得过来，其中的切换损耗也相当可观。

”

这个线程昂贵的问题，不是由 “异步回调流” 解决了吗？怎么还会影响到 “云原生时代的 java” ？和 “云原生” 有什么关系呢？

“异步回调流” 是 “异步回调流派” 的简称。

还可以看看这篇文章《现代存储性能“过剩”，API成最大瓶颈》 https://mp.weixin.qq.com/s?__biz=MzIzNjUxMzk2NQ==&mid=2247503386&idx=2&sn=f8b78a53f1a44c2640037eb9bd5aa0d6&chksm=e8d431d8dfa3b8ce646c80aa0e0aefb9a1f346cd21891ded96053f969ebbf5476b2b239776f1&mpshare=1&scene=23&srcid=12175huoFGNEG27KJvOhXpmy&sharer_sharetime=1608212465010&sharer_shareid=3ccc4c584e52d03ca8b47b71b3001007#rd

从 内存 到 CPU Cache 之间 的 数据读写 的 时间消耗 是 线程切换 性能消耗 的 主要原因 之一 是 不正确 的

从内存到 CPU Cache 之间的数据读写的时间消耗是线程切换性能消耗的主要原因之一是不正确的