浅析阿里 OceanBase 双十一淘宝天猫天量交易承载能力原理

我们先看看这 2 篇文章：

我之前也写过 2 篇文章：

《海量并发下的系统架构和数据库发展之路》 https://www.cnblogs.com/KSongKing/p/9937135.html

《论大并发下的乐观锁定 Redis锁定和新时代事务》 https://www.cnblogs.com/KSongKing/p/9934722.html

阿里的 OceanBase 高速的数据处理和应对大并发的能力的基础是内存计算，即在内存里对数据进行计算，而不是在计算时频繁的读写外部存储器。

对于事务（Transaction）， OceanBase 应该不会把事物日志写到外部存储器（磁盘固态硬盘），而是写入多个服务器节点的内存，

通过多节点来实现可靠性。比如要超过 2/3 的节点正常的写入了事务日志，才会开始事务。

这同样是为了提升速度，事务日志如果写入外部存储器的话，时间上来不及，对天量交易来说太慢了。

从内存计算这一点来看， OceanBase 和 12306 搭建的 Gemfire 集群是相似的。

有关 12306 架构，可以参考我之前写的另一篇文章《漫谈 12306 架构》 https://www.cnblogs.com/KSongKing/p/9550000.html

Gemfire 也是一个内存数据库，不过不是关系数据库，是一个 Key Value 数据库，支持组建集群，也就是水平扩展，这样可以增加处理器和内存数量来支持大并发。

而 OceanBase 和 Gemfire 集群两者在实际中对并发的处理规模也是可以相提并论的。

但是，光凭内存计算等技术实现的卓越性能是否能够应对 “天量”交易？

不能。

我们可以作一个设定，每秒 1000万次以上的交易量称为 “天量" 。

下面我们以每秒 1000万次作为目标来分析如何达到每秒 1000万次这样的并发量。

一个 CPU 核，能够处理每秒 1000次的事务就已经不错了。即使采用了内存计算，能够达到每秒 1000次，已经不错了。

这是一个什么概念呢？就是 1 毫秒（ms）处理一个事务。也就是 1 秒能处理 1000 个事务。

所以，对于每秒 1000万次的事务，需要 1000万 / 1000 = 1 万个 CPU 核，

如果以每台服务器 100 核来看，需要 100 台服务器，

如果以每台服务器 50 核来看，需要 200 台服务器。

大概是这么一个体量。

其次，需要在业务层面进行很细的分库分表。

因为事务会锁定表，这会导致即使有 1 万个 CPU 核，但是对于 A 表的操作同时也只能有一个核（线程）能进行。

这就又回到了和单核（单线程）等价的情形。

大家可能会提出，能不能用行锁定和乐观锁定来代替表锁定？

这 2 种方式我在上面引用的我写的另外一篇文章《论大并发下的乐观锁定 Redis锁定和新时代事务》里都分析过。

但， ……

而且除了锁，事务还有另外一个作用，就是数据完整性，即交易失败时，数据可以恢复原样。

所以，总的来说，传统事务还是必需的。

所以，需要在业务层面进行很细的分库分表。

既然有 1 万个核，最好能分成 1 万个表，这样每个核一个表，大家互相不会干扰，可以跑的很开心。

1 万个核一起欢快的奔跑着，啦啦啦 ~~~

至于分几个库，那大家看着办好了。

而实际上，对于淘宝天猫的业务来讲，还真可以分 1 万个表。

对于淘宝天猫这样的零售业来讲，交易大部分是购买付账，在交易里要做的事是判断库存剩余量，修改商品状态，修改库存。

这样就可以按照商户商品类别来分库分表。

那么，既然这样的话，我们提出一个问题，

能不能不用 OceanBase ，用其它常用的数据库，比如 Oracle, SqlServer, MySql, PostgreSql 等来实现和阿里类似的架构和效果？

能。

我们以 Sql Server 为例， Sql Server 发展到现在，在利用多核和内存上做的很好。

我们以 SqlServer 2017 为例，按照上面计算出来的体量，部署 200 台服务器，每台服务器 CPU 50 核，内存 100 G（相当于每个核 2 G 内存），再加上固态硬盘，

可以达到接近或者类似阿里淘宝天猫架构的效果。