Docker容器可以使用容器平台管理自动重启实现自修复吗？

容器的自修复功能是经常被吹嘘的。因为容器是衣服，人躺下了，衣服也躺下了，容器平台能够马上发现人躺下了，于是可以迅速将人重新唤醒工作。

而虚拟机是房子，人躺下了，房子还站着。因而虚拟机管理平台不知道里面的人能不能工作，所以容器挂了会被自动重启，而虚拟机里面的应用挂了，只要虚拟机不挂，很可能没人知道。

这些说法都没错，但是人们慢慢发现了另外的场景，就是容器里面的应用没有挂，所以容器看起来还启动着，但是应用已经不工作没有反应了。

当启动容器的时候，虽然容器的状态起来了，但是里面的应用还需要一段时间才能提供服务。

所以针对这种场景，容器平台会提供对于容器里面应用的 health check，不光看容器在不在，还要看里面的应用能不能用，如果不能，可自动重启。

一旦引入了 health check，和虚拟机的差别也不大了，因为有了 health check，虚拟机也能看里面的应用是否工作了，不工作也可以重启应用。

还有就是容器的启动速度快，秒级启动，如果能够自动重启修复，那就是秒级修复，所以应用更加高可用。

这个观点当然不正确，应用的高可用性和重启的速度没有直接关系。高可用性一定要通过多个副本来实现，在任何一个挂掉之后，不能通过这一个应用快速重启来解决，而是应该靠挂掉的期间，其他的副本马上把任务接过来进行解决。

虚拟机和容器都可以有多副本，在有多个副本的情况下，重启是 1 秒还是 20 秒，就没那么重要了，重要的是挂掉的这段时间内，程序做了什么。

如果程序做的是无关紧要的操作，那么挂了 20 秒，也没啥关系；如果程序正在进行一个交易和支付，那挂掉 1 秒也不行，也必须能够修复回来。

所以应用的高可用性要靠应用层的重试，幂等去解决，而不应该靠基础设施层重启的快不快来解决。

对于无状态服务，在做好重试的机制的情况下，通过自动重启修复是没有问题的，因为无状态的服务不会保存非常重要的操作。

对于有状态服务，容器的重启不但不是推荐的，而且可能是灾难的开始。

一个服务有状态，例如数据库，在高并发场景下，一旦挂了，哪怕只有 1 秒，我们必须要弄清楚这 1 秒都发生了什么，哪些数据保存了，哪些数据丢了，而不能盲目的重启，否则很可能会造成数据的不一致性，后期修都没法修。

例如高频交易下的数据库挂了，按说 DBA 应该严格审核丢了哪些数据，而不是在 DBA 不知情的情况下，盲目的重启了，DBA 还觉得没什么事情发生，最终很久才能发现问题。

所以容器是比较适合部署无状态服务的，随便重启都可以。

而容器部署有状态容器不是不能，而是要非常小心，甚至都是不推荐的。

虽然很多的容器平台都支持有状态容器，然而平台往往解决不了数据问题，除非你对容器里面的应用非常非常熟悉。

当容器挂了，你能够准确的知道丢了哪些，哪些要紧，哪些不要紧，而且要写代码处理这些情况，然后才能支持重启。

网易这面的数据库在主备同步的情况下，是通过修改 MySQL 源代码，保证主备之间数据完全同步，才敢在主挂了的情况下，备自动切换主。

而宣传有状态容器的自动重启，对于服务客户来讲是很不经济的行为，因为客户往往没有那么清楚应用的逻辑，甚至应用都是买的。

如果使用有状态容器，任凭自动重启，最终客户发现数据丢失的时候，还是会怪到你的头上。

所以有状态的服务自动重启不是不可用，需要足够专业才行。