【翻译】从头开始写一个时间序列数据库-Writing a Time Series Database from Scratch

本文来自: https://fabxc.org/tsdb/, 如翻译有误，请纠正.

我是从事监控工作的。特别是Prometheus, 一个包含自定义的时间序列库以及集成Kuberntes的监控系统。

在很多方面，Kubernetes代表着所有Prometheus为其设计的所有技术水准。Prometheus使得可持续开发，自动扩展和高度自动化环境更易于实现。在众多其他概念抉择中，Prometheus的查询语言和操作模型使其特别适合这样的环境。另外，如果监控的工作负载变得更加动态化，这样在监控系统本身也添加了新的应变。鉴于这一点，我们不会对Prometheus已经解决的问题翻倍，而是致力于提高高度动态或暂时性服务的性能。

Promethues的存储层已经展现出非凡的性能，单个服务器可以处理达100w每秒的样本数据，即使有数百万条数据，却出人意料的占领一小点磁盘空间。虽然当前的存储已经很好地满足我们的需求，但是我提出一个新的设计存储子系统来当前的解决方案的缺点，以解决接下的更大规模问题。

注意：我在数据库方面没有背景，我所说的可能是错的，有误导性的。你可以在Freenoe的#prometheus频道上批评我。

问题，问题，磁盘空间问题

首先，针对我们试图去完成的和引发的关键问题的快速概述。对每个问题，我们都会看一下Prometheus当前所达到的点，它做得好的地方和即将对问题用新的设计标志出来。

时间序列数据

我们有个收集时间点数据的系统。

识别标志 -> (t0, v0), (t1, v1), (t2, v2), (t3, v3), ...

每个数据点是一个时间戳和值的数据元组。对于监控的目的，时间戳是一个整数，其值是任意的数字。一个64位的浮点数证明是一个好的计数器同时又是好的计量值。所以接下来，我们就这么这么定义了，一个伴随着监控时间戳增加的数据串是一个识别标志的序列。我们的识别标志是一个带着标签纬度的字典指标。标签纬度分割着测量单个标量的空间。每个标量加一组唯一的标签集合就是他自己的时间序列流。

下面典型的时间序列就是部分统计请求的标量：

requests_total{path="/status", method="GET", instance=”10.0.0.1:80”}

requests_total{path="/status", method="POST", instance=”10.0.0.3:80”}

requests_total{path="/", method="GET", instance=”10.0.0.2:80”}

让我们立即简化以上代表例子: 一个标量名字可以看作另一个标签维度——__nam__（在我们下面的例子）。在数据查询的那层，它可能被特别对待，但我们不关心如何存储它，这个我们之后将会看到。

{__name__="requests_total", path="/status", method="GET", instance=”10.0.0.1:80”}

{__name__="requests_total", path="/status", method="POST", instance=”10.0.0.3:80”}

{__name__="requests_total", path="/", method="GET", instance=”10.0.0.2:80”}

当我们查询时序数据时，我们依靠数据的标签来查询。在这个最简单的例子{__name__="requests_total"}, 就是查询所有属于requests_total的时序数据。对于查询的所有数据，我们将在一个特定时间窗口接受数据点。

在更加复杂的查询中，我们希望可以一次性满足几个选择器的数据查询，同时也可以代表比等式查询更加复杂的查询。例如，不等式（method!="GET"）或者正则表达式匹配（method=~"PUT|POST"）.

这些极大的定义存储数据以及数据如何被重新调用。

垂直和水平

在一个简单的视图, 所有的数据点被分布在一个二维的平面图上。其水平维度代表着时间，序列标志着横跨垂直维度的空间。

series

│ . . . . . . . . . . . . . . . . . . . . . . {__name__="request_total", method="GET"}

│ . . . . . . . . . . . . . . . . . . . . . . {__name__="request_total", method="POST"}

│ . . . . . . .

│ . . . . . . . . . . . . . . . . . . . ...

│ . . . . . . . . . . . . . . . . . . . . .

│ . . . . . . . . . . . . . . . . . . . . . {__name__="errors_total", method="POST"}

│ . . . . . . . . . . . . . . . . . {__name__="errors_total", method="GET"}

│ . . . . . . . . . . . . . .

│ . . . . . . . . . . . . . . . . . . . ...

│ . . . . . . . . . . . . . . . . . . . .

v <-------------------- time --------------------->

普罗米修斯依靠定期抓取当前值作为时间序列数据。这个批量抓取数据的来源实体我们称为目标。因此，写模式是完全垂直并且高并发的是由于从目标来的数据样本是完全被独立处理。这提供给我们一些大幅度的测量：单个普罗米修斯实例收集从数以万计的目标来的数据，这个暴露数十万不同的时序数据。