Amazon Redshift and the Case for Simpler Data Warehouses

Redshift是Amazon一个商业产品上的进化

但并不是技术的进化,他使用的无非都是传统数仓领域的技术

如果说创新,就是大量使用Amazon本身的云服务的云原生架构,大大提升的产品的迭代速度,可维护性,管控能力,当然前提是Amazon有那么好的基础设施可以用

架构

DataPlane

典型的Share Nothing的架构,没啥好说的

 LeaderNode,会负责接收流量,生成执行计划分发到计算节点,然后聚合结果返回

数据可以scaleout的分布在计算节点上,同时每个计算节点分成slices,便于资源分配,类似slot

每个slice的数据是以列存形式

Slice由data blocks组成,datablock是数据和磁盘读写和交换的单元,

block会同步写入主备,两副本;同时block会被异步写入S3

Control Plane

对于管控,Redshift基本就是用云原生的方式搭建,大大降低了产品的开发成本

本论文在技术上,没有太多可说的,在产品的设计上倒是很有参考和借鉴的意义

原文地址:https://www.cnblogs.com/fxjwind/p/12083917.html