RAID磁盘阵列

一、RAID简介

RAID是“Redundant Array of Independent Disk”的缩写，中文意思是独立冗余磁盘阵列。简单地解释，就是将N台硬盘通过RAID Controller（分Hardware，Software）结合成虚拟单台大容量的硬盘使用。RAID的采用为存储系统（或者服务器的内置存储）带来巨大利益，其中提高传输速率和提供容错功能是最大的优点。
简单的说，RAID是一种把多块独立的硬盘（物理硬盘）按不同的方式组合起来形成一个硬盘组（逻辑硬盘），从而提供比单个硬盘更高的存储性能和提供数据备份技术。根据磁盘陈列的不同组合方式，可以将RAID分为不同的级别。
磁盘阵列中针对不同的应用使用的不同技术，称为RAID level,而每一level都代表着不同技术，目前业界公认的标准是RAID 0~RAID 5。这个level并不代表技术的高低，level 5并不高于level 3，level 1也不低过level 4，至于要选择那一种RAID level的产品，纯视用户的操作环境(operating environment)及应用(application)而定与level的高低没有必然的关系。
在RAID有一基本概念称为EDAP（Extended Data Availability and Protection），其强调扩充性及容错机制，也是各家厂商如：Mylex，IBM，HP，Compaq，Adaptec，Infortrend等诉求的重点，包括在不须停机情况下可处理以下动作：
RAID 磁盘阵列支持自动检测故障硬盘
RAID 磁盘阵列支持重建硬盘坏轨的资料
RAID 磁盘阵列支持不须停机的硬盘备援Hot Spare
RAID 磁盘阵列支援支持不须停机的硬盘替换Hot Swap
RAID 磁盘阵列支持扩充硬盘容量等

二、RAID 0：无差错控制的带区组

要实现RAID0必须要有两个以上硬盘驱动器，RAID0实现了带区组，数据并不是保存在一个硬盘上，而是分成数据块保存在不同驱动器上。因为将数据分布在不同驱动器上，所以数据吞吐率大大提高，驱动器的负载也比较平衡。如果刚好所需要的数据在不同的驱动器上效率最好。它不需要计算校验码，实现容易。它的缺点是它没有数据差错控制，如果一个驱动器中的数据发生错误，即使其它盘上的数据正确也无济于事了。不应该将它用于对数据稳定性要求高的场合。如果用户进行图象（包括动画）编辑和其它要求传输比较大的场合使用RAID0比较合适。同时，RAID可以提高数据传输速率，比如所需读取的文件分布在两个硬盘上，这两个硬盘可以同时读取。那么原来读取同样文件的时间被缩短为1/2。在所有的级别中，RAID 0的速度是最快的。但是RAID 0没有冗余功能的，如果一个磁盘（物理）损坏，则所有的数据都无法使用。
如果两块硬盘：160G+120G=240G

三、RAID 1：镜象结构

对于使用这种RAID1结构的设备来说，RAID控制器必须能够同时对两个盘进行读操作和对两个镜象盘进行写操作。通过下面的结构图您也可以看到必须有两个驱动器。因为是镜象结构在一组盘出现问题时，可以使用镜象，提高系统的容错能力。它比较容易设计和实现。每读一次盘只能读出一块数据，也就是说数据块传送速率与单独的盘的读取速率相同。因为RAID1的校验十分完备，因此对系统的处理能力有很大的影响，通常的RAID功能由软件实现，而这样的实现方法在服务器负载比较重的时候会大大影响服务器效率。当您的系统需要极高的可靠性时，如进行数据统计，那么使用RAID1比较合适。而且RAID1技术支持“热替换”，即不断电的情况下对故障磁盘进行更换，更换完毕只要从镜像盘上恢复数据即可。当主硬盘损坏时，镜像硬盘就可以代替主硬盘工作。镜像硬盘相当于一个备份盘，可想而知，这种硬盘模式的安全性是非常高的，RAID 1的数据安全性在所有的RAID级别上来说是最好的。但是其磁盘的利用率却只有50%，是所有RAID级别中最低的。
如果两块硬盘：160G+120G=120G

四、RAID5：分布式奇偶校验的独立磁盘结构

从它的示意图上可以看到，它的奇偶校验码存在于所有磁盘上，其中的p0代表第0带区的奇偶校验值，其它的意思也相同。RAID5的读出效率很高，写入效率一般，块式的集体访问效率不错。因为奇偶校验码在不同的磁盘上，所以提高了可靠性，允许单个磁盘出错。RAID 5也是以数据的校验位来保证数据的安全，但它不是以单独硬盘来存放数据的校验位，而是将数据段的校验位交互存放于各个硬盘上。这样，任何一个硬盘损坏，都可以根据其它硬盘上的校验位来重建损坏的数据。硬盘的利用率为n-1。但是它对数据传输的并行性解决不好，而且控制器的设计也相当困难。RAID 3 与RAID 5相比，重要的区别在于RAID 3每进行一次数据传输，需涉及到所有的阵列盘。而对于RAID 5来说，大部分数据传输只对一块磁盘操作，可进行并行操作。在RAID 5中有“写损失”，即每一次写操作，将产生四个实际的读/写操作，其中两次读旧的数据及奇偶信息，两次写新的数据及奇偶信息。RAID-5的话，优点是提供了冗余性（支持一块盘掉线后仍然正常运行），磁盘空间利用率较高（N-1/N），读写速度较快（N-1倍）。RAID5最大的好处是在一块盘掉线的情况下，RAID照常工作，相对于RAID0必须每一块盘都正常才可以正常工作的状况容错性能好多了。因此RAID5是RAID级别中最常见的一个类型。RAID5校验位即P位是通过其它条带数据做异或(xor)求得的。计算公式为P=D0xorD1xorD2…xorDn，其中p代表校验块，Dn代表相应的数据块，xor是数学运算符号异或。

所谓的“奇偶校验”可以简单理解为二进制运算中的“异或运算”，通常用 xor 标识。
xor 运算最主要的规则是，若两者值相同，则结果为0；若两者值不同，则结果为1。
举个例子：
在二进制中 5 和 2 分别是 0101 和 0010，那么 5 xor 2 可以表示为 0101 xor 0010，根据运算规则，第一位都是“0”，两者相同，结果为“0”；第二、三、四位的数值不同，结果分别是1、1、1。合起来的结果就是“0111”。
公式为 0101 xor 0010 = 0111。
那么事情就好办了，在一个公式 a xor b=c 中，不管缺了谁，都可以通过剩下的两者将其推算出来。
这也就是 raid 5 能够恢复数据的秘密。

最左边的是原始数据，右边分别是三块硬盘，假设第二块硬盘出了故障，通过第一块硬盘上的 1 和第三块硬盘上的 1 xor 2，就能够还原出 2。同理可以还原出 3 和 8。至于 5 xor 6 则更简单了，直接用 5 和 6 运算出来即可。

五、RAID10/01：高可靠性与高效磁盘结构

这种结构无非是一个带区结构加一个镜象结构，因为两种结构各有优缺点，因此可以相互补充，达到既高效又高速还可以互为镜像的目的。大家可以结合两种结构的优点和缺点来理解这种新结构。这种新结构的价格高，可扩充性不好。主要用于容量不大，但要求速度和差错控制的数据库中。
其中可分为两种组合：RAID10和RAID01

RAID 10是先镜射再分区数据。是将所有硬盘分为两组，视为是RAID 0的最低组合，然后将这两组各自视为RAID 1运作。RAID 10有着不错的读取速度，而且拥有比RAID 0更高的数据保护性。

RAID 01则是跟RAID 10的程序相反，是先分区再将数据镜射到两组硬盘。它将所有的硬盘分为两组，变成RAID 1的最低组合，而将两组硬盘各自视为RAID 0运作。RAID 01比起RAID 10有着更快的读写速度，不过也多了一些会让整个硬盘组停止运转的机率；因为只要同一组的硬盘全部损毁，RAID 01就会停止运作，而RAID 10则可以在牺牲RAID 0的优势下正常运作。
RAID 10巧妙的利用了RAID 0的速度以及RAID 1的保护两种特性，不过它的缺点是需要的硬盘数较多，因为至少必须拥有四个以上的偶数硬盘才能使用。