【linux相识相知】独立硬盘冗余阵列-RAID

独立硬盘冗余阵列（RAID，Redundant Array of Independant Disks）,旧称为廉价磁盘冗余阵列（Redundant Array of Inexpensive Disks）。1987年美国加州伯克利分校的一篇名为《A Case for Redundant Arrays of Inexpensive Disk(RAID)》论文诞生，这标志着RAID技术的开始。

那么什么是RAID呢？简单的来讲就是把多个硬盘组合起来，成为一个硬盘阵列组，操作系统会把它当做是一个硬盘，其性能能够达到甚至超过单个昂贵容量大的硬盘。RAID提供了多种硬盘组合的方式，相比单个硬盘来说，提高了硬盘得I/O能力。多个磁盘之间相互冗余，提高了耐用性。

RAID的硬盘组合方式有：RAID-0，RAID-1，RAID-2，RAID-3，RAID-4，RAID-5，RAID-6，RAID-7，RAID10，RAID-01，RAID-50，RAID-53，RAID-60，JBOD。

RAID的实现模式

Software RAID：

软件磁盘阵列，由CPU处理和协调一个RAID里面各个硬盘的作业，这样就会给CPU带来较多的运算压力，分为3种：

1）基于主板的的磁盘阵列：通常上是由主板上的芯片组提供RAID功能。

2）硬件辅助磁盘阵列：需要RAID卡和相关厂商提供的驱动程序，RAID功能是由驱动程序和CPU运算来提供

3）操作系统的RAID功能：Linux、windows Server等操作系统内置的RAID功能

虽然软RAID实现的有多种，但是在生产环境还是不建议使用的。

Hardware RAID：
硬件磁盘阵列，在RAID卡上内置了CPU处理器，这样就不占用服务器的CPU了。一般硬件磁盘阵列都会有备份的电源模块和NVRAM（非易失性内存），当系统断掉后，备份电源开始供电，将硬盘读写的日志保存在内存中，当系统恢复，备份电源关闭供电，再在NVRAM读取日志数据，继续完成上次断电前没有完成的作业。

常用RAID介绍

常用的RAID有：RAID0，RAID-1，RAID-5，RAID6，RAID-10，RAID50。

RAID0

RAID0，也称条带卷（striping）。在RAID0中，数据会被切成片，按一定顺序会被写到所有的磁盘里面，如下图：

若一片数据被切割成了A1-A8，将存储在一个由2块Disk组成的RAID0，那么第一段数据块A1会被存储在Disk0中，第二段数据块A2会被存储在Disk1中，第三段数据块会被存储在Disk0中，以此类推，这一片数据会被均分到2块磁盘上。

RAID0的优缺点：

1）速度快，写和读的能力得到了提高；

2）RAID0没有冗余的能力，一旦一块磁盘出现了故障，则所有的数据都将不会恢复；

3）RAID0需要N块磁盘才能实现（N>=2）;

4）能够存储数据的大小为N*min(S1,S2,S3,S4....)

在RAID0中有两个重要的参数：

条带宽度：stripe width，它指的是可以被并行写入的数据块的个数，也就是实现RAID0中磁盘的个数；

条带大小：stripe size，它指的是每次写入磁盘的数据块的大小，大小一般为2KB或者512KB甚至更大，size越小，数据被分割的次数就越多。stripe size对性能是有一定的影响的，在生产环境中，需要调整好。

RAID1

RAID1，镜像化，在RAID1中，数据会被复制成多份，存储在多个磁盘上，如下图：

若一片数据将要被存储，数据会被复制成多份（取决RAID1的磁盘个数），然后存储到每一个磁盘上。

RAID1的优缺点：

1）冗余性和数据的可靠性最高，只要不是磁盘同时损坏了，一般都不会带来数据丢失的问题；

2）RAID1的容量取决容量最小的那个磁盘，写入速度也是取决于最小的那个磁盘，较大的磁盘的剩余空间可以分区使用，不会造成浪费；

3）RAID1的读取速度理论上来说是磁盘个数的倍数；

4）RAID1需要N块磁盘才能实现（N>=2）

5）能够存储数据的大小为min(S1,S2,S3...)

RAID3

RAID3，数据类似于RAID0，被条带化的存储在多个磁盘中，数据以字节为单位，与RAID0不同的是，RAID3单独使用了一块独立的磁盘用来存储数据的奇偶校验值，如下图所示：

数据被切片存储在Disk0-2上，同时计算处奇偶校验值存储在Disk3上，这样即使Disk0-2中损坏一块磁盘，也能根据奇偶校验值得到损坏磁盘的数据。

RAID3的优缺点：
1.较高的容错能力；

2.不适合写入操作较多的情景，会给校验盘带来一定的负载，适合读取操作较多的应用环境；

3.RAID3需要N块磁盘（N>=3）；

4.能够存储数据的大小为(N-1)*min(S1,S2,S3,S4....)。

RAID4

和RAID3类似，RAID4不是以字节为存取单位，RAID4的数据以块（一般为512字节）为单位，如下图：

以块为单位带来的好处就是，减少了奇偶检验的次数，比如，如果一段数据的大小为10个字节，在RAID3上可能需要计算2次奇偶检验值了，但是在RAID4上，10个字节都会被放在第一个磁盘上，并不需要计算。

RAID4的优缺点：

1.较高的容错能力；

2.提高了小量数据的I/O能力；

3.RAID4需要N块磁盘（N>=3）；

4.能够存储数据的大小为(N-1)*min(S1,S2,S3,S4....)。

RAID5

RAID5可以理解成是RAID0和RAID1的折中方案，把数据条带化后存储，并且将数据奇偶检验值存储在所有的硬盘上，如下图：

数据被条带化存储到了磁盘上，并且每个磁盘上都能够存储奇偶检验值，其读写速度和RAID0差不多，可能写的时候要慢一点，比较要计算奇偶检验，这样，即使坏掉一块磁盘，只需要更换上好的磁盘，RAID会利用剩下奇偶检验去重建磁盘上的数据。

RAID5的优缺点：

1）较高的容错能力；

2）读写速度快；

3）RAID4需要N块磁盘（N>=3）；

4）能够存储数据的大小为(N-1)*min(S1,S2,S3,S4....)。

RAID6

与RAID5类似，只是增加了第二个独立的奇偶检验信息块，使用了两种不同的奇偶检验算法，如下图所示：

数据仍然是被条带化得存储在磁盘上，但是会计算出两个独立的奇偶检验值，相对于RAID5来说有更多的I/O操作和计算量，所以RAID6通常不会以软件来实现，一般会使用硬件实现，RAID6也是最常见的磁盘阵列。

RAID6的优缺点：

1）较高的容错能力

2）同一RAID6中最多运行同时损坏2块磁盘，更换磁盘后，数据将被重新计算写入；

3）RAID6需要N个磁盘（N>=4）；

4）RAID容量为(N-2)*min(s1,s2,s3,...)

RAID 01

RAID 01是一种混合的磁盘阵列，即是RAID0和RAID1的混合，先做条带，再做镜像：

RAID01中，同组RAID0只要出现一个磁盘损坏，那么这个RAID 0就不能你使用了，值剩下其他组的磁盘运作，可靠性较低。

RAID01的优缺点：

1）数据可靠性低

2）RAID01需要N个磁盘（N>=4）

RAID 10

和RAID 01相反，RAID10是先做RAID1，再做RAID0，如下图所示：

RAID10和RAID01在读写速度上没有什么太大的差别，但是RAID10的数据安全性比较高，若下图左边那组RAID1中磁盘损坏了一个，另外一个也能用，右边那组RAID1再损坏一个数据也是恢复的，除非一组RAID1中的磁盘都坏掉了。

RAID 10的优缺点：

1）较高的容错能力

2）RAID10需要N个磁盘（N>=4）

RAID 50

RAID 50是RAID5和RAID0的组合，先做RAID5，再做RAID0，RAID 5至少需要3颗硬盘，因此要以多组RAID 5构成RAID 50，至少需要6颗硬盘，如下图。

在底层的任意一组或者多组的RAID5中出现了一个磁盘的损坏是可以接受的，但是若出现了2个或者以上的磁盘损坏，整个RAID50就会损坏。

RAID50的优缺点：

1）较高的容错能力

2）RAID10需要N个磁盘（N>=6）

JBOD

Just a Bunch of Disks，能够将多块磁盘的空间合并起来的一个连续的空间，可靠性较低。

在Linux系统上实现Software RAID

在centos中，使用模块化得工具mdadm，如果没有可以使用：

yum -y install mdadm

基本用法如下：

命令的语法格式：mdadm [mode] <raiddevice> [options] <component-devices>

-C：创建模式

    -n #: 使用#个块设备来创建此RAID；

    -l #：指明要创建的RAID的级别；

    -a {yes|no}：自动创建目标RAID设备的设备文件；

    -c CHUNK_SIZE: 指明块大小；

    -x #: 指明空闲盘的个数；

-D：显示raid的详细信息

    mdadm -D  /dev/md#

管理模式：

    -f：标记指定磁盘为损坏

    -a：添加磁盘

    -r：移除磁盘

停止md设备：

    mdadm -S /dev/md#

举例：创建一个可用空间为10G的RAID1设备，文件系统为ext4，有一个空闲盘，开机可自动挂载至/backup目录。

先来分析一下：RAID1为镜像磁盘阵列，最少需要2个磁盘，可用空间为10G，即磁盘最小大小为10G即可，我们这里就使用1块硬盘的不同分区来模拟各个磁盘，每个10G：

[root@localhost ~]# fdisk -l /dev/sdb

Disk /dev/sdb: 128.8 GB,  bytes

 heads,  sectors/track,  cylinders

Units = cylinders of  *  =  bytes

Sector size (logical/physical):  bytes /  bytes

I/O size (minimum/optimal):  bytes /  bytes

Disk identifier: 0xf9b59c0f

   Device Boot      Start         End      Blocks   Id  System

/dev/sdb1                           +    Linux

/dev/sdb2                             Linux

/dev/sdb3                             Linux

使用以下命令创建RAID1系统，-C为创建模式，/dev/md0设备文件名，-n 2：使用2个块设备创建此RAID，-x 1：指定1个空闲盘的，-l：指定硬盘RAID等级，-a yes：自动创建RAID的设备文件,/dev/adb{1,2,3}：指定磁盘位置

[root@localhost ~]# mdadm -C /dev/md0 -n  -x  -l  -c  -a yes /dev/sdb{,,}

mdadm: Note: this array has metadata at the start and

    may not be suitable as a boot device.  If you plan to

    store '/boot' on this device please ensure that

    your boot-loader understands md/v1.x metadata, or use

    --metadata=0.90

Continue creating array? y

mdadm: Defaulting to version 1.2 metadata

mdadm: array /dev/md0 started.

使用 cat /proc/mdstat 查看RAID构建的进度和预期完成的时间：

unused devices: <none>

[root@localhost ~]# cat /proc/mdstat

Personalities : [raid1]

md0 : active raid1 sdb3[](S) sdb2[] sdb1[]

       blocks super 1.2 [/] [UU]

      [=============>.......]  resync = 68.6% (/) finish=.2min speed=200001K/sec

unused devices: <none>

[root@localhost ~]# cat /proc/mdstat

Personalities : [raid1]

md0 : active raid1 sdb3[](S) sdb2[] sdb1[]

       blocks super 1.2 [/] [UU]

unused devices: <none>

查看RAID1的详情：

[root@localhost ~]# mdadm -D /dev/md0

/dev/md0:

        Version : 1.2

  Creation Time : Sun Jul  ::

     Raid Level : raid1

     Array Size :  (10.00 GiB 10.73 GB)

  Used Dev Size :  (10.00 GiB 10.73 GB)

   Raid Devices :

  Total Devices :

    Persistence : Superblock is persistent

    Update Time : Sun Jul  ::

          State : clean

 Active Devices :

Working Devices :

 Failed Devices :

  Spare Devices :

           Name : localhost.localdomain:  (local to host localhost.localdomain)

           UUID : a46c7642:a46e274a:05923aeb:4c1ae0e9

         Events :

    Number   Major   Minor   RaidDevice State

                                   active sync   /dev/sdb1

                                   active sync   /dev/sdb2

                             -      spare   /dev/sdb3

格式化RAID1为ext4文件系统：

[root@localhost ~]# mkfs.ext4 /dev/md0

mke2fs 1.41. (-May-)

文件系统标签=

操作系统:Linux

块大小= (log=)

分块大小= (log=)

Stride= blocks, Stripe width= blocks

 inodes,  blocks

 blocks (5.00%) reserved for the super user

第一个数据块=

Maximum filesystem blocks=

 block groups

 blocks per group,  fragments per group

 inodes per group

Superblock backups stored on blocks:

    , , , , , , ,

正在写入inode表: 完成

Creating journal ( blocks): 完成

Writing superblocks and filesystem accounting information: 完成

This filesystem will be automatically checked every  mounts or

 days, whichever comes first.  Use tune2fs -c or -i to override.

将/dev/md0挂载到/backup目录下：

[root@localhost ~]# mount /dev/md0 /backup/

[root@localhost ~]#

[root@localhost ~]# df

Filesystem                   1K-blocks    Used Available Use% Mounted on

/dev/mapper/VolGroup-lv_root        % /

tmpfs                                         % /dev/shm

/dev/sda1                                 % /boot

/dev/mapper/VolGroup-lv_home         % /home

/dev/md0                              % /backup

可以使用 -f 将其中的某个磁盘模拟为坏的故障硬盘

[root@localhost backup]# mdadm /dev/md0 -f /dev/sdb1

mdadm: set /dev/sdb1 faulty in /dev/md0

再来看一下RAID1的详细信息，/dev/sdb3状态变为active

[root@localhost backup]# mdadm -D /dev/md0

/dev/md0:

        Version : 1.2

  Creation Time : Sun Jul  ::

     Raid Level : raid1

     Array Size :  (10.00 GiB 10.73 GB)

  Used Dev Size :  (10.00 GiB 10.73 GB)

   Raid Devices :

  Total Devices :

    Persistence : Superblock is persistent

    Update Time : Sun Jul  ::

          State : clean

 Active Devices :

Working Devices :

 Failed Devices :

  Spare Devices :

           Name : localhost.localdomain:  (local to host localhost.localdomain)

           UUID : a46c7642:a46e274a:05923aeb:4c1ae0e9

         Events :

    Number   Major   Minor   RaidDevice State

                                   active sync   /dev/sdb3

                                   active sync   /dev/sdb2

                             -      faulty   /dev/sdb1

使用 -r 选项能够移除坏的硬盘

[root@localhost backup]# mdadm /dev/md0 -r /dev/sdb1

mdadm: hot removed /dev/sdb1 from /dev/md0

好的，我们再来添加一块分区当做磁盘

[root@localhost backup]# fdisk /dev/sdb

WARNING: DOS-compatible mode is deprecated. It's strongly recommended to

         switch off the mode (command 'c') and change display units to

         sectors (command 'u').

Command (m for help): n

Command action

   e   extended

   p   primary partition (-)

p

Selected partition

First cylinder (-, default ):

Using default value

Last cylinder, +cylinders or +size{K,M,G} (-, default ): +10G

Command (m for help): w

The partition table has been altered!

Calling ioctl() to re-read partition table.

WARNING: Re-reading the partition table failed with error : 设备或资源忙.

The kernel still uses the old table. The new table will be used at

the next reboot or after you run partprobe() or kpartx()

咦，有告警！因为当前的磁盘已经有分区被挂载当根文件系统的目录上了，内核没有识别，我们来查看/proc/parttions，果真没有识别

[root@localhost backup]# cat /proc/partitions

major minor  #blocks  name

             sdb

              sdb1

              sdb2

              sdb3

              sda

                 sda1

              sda2

             dm-

              dm-

             dm-

               md0

使用以下命令通知内核强制重读以下磁盘分区表

[root@localhost backup]# partx -a  /dev/sdb

添加/dev/sdb4到RAID1

[root@localhost backup]# mdadm /dev/md0 -a /dev/sdb4

mdadm: added /dev/sdb4

查看RAID1的详细信息，/dev/sdb4成功被加入

[root@localhost backup]# mdadm -D /dev/md0

/dev/md0:

        Version : 1.2

  Creation Time : Sun Jul  ::

     Raid Level : raid1

     Array Size :  (10.00 GiB 10.73 GB)

  Used Dev Size :  (10.00 GiB 10.73 GB)

   Raid Devices :

  Total Devices :

    Persistence : Superblock is persistent

    Update Time : Sun Jul  ::

          State : clean

 Active Devices :

Working Devices :

 Failed Devices :

  Spare Devices :

           Name : localhost.localdomain:  (local to host localhost.localdomain)

           UUID : a46c7642:a46e274a:05923aeb:4c1ae0e9

         Events :

    Number   Major   Minor   RaidDevice State

                                   active sync   /dev/sdb3

                                   active sync   /dev/sdb2

                             -      spare   /dev/sdb4

设置开机可以自动挂载只/backup目录下，修改配置文件/etc/fstab即可

#

# /etc/fstab

# Created by anaconda on Fri Jul  ::

#

# Accessible filesystems, by reference, are maintained under '/dev/disk'

# See man pages fstab(), findfs(), mount() and/or blkid() for more info

#

/dev/mapper/VolGroup-lv_root /                       ext4    defaults

UUID=bc67ad74-46b3-4abc-b8a7-c4fb7cd6552a /boot                   ext4    defaults

/dev/mapper/VolGroup-lv_home /home                   ext4    defaults

/dev/mapper/VolGroup-lv_swap swap                    swap    defaults

tmpfs                   /dev/shm                tmpfs   defaults

devpts                  /dev/pts                devpts  gid=,mode=

sysfs                   /sys                    sysfs   defaults

proc                    /proc                   proc    defaults

/dev/md0                /backup                 ext4    defaults

小知识点：

在查看RAID创建过程的进度时候，可加上watch命令动态查看创建RAID的进度

watch [options] 'COMMAND'

选项

-n# ：指定刷新间隔，单位秒

watch -n1 'cat /proc/mdstat'