一,分布式文件系统理论基础

1.1 分布式文件系统出现

  • 计算机通过文件系统管理,存储数据,而现在数据信息爆炸的时代中人们可以获取的数据成指数倍的增长,单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,已经不能满足目前的需求。
  • 分布式文件系统可以有效解决数据的存储和管理难题,将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的节点组成一个文件系统网络。每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。人们在使用分布式文件系统时,无需关心数据是存储在哪个节点上,或者是从哪个节点从获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据。

1.2 典型代表NFS

NFS(Network File System)即网络文件系统,它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。NFS的优点如下:

(1)节约使用的磁盘空间

客户端经常使用的数据可以集中存放在一台机器上,并使用NFS发布,那么网络内部所有计算机可以通过网络访问,不必单独存储。

(2)节约硬件资源

NFS还可以共享软驱,CDROM和ZIP等的存储设备,减少整个网络上的可移动设备的数量。

(3)用户主目录设定

对于特殊用户,如管理员等,为了管理的需要,可能会经常登陆到网络中所有的计算机,若每个客户端,均保存这个用户的主目录很繁琐,而且不能保证数据的一致性。实际上,经过NFS服务的设定,然后在客户端指定这个用户的主目录位置,并自动挂载,就可以在任何计算机上使用用户主目录的文件。

1.3 面临的问题

存储空间不足,需要更大容量的存储

直接用NFS挂载存储,有一定风险,存在单点故障

某些场景不能满足需求,大量的访问磁盘IO是瓶颈

1.4 GlusterFS概述

  • GlusterFS是Scale-Out存储解决方案Gluster的核心,它是一个开源的分布式文件系统,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。GlusterFS借助TCP/IP或InfiniBand RDMA网络将物理分布的存储资源聚集在一起,使用单一全局命名空间来管理数据。
  • GlusterFS支持运行在任何标准IP网络上标准应用程序的标准客户端,用户可以在全局统一的命令空间中使用NFS/CIFS等标准协议来访问应用程序。GlusterFS使得用户可摆脱原有的独立,高成本的封闭存储系统,能够利用普通廉价的存储设备来部署可集中管理,横向扩展,虚拟化的存储池,存储容量可扩展至TB/PB级。
  • 目前glusterfs已被redhat收购,它的官方网站是:http://www.gluster.org/

超高性能(64个节点时吞吐量也就是带宽甚至达到32GB/s)

1.5 GlusterFS企业主要应用场景

理论和实践上分析,GlusterFS目前主要适用大文件存储场景,对于小文件尤其是海量小文件(小于1M),存储效率和访问性能都表现不佳。海量小文件LOSF问题是工业界和学术界公认的难题,GlusterFS作为通用的分布式文件系统,并没有对小文件作额外的优化措施(小于1M),性能不好也是可以理解的。

  • [x] Media

文档,图片,音频,视频

  • [x] Shared storage

云存储,虚拟化存储,HPC(高性能计算)

  • [x] Big data

日志文件,RFID(射频识别)数据

二,部署安装

2.1 GlusterFS 安装前的准备

  1. 电脑一台,内存>=4G,可用磁盘空间大于50G
  2. 安装VMWARE Workstation虚拟机软件
  3. 安装好四台CentOS-6-x86_64(6.2-6.8都可以)的虚拟机
  4. 基本系统:1核CPU+1024M内存+10G硬盘
  5. 网络选择:网络地址转换(NAT)
  6. 关闭iptables和SELinux
  7. 预装glusterfs软件包

|描述|IP|主机名|需求|

|--|--|--|

|Linux_node1|192.168.200.150|mystorage01|多添加两块各10G的sdb和sdc|

|Linux_node2|192.168.200.151|mystorage02|多添加两块各10G的sdb和sdc|

|Linux_node3|192.168.200.152|mystorage03|多添加两块各10G的sdb和sdc|

|Linux_node4|192.168.200.153|mystorage04|多添加两块各10G的sdb和sdc|

|Linux_node5|192.168.200.154|WebServerClinet|无|

#为了实验的准确性,请尽量和我用一个版本的Linux操作系统
#并用实验给的rpm包作为yum源
[root@localhost rpm]# cat /etc/redhat-release
CentOS release 6.5 (Final) [root@localhost rpm]# uname -r
2.6.32-431.el6.x86_64 [root@localhost rpm]# pwd
/root/rpm [root@localhost rpm]# ls dbench-4.0-12.el6.x86_64.rpm libaio-0.3.107-10.el6.x86_64.rpm
glusterfs-3.7.20-1.el6.x86_64.rpm libevent-1.4.13-4.el6.x86_64.rpm
glusterfs-api-3.7.20-1.el6.x86_64.rpm libgssglue-0.1-11.el6.x86_64.rpm
glusterfs-api-devel-3.7.20-1.el6.x86_64.rpm libntirpc-1.3.1-1.el6.x86_64.rpm
glusterfs-cli-3.7.20-1.el6.x86_64.rpm libntirpc-devel-1.3.1-1.el6.x86_64.rpm
glusterfs-client-xlators-3.7.20-1.el6.x86_64.rpm libtirpc-0.2.1-13.el6_9.x86_64.rpm
glusterfs-coreutils-0.0.1-0.1.git0c86f7f.el6.x86_64.rpm nfs-utils-1.2.3-75.el6_9.x86_64.rpm
glusterfs-coreutils-0.2.0-1.el6_37.x86_64.rpm nfs-utils-lib-1.1.5-13.el6.x86_64.rpm
glusterfs-devel-3.7.20-1.el6.x86_64.rpm python-argparse-1.2.1-2.1.el6.noarch.rpm
glusterfs-extra-xlators-3.7.20-1.el6.x86_64.rpm python-gluster-3.7.20-1.el6.noarch.rpm
glusterfs-fuse-3.7.20-1.el6.x86_64.rpm pyxattr-0.5.0-1.el6.x86_64.rpm
glusterfs-ganesha-3.7.20-1.el6.x86_64.rpm repodata
glusterfs-geo-replication-3.7.20-1.el6.x86_64.rpm rpcbind-0.2.0-13.el6_9.1.x86_64.rpm
glusterfs-libs-3.7.20-1.el6.x86_64.rpm rsync-3.0.6-12.el6.x86_64.rpm
glusterfs-rdma-3.7.20-1.el6.x86_64.rpm userspace-rcu-0.7.16-2.el6.x86_64.rpm
glusterfs-resource-agents-3.7.20-1.el6.noarch.rpm userspace-rcu-0.7.7-1.el6.x86_64.rpm
glusterfs-server-3.7.20-1.el6.x86_64.rpm userspace-rcu-devel-0.7.16-2.el6.x86_64.rpm
keyutils-1.4-5.el6.x86_64.rpm userspace-rcu-devel-0.7.7-1.el6.x86_64.rpm
keyutils-libs-1.4-5.el6.x86_64.rpm [root@localhost rpm]# yum -y install glusterfs-server glusterfs-cli glusterfs-geo-replication

2.2 GlusterFS 安装

2.2.1 修改主机名

2.2.2 添加hosts文件实现集群主机之间相互能够解析

[root@glusterfs01 ~]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.200.150 glusterfs01
192.168.200.151 glusterfs02
192.168.200.152 glusterfs03
192.168.200.153 glusterfs04

2.2.3 关闭selinux和防火墙

#关闭selinux
sed -i 's#SELINUX=enforcing#SELINUX=disabled#' /etc/sysconfig/selinux
#关闭iptables
service iptables stop
chkconfig iptables off

2.2.4 利用教程附带的rpm软件包组,充当本地定制化yum源

yum -y install createrepo
yum -y install glusterfs-server glusterfs-cli glusterfs-geo-replication

2.3 配置glusterfs

2.3.1 查看glusterfs版本信息

[root@glusterfs01 ~]# which glusterfs
/usr/sbin/glusterfs
[root@glusterfs01 ~]# glusterfs -V
glusterfs 3.7.20 built on Jan 30 2017 15:39:27
Repository revision: git://git.gluster.com/glusterfs.git
Copyright (c) 2006-2013 Red Hat, Inc. <http://www.redhat.com/>
GlusterFS comes with ABSOLUTELY NO WARRANTY.
It is licensed to you under your choice of the GNU Lesser
General Public License, version 3 or any later version (LGPLv3
or later), or the GNU General Public License, version 2 (GPLv2),
in all cases as published by the Free Software Foundation.

2.3.2 启动停止服务

[root@glusterfs01 ~]# /etc/init.d/glusterd status   #查看服务状态
glusterd (pid 906) is running...
[root@glusterfs01 ~]# /etc/init.d/glusterd stop #停止
Stopping glusterd: [ OK ]
[root@glusterfs01 ~]# /etc/init.d/glusterd status
glusterd is stopped
[root@glusterfs01 ~]# /etc/init.d/glusterd start #启动
Starting glusterd: [ OK ]
[root@glusterfs01 ~]# /etc/init.d/glusterd status
glusterd (pid 1356) is running...
[root@glusterfs01 ~]# chkconfig glusrerd on #添加开机启动

2.3.3 存储主机加入信任存储池

虚拟机添加信任存储池

特别提示:只需要让一个虚拟机进行添加操作即可。但自己并不需要添加信任自己

#确保所有的虚拟机的glusterd服务都处于开启状态,然后执行如下操作
[root@glusterfs01 ~]# gluster peer probe glusterfs02
peer probe: success.
[root@glusterfs01 ~]# gluster peer probe glusterfs03
peer probe: success.
[root@glusterfs01 ~]# gluster peer probe glusterfs04
peer probe: success.

2.3.4 查看虚拟机信任状态添加结果

[root@glusterfs01 ~]# gluster peer status
Number of Peers: 3 Hostname: glusterfs02
Uuid: 0b52290d-96b0-4b9c-988d-44062735a8a8
State: Peer in Cluster (Connected) Hostname: glusterfs03
Uuid: c5dd23d5-c93c-427c-811b-3255da3c9691
State: Peer in Cluster (Connected) Hostname: glusterfs04
Uuid: a43ac51b-641c-4fc4-be56-f6873423b462
State: Peer in Cluster (Connected)

同学们可以查看每台虚拟机的信任状态,他们此时彼此都应该已经互有信任记录了

2.3.5 配置前的准备工作

#链接光盘源,安装xfs支持包(Centos7已经不再需要安装)
#所有都要装
yum -y install xfsprogs

在企业里我们还需要分区然后才能进行格式化。但是我们这里就省略了,我们直接格式化每台虚拟机的那块10G硬盘

[root@glusterfs01 ~]# mkfs.ext4 /dev/sdb
mke2fs 1.41.12 (17-May-2010)
/dev/sdb is entire device, not just one partition!
Proceed anyway? (y,n) y
Filesystem label=
OS type: Linux
Block size=4096 (log=2)
Fragment size=4096 (log=2)
Stride=0 blocks, Stripe width=0 blocks
655360 inodes, 2621440 blocks
131072 blocks (5.00%) reserved for the super user
First data block=0
Maximum filesystem blocks=2684354560
80 block groups
32768 blocks per group, 32768 fragments per group
8192 inodes per group
Superblock backups stored on blocks:
32768, 98304, 163840, 229376, 294912, 819200, 884736, 1605632 Writing inode tables: done
Creating journal (32768 blocks): done
Writing superblocks and filesystem accounting information: done This filesystem will be automatically checked every 28 mounts or
180 days, whichever comes first. Use tune2fs -c or -i to override.

在四台机器上执行mkdir -p /gluster/brick1 建立挂在块设备的目录

挂载磁盘到文件系统(4台都做,步骤相同)

[root@glusterfs01 ~]# mkdir -p /gluster/brick1
[root@glusterfs01 ~]# mount /dev/sdb /gluster/brick1
[root@glusterfs01 ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 18G 1.1G 16G 7% /
tmpfs 491M 0 491M 0% /dev/shm
/dev/sda1 485M 33M 427M 8% /boot
/dev/sr0 4.2G 4.2G 0 100% /media/cdrom
/dev/sdb 9.9G 151M 9.2G 2% /gluster/brick1

继续重复以上步骤,将第二块磁盘sdc格式化,并挂载到每台虚拟机的/gluster/brick2上

4台虚拟机加入开机自动挂载

[root@glusterfs01 ~]# echo "mount /dev/sdb /gluster/brick1" >> /etc/rc.local
[root@glusterfs01 ~]# echo "mount /dev/sdc /gluster/brick2" >> /etc/rc.local
[root@glusterfs01 ~]# tail -2 /etc/rc.local
mount /dev/sdb /gluster/brick1
mount /dev/sdc /gluster/brick2

2.3.6 创建volume分布式卷

  • [x] 基本卷:

    • 分布式卷(Distributed):
    • 复制卷(Replicated):
    • 条带式卷(Striped):
  • [x] 复合卷:
    • 分布式复制卷(Distributed Replicated):
    • 分布式条带卷(Distributed Striped):
    • 复制条带卷(Replicated Striped):
    • 分布式复制条带卷(Distributed Replicated Striped):
#创建分布式卷(在glusterfs01上操作)
[root@glusterfs01 ~]# gluster volume create gs1 glusterfs01:/gluster/brick1 glusterfs02:/gluster/brick1 force
volume create: gs1: success: please start the volume to access data #启动创建的卷(在glusterfs01上操作)
[root@glusterfs01 ~]# gluster volume start gs1
volume start: gs1: success #然后我们发现4台虚拟机都能看到如下信息(在任意虚拟机上操作)
[root@glusterfs04 ~]# gluster volume info Volume Name: gs1 #卷名
Type: Distribute #分布式
Volume ID: 0f0adf7a-3b8f-4016-ac72-83f633e90fac #ID号
Status: Started #启动状态
Number of Bricks: 2 #一共两个块设备
Transport-type: tcp #tcp的连接方式
Bricks: #块信息
Brick1: glusterfs01:/gluster/brick1
Brick2: glusterfs02:/gluster/brick1
Options Reconfigured:
performance.readdir-ahead: on

2.3.7 volume的两种挂载方式

(1)以glusterfs方式挂载

#挂载卷到目录(在glusterfs01上操作)
[root@glusterfs01 ~]# mount -t glusterfs 127.0.0.1:/gs1 /mnt #将本地的分布式卷gs01挂载到/mnt目录下
[root@glusterfs01 ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 18G 1.1G 16G 7% /
tmpfs 491M 0 491M 0% /dev/shm
/dev/sda1 485M 33M 427M 8% /boot
/dev/sr0 4.2G 4.2G 0 100% /media/cdrom
/dev/sdb 9.9G 151M 9.2G 2% /gluster/brick1
127.0.0.1:/gs1 20G 302M 19G 2% /mnt #挂载成功,我们看到磁盘空间已经整合 #在挂载好的/mnt目录里创建实验文件(在glusterfs01上操作)
[root@glusterfs01 ~]# touch /mnt/{1..5}
[root@glusterfs01 ~]# ls /mnt
1 2 3 4 5 #在其他虚拟机上挂载分布式卷gs1,查看同步挂载结果
[root@glusterfs02 rpm]# mount -t glusterfs 127.0.0.1:/gs1 /mnt
[root@glusterfs02 rpm]# ls /mnt
1 2 3 4 5
[root@glusterfs03 rpm]# mount -t glusterfs 127.0.0.1:/gs1 /mnt
[root@glusterfs03 rpm]# ls /mnt
1 2 3 4 5
[root@glusterfs04 ~]# mount -t glusterfs 127.0.0.1:/gs1 /mnt
[root@glusterfs04 ~]# ls /mnt
1 2 3 4 5

(2)以NFS方式进行挂载

在挂载之前我们先来看一下如何打开glusterfs的NFS挂载方式

#在glusterfs01上执行如下操作
[root@glusterfs01 ~]# gluster volume status #查看分布式卷的状态
Status of volume: gs1
Gluster process TCP Port RDMA Port Online Pid
------------------------------------------------------------------------------
Brick glusterfs01:/gluster/brick1 49152 0 Y 1911
Brick glusterfs02:/gluster/brick1 49152 0 Y 1695
NFS Server on localhost N/A N/A N N/A #本地分布式卷NFS挂载未开启
NFS Server on glusterfs04 2049 0 Y 2679
NFS Server on glusterfs02 2049 0 Y 2600 #出现具体的端口就表明开启了
NFS Server on glusterfs03 2049 0 Y 2608 Task Status of Volume gs1
------------------------------------------------------------------------------
There are no active volume tasks

以上结果是是什么原因呢?

如果NFS Server的挂载端口显示N/A表示未开启挂载功能,这是由于要先进行nfs挂载是需要装两个nfs的软件包的rpcbind和nfs-utils

当然就算系统装了这两个软件包,那么我们也需要开启rpcbind服务,然后在重启glusterfs服务才能够进行nfs挂载的操作。

现在我们就来开启glusterfs01的nfs挂载功能,如下:

#在glusterfs01上执行如下操作
[root@glusterfs01 ~]# rpm -qa nfs-utils #查看是否安装nfs-utils
nfs-utils-1.2.3-75.el6_9.x86_64
[root@glusterfs01 ~]# rpm -qa rpcbind #查看是否安装rpcbind
rpcbind-0.2.0-13.el6_9.1.x86_64
[root@glusterfs01 ~]# /etc/init.d/rpcbind status #查看rpcbind服务状态
rpcbind is stopped
[root@glusterfs01 ~]# /etc/init.d/rpcbind start #开启rpcbind服务
Starting rpcbind: [ OK ]
[root@glusterfs01 ~]# /etc/init.d/glusterd stop #停止glusterd服务
Stopping glusterd: [ OK ]
[root@glusterfs01 ~]# /etc/init.d/glusterd start #开启glusterd服务
Starting glusterd: [ OK ]
root@glusterfs01 ~]# gluster volume status #这里需要等几秒再查看,就会发现nfs挂载方式开启了
Status of volume: gs1
Gluster process TCP Port RDMA Port Online Pid
------------------------------------------------------------------------------
Brick glusterfs01:/gluster/brick1 49152 0 Y 1911
Brick glusterfs02:/gluster/brick1 49152 0 Y 1695
NFS Server on localhost 2049 0 Y 2984 #已经开启
NFS Server on glusterfs04 2049 0 Y 2679
NFS Server on glusterfs03 2049 0 Y 2608
NFS Server on glusterfs02 2049 0 Y 2600 Task Status of Volume gs1
------------------------------------------------------------------------------
There are no active volume tasks

接下来,我们尝试在准备好的第五台虚拟机WebServer上进行nfs方式的挂载

#在Webserver上进行如下操作
[root@WebServer ~]# rpm -qa nfs-utils #查看nfs-utils是否安装
nfs-utils-1.2.3-39.el6.x86_64
[root@WebServer ~]# mount -t nfs 192.168.200.150:/gs1 /mnt #以nfs方式远程挂载分布式卷
mount.nfs: rpc.statd is not running but is required for remote locking.
mount.nfs: Either use '-o nolock' to keep locks local, or start statd.
mount.nfs: an incorrect mount option was specified #根据提示我们加上-o nolock参数
[root@WebServer ~]# mount -o nolock -t nfs 192.168.200.150:/gs1 /mnt
[root@WebServer ~]# ls /mnt #挂载成功
1 2 3 4 5 6 666 sss yunjisuan
[root@WebServer ~]# touch /mnt/benet #创建文件测试
[root@WebServer ~]# ls /mnt
1 2 3 4 5 6 666 benet sss yunjisuan #在glusterfs任意虚拟机上进行如下操作
[root@glusterfs04 ~]# mount -t glusterfs 127.0.0.1:/gs1 /mnt
[root@glusterfs04 ~]# ls /mnt
1 2 3 4 5 6 666 benet sss yunjisuan #数据已经同步

2.3.8 创建分布式复制卷

#在任意一台gluster虚拟机上进行如下操作
[root@glusterfs01 ~]# gluster volume create gs2 replica 2 glusterfs03:/gluster/brick1 glusterfs04:/gluster/brick1 force
volume create: gs2: success: please start the volume to access data
[root@glusterfs01 ~]# gluster volume info gs2 Volume Name: gs2
Type: Replicate #复制卷
Volume ID: c76fe8fd-71a7-4395-9dd2-ef1dc85163b8
Status: Created
Number of Bricks: 1 x 2 = 2
Transport-type: tcp
Bricks:
Brick1: glusterfs03:/gluster/brick1
Brick2: glusterfs04:/gluster/brick1
Options Reconfigured:
performance.readdir-ahead: on
[root@glusterfs01 ~]# gluster volume start gs2 #启动卷
volume start: gs2: success

2.3.9 创建分布式条带卷

[root@glusterfs01 ~]# gluster volume create gs3 stripe 2 glusterfs01:/gluster/brick2 glusterfs02:/gluster/brick2 force
volume create: gs3: success: please start the volume to access data
[root@glusterfs01 ~]# gluster volume info gs3 Volume Name: gs3
Type: Stripe #条带卷
Volume ID: 6d2e27c7-f5a1-4473-9df8-a7261851a2ed
Status: Created
Number of Bricks: 1 x 2 = 2
Transport-type: tcp
Bricks:
Brick1: glusterfs01:/gluster/brick2
Brick2: glusterfs02:/gluster/brick2
Options Reconfigured:
performance.readdir-ahead: on
[root@glusterfs01 ~]# gluster volume start gs3 #启动卷
volume start: gs3: success

三,进行卷的数据写入测试

在WebServer服务器挂载创建的三种类型卷gs1,gs2,gs3,进行数据写入测试

3.1 分布式卷gs1的数据写入测试

#在WebServer上进行数据写入操作
[root@WebServer ~]# mount -o nolock -t nfs 192.168.200.150:/gs1 /mnt
[root@WebServer ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 18G 1014M 16G 7% /
tmpfs 491M 0 491M 0% /dev/shm
/dev/sda1 485M 33M 427M 8% /boot
/dev/sr0 4.2G 4.2G 0 100% /media/cdrom
192.168.200.150:/gs1 20G 301M 19G 2% /mnt
[root@WebServer ~]# touch /mnt/{1..10}
[root@WebServer ~]# ls /mnt/
1 10 2 3 4 5 6 7 8 9 #在glusterfs01和glusterfs02上进行查看(看看数据到底写入了哪个盘)
[root@glusterfs01 ~]# ls /gluster/brick1
1 5 7 8 9
[root@glusterfs02 ~]# ls /gluster/brick1
10 2 3 4 6

结论:分布式卷的数据存储方式是将数据平均写入到每个整合的磁盘中,类似于raid0,写入速度快,但这样磁盘一旦损坏没有纠错能力。

3.2 分布式复制卷gs2的数据写入测试

#在WebServer上进行数据写入操作
[root@WebServer ~]# mount -o nolock -t nfs 192.168.200.150:/gs2 /mnt
[root@WebServer ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 18G 1014M 16G 7% /
tmpfs 491M 0 491M 0% /dev/shm
/dev/sda1 485M 33M 427M 8% /boot
/dev/sr0 4.2G 4.2G 0 100% /media/cdrom
192.168.200.150:/gs2 9.9G 151M 9.2G 2% /mnt #可用容量减半
[root@WebServer ~]# ls /mnt
lost+found
[root@WebServer ~]# touch /mnt/{1..10}
[root@WebServer ~]# ls /mnt
1 10 2 3 4 5 6 7 8 9 lost+found #在glusterfs03和glusterfs04上进行查看(看看数据到底写入了哪个盘)
[root@glusterfs03 ~]# ls /gluster/brick1
1 10 2 3 4 5 6 7 8 9 lost+found
[root@glusterfs04 ~]# ls /gluster/brick1
1 10 2 3 4 5 6 7 8 9 lost+found

结论:分布式复制卷的数据存储方式为,每个整合的磁盘中都写入同样的数据内容,类似于raid1,数据非常安全,读取性能高,占磁盘容量。

3.3 分布式条带卷gs3的数据写入测试

#在WebServer上进行数据写入操作
[root@WebServer ~]# umount /mnt
[root@WebServer ~]# mount -o nolock -t nfs 192.168.200.150:/gs3 /mnt
[root@WebServer ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 18G 1014M 16G 7% /
tmpfs 491M 0 491M 0% /dev/shm
/dev/sda1 485M 33M 427M 8% /boot
/dev/sr0 4.2G 4.2G 0 100% /media/cdrom
192.168.200.150:/gs3 20G 301M 19G 2% /mnt
[root@WebServer ~]# dd if=/dev/zero of=/root/test bs=1024 count=262144 #创建大小为256M的文件
262144+0 records in
262144+0 records out
268435456 bytes (268 MB) copied, 1.81006 s, 148 MB/s
[root@WebServer ~]# du -sh test
256M test
[root@WebServer ~]# cp test /mnt/ #复制到/mnt目录下
[root@WebServer ~]# ls /mnt
test
[root@WebServer ~]# du -sh /mnt/test #查看大小为256M
256M /mnt/test #在glusterfs01和glusterfs02上进行查看(看看数据到底是怎么存的)
[root@glusterfs01 ~]# du -sh /gluster/brick2/test
129M /gluster/brick2/test
[root@glusterfs02 ~]# du -sh /gluster/brick2/test
129M /gluster/brick2/test

结论:我们发现分布式条带卷,是将数据的容量平均分配到了每个整合的磁盘节点上。大幅提高大文件的并发读访问。

四,存储卷中brick块设备的扩容

4.1 分布式复制卷的扩容

[root@glusterfs01 ~]# gluster volume add-brick gs2 replica 2 glusterfs03:/gluster/brick2 glusterfs04:/gluster/brick2 force   #添加两个块设备
volume add-brick: success
[root@glusterfs01 ~]# gluster volume info gs2 Volume Name: gs2
Type: Distributed-Replicate
Volume ID: c76fe8fd-71a7-4395-9dd2-ef1dc85163b8
Status: Started
Number of Bricks: 2 x 2 = 4 #已经扩容
Transport-type: tcp
Bricks:
Brick1: glusterfs03:/gluster/brick1
Brick2: glusterfs04:/gluster/brick1
Brick3: glusterfs03:/gluster/brick2
Brick4: glusterfs04:/gluster/brick2
Options Reconfigured:
performance.readdir-ahead: on

特别提示:

对分布式复制卷和分布式条带卷进行扩容时,要特别注意,如果创建卷之初的时候选择的是replica 2 或者stripe 2。那么扩容时,就必须一次性扩容两个或两个的倍数的块设备。

例如你给一个分布式复制卷的replica为2,你在增加bricks的时候数量必须为2,4,6,8等。

4.2 查看扩容后的容量并进行写入测试

#在WebServer上挂载gs2并查看挂载目录的容量
[root@WebServer ~]# umount /mnt
[root@WebServer ~]# mount -o nolock -t nfs 192.168.200.150:/gs2 /mnt
[root@WebServer ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 18G 1.3G 16G 8% /
tmpfs 491M 0 491M 0% /dev/shm
/dev/sda1 485M 33M 427M 8% /boot
/dev/sr0 4.2G 4.2G 0 100% /media/cdrom
192.168.200.150:/gs2 20G 301M 19G 2% /mnt #已经扩容

我们再次写入数据

#在WebServer上进行数据写入操作
[root@WebServer ~]# touch /mnt/{11..20}
[root@WebServer ~]# ls /mnt
1 10 11 12 13 14 15 16 17 18 19 2 20 3 4 5 6 7 8 9 lost+found #在glusterfs03和glusterfs04上查看数据存到哪里去了
[root@glusterfs03 ~]# gluster volume info gs2 Volume Name: gs2
Type: Distributed-Replicate
Volume ID: c76fe8fd-71a7-4395-9dd2-ef1dc85163b8
Status: Started
Number of Bricks: 2 x 2 = 4
Transport-type: tcp
Bricks:
Brick1: glusterfs03:/gluster/brick1 #组成gs2的块设备就在03和04上
Brick2: glusterfs04:/gluster/brick1
Brick3: glusterfs03:/gluster/brick2
Brick4: glusterfs04:/gluster/brick2
Options Reconfigured:
performance.readdir-ahead: on
[root@glusterfs03 ~]# ls /gluster/brick1
1 10 11 12 13 14 15 16 17 18 19 2 20 3 4 5 6 7 8 9 lost+found
[root@glusterfs03 ~]# ls /gluster/brick2
lost+found #什么都没有
[root@glusterfs04 ~]# ls /gluster/brick1
1 10 11 12 13 14 15 16 17 18 19 2 20 3 4 5 6 7 8 9 lost+found
[root@glusterfs04 ~]# ls /gluster/brick2
lost+found #还是什么都没有

通过对扩容的gs2进行写入测试,我们发现数据并没有被写入到新加入的块设备中,这是为甚什么?

这是因为,为了数据的安全,新扩容块设备的卷,默认必须先做一次磁盘平衡(块设备同步),如此才能正常开始使用。

4.3 进行磁盘存储的平衡

注意:平衡布局是很有必要的,因为布局结构是静态的,当新的bricks加入现有卷,新创建的文件会分布到旧的bricks中,所以需要平衡布局结构,使新加入的bricks生效。布局平衡只是使新布局生效,并不会在新的布局移动老的数据,如果你想在新布局生效后,重新平衡卷中的数据,还需要对卷中的数据进行平衡。

#对gs2进行磁盘存储平衡
[root@glusterfs01 ~]# gluster volume rebalance gs2 start
volume rebalance: gs2: success: Rebalance on gs2 has been started successfully. Use rebalance status command to check status of the rebalance process.
ID: 0024338c-84df-4edb-b68c-107415a27506 #检查gs2块设备磁盘平衡结果
[root@glusterfs03 ~]# ls /gluster/brick1
10 12 14 15 16 17 2 3 4 6 lost+found
[root@glusterfs03 ~]# ls /gluster/brick2
1 11 13 18 19 20 5 7 8 9 lost+found
[root@glusterfs04 ~]# ls /gluster/brick1
10 12 14 15 16 17 2 3 4 6 lost+found
[root@glusterfs04 ~]# ls /gluster/brick2
1 11 13 18 19 20 5 7 8 9 lost+found

执行磁盘存储平衡以后,我们发现数据被复制成了4份在4个块设备中。

五,存储卷的缩减与删除

(1)对存储卷中的brick进行缩减

注意:你可能想在线缩小卷的大小,例如:当硬件损坏或者网络故障的时候,你可能想在卷中移除相关的bricks。注意,当你移除bricks的时候,你在gluster的挂载点将不能继续访问是数据,只有配置文件中的信息移除后你才能继续访问bricks的数据。当移除分布式复制卷或者分布式条带卷的时候,移除的bricks数目必须是replica或者stripe的倍数。例如:一个分布式条带卷的stripe是2,当你移除bricks的时候必须是2,4,6,8等。

#先停止卷gs2
[root@glusterfs01 ~]# gluster volume stop gs2
Stopping volume will make its data inaccessible. Do you want to continue? (y/n) y
volume stop: gs2: success #然后移除卷,因为是复制卷且replica为2,因此每次移除必须是2的倍数
[root@glusterfs01 ~]# gluster volume remove-brick gs2 replica 2 glusterfs03:/gluster/brick2 glusterfs04:/gluster/brick2 force
Removing brick(s) can result in data loss. Do you want to Continue? (y/n) y
volume remove-brick commit force: success #我们发现gs2的卷已经被移除
[root@glusterfs01 ~]# gluster volume info gs2 Volume Name: gs2
Type: Replicate
Volume ID: c76fe8fd-71a7-4395-9dd2-ef1dc85163b8
Status: Stopped
Number of Bricks: 1 x 2 = 2
Transport-type: tcp
Bricks:
Brick1: glusterfs03:/gluster/brick1
Brick2: glusterfs04:/gluster/brick1
Options Reconfigured:
performance.readdir-ahead: on #重新启动卷gs2
[root@glusterfs01 ~]# gluster volume start gs2
volume start: gs2: success

(2)对存储卷进行删除

#停止卷gs1
[root@glusterfs01 ~]# gluster volume stop gs1
Stopping volume will make its data inaccessible. Do you want to continue? (y/n) y
volume stop: gs1: success #删除卷gs1
[root@glusterfs01 ~]# gluster volume delete gs1
Deleting volume will erase all information about the volume. Do you want to continue? (y/n) y
volume delete: gs1: success #查看卷信息,发现gs1已经没了
[root@glusterfs01 ~]# gluster volume info Volume Name: gs2
Type: Replicate
Volume ID: c76fe8fd-71a7-4395-9dd2-ef1dc85163b8
Status: Started
Number of Bricks: 1 x 2 = 2
Transport-type: tcp
Bricks:
Brick1: glusterfs03:/gluster/brick1
Brick2: glusterfs04:/gluster/brick1
Options Reconfigured:
performance.readdir-ahead: on Volume Name: gs3
Type: Stripe
Volume ID: 6d2e27c7-f5a1-4473-9df8-a7261851a2ed
Status: Started
Number of Bricks: 1 x 2 = 2
Transport-type: tcp
Bricks:
Brick1: glusterfs01:/gluster/brick2
Brick2: glusterfs02:/gluster/brick2
Options Reconfigured:
performance.readdir-ahead: on

特别提示:

无论是缩减卷还是删除卷,并不会是清除卷中的数据。数据仍旧会保存在对应磁盘上。

六,构建企业级分布式存储

6.1 硬件要求

一般选择2U的机型,磁盘STAT盘4T,如果I/O要求比较高,可以采购SSD固态硬盘。为了充分保证系统的稳定性和性能,要求所有glusterfs服务器硬件配置尽量一致,尤其是硬盘数量和大小。机器的RAID卡需要带电池,缓存越大,性能越好。一般情况下,建议做RAID10,如果出于空间要求考虑,需要做RAID5,建议最好能有1-2块硬盘的热备盘。

6.2 系统要求和分区划分

系统要求使用CentOS6.x,安装完成后升级到最新版本,安装的时候,不要使用LVM,建议/boot分区200M,根分区100G,swap分区和内存一样大小,剩余空间给gluster使用,划分单独的硬盘空间。系统安装软件没有特殊要求,建议除了开发工具和基本的管理软件,其他软件一律不装。

6.3 网络环境

网络要求全部千兆环境,gluster服务器至少有2块网卡,1块网卡绑定供gluster使用,剩余一块分配管理网络ip,用于系统管理。如果有条件购买万兆交换机,服务器配置万兆网卡,存储性能会更好。网络方面如果安全性要求高,可以多网卡绑定。

6.4 服务器摆放分布

服务器主备机器要放在不同的机柜,连接不同的交换机,即使一个机柜出现问题,还有一份数据正常访问。

6.5 构建高性能,高可用存储

一般在企业中,采用的是分布式复制卷,因为有数据备份,数据相对安全,分布式条带卷目前对glusterfs来说没有完全成熟,存在一定的是数据安全风险。

6.5.1 开启防火墙端口

一般在企业应用中Linux防火墙是打开的,开通服务器之间访问的端口

iptables -I INPUT -p tcp --dport 24007:24011 -j ACCEPT
iptables -I INPUT -p tcp --dport 49152:49162 -j ACCEPT
[root@glusterfs01 ~]# cat /etc/glusterfs/glusterd.vol
volume management
type mgmt/glusterd
option working-directory /var/lib/glusterd
option transport-type socket,rdma
option transport.socket.keepalive-time 10
option transport.socket.keepalive-interval 2
option transport.socket.read-fail-log off
option ping-timeout 0
option event-threads 1
# option base-port 49152 #默认端口可以在这里改,因为这个端口可能会和企业里的kvm端口冲突

6.5.2 Glusterfs文件系统优化

参数项目 说明 缺省值 合法值
Auth.allow IP访问授权 *(allow all) IP地址
Cluster.min-free-disk 剩余磁盘空间阈值 10% 百分比
Cluster.stripe-block-size 条带大小 128KB 字节
Network.frame-timeout 请求等待时间 1800s 0-1800
Network.ping-timeout 客户端等待时间 42s 0-42
Nfs.disabled 关闭NFS服务 Off Off|on
Performance.io-thread-count IO线程数 16 0-65
Performance.cache-refresh-timeout 缓存校验周期 1s 0-61
Performance.cache-size 读缓存大小 32MB 字节

Performance.quick-read:优化读取小文件的性能

Performance.read-ahead:用预读的方式提高读取的性能,有利于应用频繁持续性的访问文件,当应用完成当前数据块读取的时候,下一个数据块就已经准备好了。

Performance.write-behind:写入数据时,先写入缓存内,再写入硬盘内,以提高写入的性能。

Performance.io-cache:缓存已经被读过的。

调整方法:

Glusster volume set <卷> <参数>

[root@glusterfs01 ~]# gluster volume info gs2

Volume Name: gs2
Type: Replicate
Volume ID: c76fe8fd-71a7-4395-9dd2-ef1dc85163b8
Status: Started
Number of Bricks: 1 x 2 = 2
Transport-type: tcp
Bricks:
Brick1: glusterfs03:/gluster/brick1
Brick2: glusterfs04:/gluster/brick1
Options Reconfigured:
performance.readdir-ahead: on
[root@glusterfs01 ~]# gluster volume set gs2 performance.read-ahead on #设置预缓存优化
volume set: success
[root@glusterfs01 ~]# gluster volume info gs2 Volume Name: gs2
Type: Replicate
Volume ID: c76fe8fd-71a7-4395-9dd2-ef1dc85163b8
Status: Started
Number of Bricks: 1 x 2 = 2
Transport-type: tcp
Bricks:
Brick1: glusterfs03:/gluster/brick1
Brick2: glusterfs04:/gluster/brick1
Options Reconfigured:
performance.read-ahead: on #已经添加上了
performance.readdir-ahead: on
[root@glusterfs01 ~]# gluster volume set gs2 performance.cache-size 256MB #设置读缓存大小
volume set: success
[root@glusterfs01 ~]# gluster volume info gs2 Volume Name: gs2
Type: Replicate
Volume ID: c76fe8fd-71a7-4395-9dd2-ef1dc85163b8
Status: Started
Number of Bricks: 1 x 2 = 2
Transport-type: tcp
Bricks:
Brick1: glusterfs03:/gluster/brick1
Brick2: glusterfs04:/gluster/brick1
Options Reconfigured:
performance.cache-size: 256MB #已经添加上了
performance.read-ahead: on
performance.readdir-ahead: on

6.5.3 监控及日常维护

使用Zabbix自带模板即可。Cpu,内存,主机存活,磁盘空间,主机运行时间,系统load。日常情况要查看服务器的监控值,遇到报警要及时处理。

#以下命令在复制卷的场景下才会有
#gluster volume status gs2 查看节点NFS是否在线
(开没开端口)
#gluster volume heal gs2 full 启动完全修复 #gluster volume heal gs2 info 查看需要修复的文件 #gluster volume heal gs2 info healed 查看修复成功的文件 #gluster volume heal gs2 info heal-failed 查看修复失败文件 #gluster volume heal gs2 info split-brain 查看脑裂的文件 #gluster volume quota gs2 enable --激活quota功能 #gluster volume quota gs2 disable --关闭quota功能 #gluster volume quota gs2 limit-usage /data 10GB --/gs2/data 目录限制 #gluster volume quota gs2 list --quota 信息列表 #gluster volume quota gs2 list /data --限制目录的quota信息 #gluster volume set gs2 features.quota-timeout 5 --设置信息的超时事实上时间 #gluster volume quota gs2 remove /data -删除某个目录的quota设置 备注: 1)quota 功能,主要是对挂载点下的某个目录进行空间限额。如:/mnt/glusterfs/data目录,而不是对组成卷组的空间进行限制

七 生产环境遇到常见故障处理

7.1 硬盘故障

因为底层做了raid配置,有硬件故障,直接更换硬盘,会自动同步数据。(raid5)

7.2 一台主机故障

一台节点故障的情况包括以下类型:

1,物理故障

2,同时有多块硬盘故障,造成是数据丢失

3,系统损坏不可修复

解决方法:

找一台完全一样的机器,至少要保证硬盘数量大小一致,安装系统,配置和故障机同样的ip,安装gluster软件,保证配置一样,在其他健康的节点上执行命令gluster peer status,查看故障服务器的uuid

#例如:
[root@glusterfs03 ~]# gluster peer status
Number of Peers: 3 Hostname: glusterfs02
Uuid: 0b52290d-96b0-4b9c-988d-44062735a8a8
State: Peer in Cluster (Connected) Hostname: glusterfs04
Uuid: a43ac51b-641c-4fc4-be56-f6873423b462
State: Peer in Cluster (Connected) Hostname: glusterfs01
Uuid: 198f2c7c-1104-4671-8989-b430b77540e9
State: Peer in Cluster (Connected)
[root@glusterfs03 ~]#

修改新加机器的/var/lib/glusterd/glusterd.info和故障机器的一样

[root@glusterfs04 ~]# cat /var/lib/glusterd/glusterd.info
UUID=a43ac51b-641c-4fc4-be56-f6873423b462
operating-version=30712

在新机器挂载目录上执行磁盘故障的操作(任意节点)

[root@glusterfs04 ~]# gluster volume heal gs2 full
Launching heal operation to perform full self heal on volume gs2 has been successful
Use heal info commands to check status

就会自动开始同步,但是同步的时候会影响整个系统的性能

可以查看状态

[root@glusterfs04 ~]# gluster volume heal gs2 info
Brick glusterfs03:/gluster/brick1
Status: Connected
Number of entries: 0 Brick glusterfs04:/gluster/brick1
Status: Connected
Number of entries: 0

Linux实战教学笔记52:GlusterFS分布式存储系统的更多相关文章

  1. Linux实战教学笔记

    Linux实战教学笔记01:计算机硬件组成与基本原理 Linux实战教学笔记02:计算机系统硬件核心知识 Linux实战教学笔记03:操作系统发展历程及系统版本选择 Linux实战教学笔记04:Lin ...

  2. Linux实战教学笔记22:企业级NFS网络文件共享服务

    目录 第二十二节 企业级NFS网络文件共享服务 第一章 NFS网络文件共享服务 1.1 NFS介绍 1.2 NFS系统原理介绍 1.3 NFS服务端部署环境准备 1.4 NFS server端的设置 ...

  3. Linux实战教学笔记11:linux定时任务

    第十一节 linux定时任务 标签(空格分隔): Linux实战教学笔记 ---更多资料点我查看 1.1 定时任务Crond介绍 Crond是linux系统中用来定期执行命令/脚本或指定程序任务的一种 ...

  4. Linux实战教学笔记24:SSH连接原理及ssh-key

    目录 第二十四节 SSH连接原理及ssh-key讲解 第1章 SSH服务 1.1 ssh介绍 1.2 知识小结 第2章 ssh结构 2.1 SSH加密技术 第3章 ssh服务认证类型 3.1 基于口令 ...

  5. Linux实战教学笔记08:Linux 文件的属性(上半部分)

    第八节 Linux 文件的属性(上半部分) 标签(空格分隔):Linux实战教学笔记 第1章 Linux中的文件 1.1 文件属性概述(ls -lhi) linux里一切皆文件 Linux系统中的文件 ...

  6. Linux实战教学笔记07:Linux系统目录结构介绍

    第七节 Linux系统目录结构介绍 标签(空格分隔):Linux实战教学笔记 第1章 前言 windows目录结构 C:\windows D:\Program Files E:\你懂的\精品 F:\你 ...

  7. Linux实战教学笔记06:Linux系统基础优化

    第六节 Linux系统基础优化 标签(空格分隔):Linux实战教学笔记-陈思齐 第1章 基础环境 第2章 使用网易163镜像做yum源 默认国外的yum源速度很慢,所以换成国内的. 第一步:先备份 ...

  8. Linux实战教学笔记05:远程SSH连接服务与基本排错(新手扫盲篇)

    第五节 远程SSH连接服务与基本排错 标签(空格分隔):Linux实战教学笔记-陈思齐 第1章 远程连接LInux系统管理 1.1 为什么要远程连接Linux系统 在实际的工作场景中,虚拟机界面或物理 ...

  9. Linux实战教学笔记04:Linux命令基础

    第四节:Linux命令基础 标签(空格分隔):Linux实战教学笔记 第1章 认识操作环境 root:当前登陆的用户名 @分隔符 chensiqi:主机名 -:当前路径位置 用户的提示符 1.1 Li ...

随机推荐

  1. CentOS下编译安装LNMP环境

    一.卸载系统预安装的LAMP软件 rpm -qa|grep httpd rpm -e httpd httpd-tools rpm -qa|grep mysql rpm -e mysql mysql-l ...

  2. oracle 之 手动建库

    1.-- 查看服务器 ORA 环境变量情况[oracle@orastb ~]$ env|grep ORAORACLE_BASE=/u01/app/oracleORACLE_HOME=/u01/app/ ...

  3. 单机数据库优化的一些实践(mysql)

    数据库优化有很多可以讲,按照支撑的数据量来分可以分为两个阶段:单机数据库和分库分表,前者一般可以支撑500W或者10G以内的数据,超过这个值则需要考虑分库分表.另外,一般大企业面试往往会从单机数据库问 ...

  4. C#操作mysql数据库,往mysql读取或者写入数据

    最近在开发的一个项目,需要将数据存贮在mysql数据库中,于是需要写一个操作mysql的帮助类,我采用的是官方的,还是先给出一个链接,后面有时间的话,继续更新. http://blog.csdn.ne ...

  5. leaflet简单操作demo

    今天大意了解了一下leaflet这个开源的 JavaScript 库,很强大. 结合腾讯地图,做了个简单的demo,作为一个学习的起点吧(各种API结合自身的业务) <!DOCTYPE html ...

  6. linux下踢出已登录用户

    通过xshell登录到linux,看到如下所示,有3个用户,但是前面两个不知在哪登录的了,那就踢出吧. 先确认一下自己是哪个 顺便注意一下“whoami”和“who am i”的不同 然后踢出前面两个 ...

  7. 【Leetcode 167】Two Sum II - Input array is sorted

    问题描述:给出一个升序排列好的整数数组,找出2个数,它们的和等于目标数.返回这两个数的下标(从1开始),其中第1个下标比第2个下标小. Input: numbers={2, 7, 11, 15}, t ...

  8. 用js实现屏蔽F12、鼠标右击、鼠标左击

    function window.onhelp(){return false} //屏蔽F1帮助 document.onkeydown = function(){ if(window.event &am ...

  9. MySql触发器实现数据同步学习

    触发器实现:(增.删.改操作事件触发数据单向同步)数据库触发器教程:https://www.cnblogs.com/phpper/p/7587031.html同步代码: DELIMITER $ DRO ...

  10. PHP 循环删除无限分类子节点

    <?php private function _deleteSubNode($ids){ $subNodes = array(); $mod = D('Node'); foreach (expl ...