kubernetes配置glusterfs作为后端动态存储

原文转载于：https://www.cnblogs.com/yuhaohao/p/10281392.html

GlusterFS分布式文件系统

一.简单介绍

分布式存储按其存储接口分为三种：文件存储、块存储、对象存储

*文件存储

通常支持POSIX接口（如glusterFS，但GFS、HDFS是非POSIX接口的），可以像普通文件系统（如ext4）那样访问，但又比普通文件系统多了并行化访问的能力和冗余机制。主要的分布式存储系统有TFS、CephFS、GlusterFS和HDFS等。主要存储非结构化数据，如普通文件，图片，音视频等。

*块存储

这种接口通常以QEMU Driver或者Kernel Module的方式存在，主要通过qemu或iscsi协议访问。主要的块存储系统有Ceph块存储、SheepDog等。主要用来存储结构化数据，如数据库数据。

*对象存储

对象存储系统综合了文件系统(NAS)和块存储(SAN)的优点，同时具有SAN的高速直接访问和NAS的数据共享等优势。以对象作为基本的存储单元，向外提供Restful数据读写接口，常以网络服务的形式提供数据访问。主要的对象存储系统有AWS、Swift和Ceph对象存储。主要用来存储费结构化数据

GlusterFS是Scale-out存储解决方案Gluster的核心，它是一个开源的分布式文件系统，具有强大的横向扩展能力，通过扩展能够支持数PB存储容量和处理数千客户端。GlusterFS借助TCP/IP或者InfiniBandRDMA网络将物理分布的存储资源聚集在一起，具有高扩展性、高可用性、高性能的特点，并且没有元数据服务器的设计，让整个服务没有单点故障的隐患，使用单一全局命名空间来管理数据。

二.GlusterFS架构

三.GlusterFS特点

*优势：

扩展性和高性能
GlusterFS采用无中心对称式结构，没有专用的元数据服务器，也就不存在元数据服务器瓶颈。元数据存在于文件的属性和扩展属性中，当需要访问某文件时，客户端使用DHT算法，根据文件的路径和文件名计算出文件所在的brick，然后由客户端从此brick获取数据，省去了同元数据服务器通信的过程。
良好的可扩展性
使用弹性hash算法替代传统的有元数据节点服务，获得了接近线性的高扩展性
高可用
采用副本、EC等冗余设计，保证在冗余范围内的节点掉线时，任然可以从其它服务器节点获取数据，保证高可用性。采用弱一致性的设计，当向副本中文件写入数据时，客户端计算出文件所在brick，然后通过网络把数据传给所在brick，当其中有一个成功返回，就认为数据成功写入，不必等待其它brick返回，就会避免当某个节点网络异常或磁盘损坏时，因为一个brick没有成功写入而导致写操作等待。
服务器端还会随着存储池的启动，而开启一个glustershd进程，这个进程会定期检查副本和EC卷中各个brick之间数据的一致性，并恢复。
存储池类型丰富
包括粗粒度、条带、副本、条带副本和EC，可以根据用户的需求，满足不同程度的冗余。
粗粒度不带任何冗余，文件不进行切片，是完整的存放在某个brick上。
条带卷不带任何冗余，文件会切片存储(默认大小为128kB)在不同的brick上，这些切片可以并发读写(并发粒度是条带块)，可以明显提高读写性能。该模式一般只适合用于处理超大型文件和多节点性能要求高的情况。
副本卷冗余度高，副本数量可以灵活配置，可以保证数据的安全性
条带副本卷是条带卷和副本卷的结合
EC卷使用EC校验算法，提供了低于副本卷的冗余度，冗余度小于100%，满足比较低的数据安全性，例如可以使2+1(冗余度为50%)，5+3(冗余度为60%)等。这个可以满足安全性要求不高的数据

*缺点：

扩容、缩容时影响的服务器较多
GlusterFS对逻辑卷中的存储单元brick划分hash分布式空间(会以brick所在磁盘大小作为权重，空间总范围为0~2**32-1)，一个brick占一份空间，当访问某文件时，使用Davies-Meyer算法根据文件名计算出hash值，比较hash值落在哪个范围内，即可确认文件所在的brick，这样定位文件会很快。但是在向逻辑卷中添加或移除brick时，hash分布空间会重新计算，每个brick的hash范围都会变化，文件定位就会失败，因此需要遍历文件，把文件移动到正确的hash分布范围对应的brick上，移动的文件可能会很多，加载系统负载，影响到正常的文件访问操作。
遍历目录下文件耗时
GlusterFS没有元数据节点，而是根据hash算法来确定文件的分布，目录利用扩展属性记录子卷中的brick的hash分布范围，每个brick的范围均不重叠，遍历目录时，需要readdir子卷中每个brick中的目录。获取每个文件的属性和扩展属性，然后进行聚合，相对于有专门元数据节点的分布式存储，遍历效率会差很多，当目录下有大量文件时，遍历会非常缓慢。
删除目录也会遇到此问题，目前提供的解决方法是合理组织目录结构，目录层级不要太深，目录下文件数量不要太多，增大GlusterFS目录缓存，另外，还可以设计把元数据和数据分离，把元数据放到内存数据库中(如redis、memcache)，并在ssd上持久保持
小文件性能较差
GlusterFS主要是为大文件设计，如io-cache、read-ahead、write-behind和条带等都是为优化大文件访问，对小文件的优化很少。
GlusterFS采用无元数据节点的设计，文件的元数据和数据一起保持在文件中，访问元数据和数据的速率相同。访问元数据的时间与访问数据的时间比例会较大，而有元数据中心的分布式存储系统，对元数据服务器可以采用快速的SSD盘(如ceph)，可以采用更大的元数据缓存等优化措施才减少访问元数据时间与访问数据时间的比值，来提高小文件性能

间与访问数据的时间比例会较大，而有元数据中心的分布式存储系统，对元数据服务器可以采用快速的SSD盘(如ceph)，可以采用更大的元数据缓存等优化措施才减少访问元数据时间与访问数据时间的比值，来提高小文件性能

四.GlusterFS的组件

brick
GlusterFS中的存储单元，通常是一个受信存储池中的服务器的一个导出目录。可以通过主机名和目录名来标识，如'SERVER:EXPORT'
- brick是一个节点和一个导出目录的集合，e.g.node1:/brick1
- brick是底层的RAID或磁盘经XFS或ext4文件系统格式化而来，所以继承了文件系统的限制
- 每个节点上的brick数是不限的
- 理想的状况是，一个集群的所有brick大小都一样
Client
挂载了GlusterFS卷的设备
GFID
GlusterFS卷中的每个文件或目录都有一个唯一的128位的数据相关联，其用于模拟inode
Namespace
每个Gluster卷都导出单个ns作为POSIX的挂载点
Node
一个拥有若干brick的设备
RDMA
远程直接内存访问，支持不通过双方的OS进行直接内存访问
RRDNS
round robin DNS是一种通过DNS轮转返回不同的设备以进行负载均衡的方法
Self-heal
用于后台运行监测副本卷中文件和目录的不一致性并解决这些不一致
Split-brain
脑裂
Volfile
GlusterFS进程的配置文件，通常位于/var/lib/glusterd/vols/volname
Volume
- 是brick的逻辑组合
- 创建时命名来识别
Trushed Storage Pool
- 一堆存储节点的集合
- 通过一个节点邀请其它节点创建，这里叫probe
- 成员可以动态加入，动态删除

五.GlusterFS集群的部署

我们使用GlusterF作为K8S的后端存储，在使用动态存储StorageClass时，集群至少需要配置三节点，如果GlusterFS集群少于三节点，在创建volume时会提示Failed to allocate new volume: No space报错

这里我们采用的集群节点如下：

节点hostname 节点IP 数据盘
192.168.0.211 k8s-master  /dev/sdb
192.168.0.212 k8s-node1   /dev/sdb
192.168.0.213 k8s-node2   /dev/sdb

5.1 部署配置GlusterFS集群

1）所有节点安装gluster

yum install centos-release-gluster -y
yum install -y glusterfs glusterfs-server glusterfs-fuse glusterfs-rdma glusterfs-geo-replication glusterfs-devel

2）所有节点启动glusterFS

systemctl start glusterd.service
systemctl enable glusterd.service
systemctl status glusterd.service

3）在集群任意节点，将glusterfs其他的peer添加进去

[root@k8s-master ~]# gluster peer probe k8s-node1
peer probe: success.
[root@k8s-master ~]# gluster peer probe k8s-node2
peer probe: success.
[root@k8s-master ~]# gluster pool list
UUID                                    Hostname        State
be94a0f1-5fc6-4d50-8460-0276426c81ab    k8s-node1       Connected
d6918655-2477-4a06-99c8-0dfbf810e4ef    k8s-node2       Connected
91c0e283-9c77-4687-a5f8-1a2d1e951e55    localhost       Connected

4）格式化集群所有节点的所有数据盘，并将物理硬盘分区初始化为物理卷

[root@k8s-master ~]# mkfs.xfs /dev/sdb -f
[root@k8s-master ~]# pvcreate /dev/sdb
[root@k8s-node1 ~]# mkfs.xfs /dev/sdb -f
[root@k8s-node1 ~]# pvcreate /dev/sdb
[root@k8s-node2 ~]# mkfs.xfs /dev/sdb -f
[root@k8s-node2 ~]# pvcreate /dev/sdb

5.2 部署配置GlusterFS的动态存储StorageClass

heketi提供一个RESTful管理节点界面，可以用来管理GlusterFS卷的生命周期，通过heketi，就可以像使用Opentack Manila，kubernete和openShift一样申请可以动态配置GlusterFS卷，Heketi会动态在集群内选择bricks构建所需的volumes，这样以确保数据的副本会分散到集群不同的故障域内。

1）所有节点安装heketi和heketi的客户端

[root@k8s-master ~]# yum install -y heketi heketi-client
[root@k8s-node1 ~]# yum install -y heketi heketi-client
[root@k8s-node2 ~]# yum install -y heketi heketi-client

2）在集群主节点配置SSH密钥

[root@k8s-master ~]# ssh-keygen -f /etc/heketi/heketi_key -t rsa -N ''
[root@k8s-master ~]# ssh-copy-id -i /etc/heketi/heketi_key.pub root@k8s-master
[root@k8s-master ~]# ssh-copy-id -i /etc/heketi/heketi_key.pub root@k8s-node1
[root@k8s-master ~]# ssh-copy-id -i /etc/heketi/heketi_key.pub root@k8s-node2
[root@k8s-master ~]# chown heketi:heketi /etc/heketi/heketi_key*

3）编辑修改heketi的配置文件/etc/heketi/heketi.json

heketi有三种executor，分别为mock，ssh，kubernetes，建议在测试环境使用mock，生成环境使用ssh，当glusterfs以容器的方式部署在Kubernetes上时，才是用kubernetes。

{
  "_port_comment": "Heketi Server Port Number",
  #这里端口默认为8080，如果在实际的使用过程中，可以修改此端口号
  "port": "8080",

  "_use_auth": "Enable JWT authorization. Please enable for deployment",
  #开启认证
  "use_auth": true,

  "_jwt": "Private keys for access",
  "jwt": {
    "_admin": "Admin has access to all APIs",
    "admin": {
      "key": "adminkey"
    },
    "_user": "User only has access to /volumes endpoint",
    "user": {
      "key": ""userkey""
    }
  },

  "_glusterfs_comment": "GlusterFS Configuration",
  "glusterfs": {
    "_executor_comment": [
      "Execute plugin. Possible choices: mock, ssh",
      "mock: This setting is used for testing and development.",
      "      It will not send commands to any node.",
      "ssh:  This setting will notify Heketi to ssh to the nodes.",
      "      It will need the values in sshexec to be configured.",
      "kubernetes: Communicate with GlusterFS containers over",
      "            Kubernetes exec api."
    ],
    #修改执行插件为ssh
    "executor": "ssh",
    #配置ssh所需的证书
    "_sshexec_comment": "SSH username and private key file information",
    "sshexec": {
      "keyfile": "/etc/heketi/heketi_key",
      "user": "root",
      "port": "22",
      "fstab": "/etc/fstab"
    },

    "_kubeexec_comment": "Kubernetes configuration",
    "kubeexec": {
      "host" :"https://kubernetes.host:8443",
      "cert" : "/path/to/crt.file",
      "insecure": false,
      "user": "kubernetes username",
      "password": "password for kubernetes user",
      "namespace": "OpenShift project or Kubernetes namespace",
      "fstab": "Optional: Specify fstab file on node.  Default is /etc/fstab"
    },

    "_db_comment": "Database file name",
    "db": "/var/lib/heketi/heketi.db",

    "_loglevel_comment": [
      "Set log level. Choices are:",
      "  none, critical, error, warning, info, debug",
      "Default is warning"
    ],
    "loglevel" : "debug"
  }
}

4）在集群所有节点将heketi服务加入开机启动，并启动服务

[root@k8s-master ~]# systemctl restart heketi
[root@k8s-master ~]# systemctl enable heketi
[root@k8s-node1 ~]# systemctl restart heketi
[root@k8s-node1 ~]# systemctl enable heketi
[root@k8s-node2 ~]# systemctl restart heketi
[root@k8s-node2 ~]# systemctl enable heketi

5）测试heketi的连接

[root@k8s-master ~]# curl http://k8s-node2:8080/hello
Hello from Heketi
[root@k8s-master ~]# curl http://k8s-node1:8080/hello
Hello from Heketi
[root@k8s-master ~]# curl http://k8s-master:8080/hello
Hello from Heketi

6）在集群的主节点设置环境变量

注意这里的端口号要和/etc/heketi/heketi.json配置文件中的保持一致

[root@glusterfs-01 ~]#export HEKETI_CLI_SERVER=http://k8s-master:8080

6）在集群的主节点修改/usr/share/heketi/topology-sample.json配置文件，执行添加节点和添加device的操作

manage为GFS管理服务的Node节点主机名，storage为Node节点IP，device为Node节点上的裸设备

[root@k8s-master ~]# cat /usr/share/heketi/topology-sample.json
{
    "clusters": [
        {
            "nodes": [
                {
                    "node": {
                        "hostnames": {
                            "manage": [
                                "k8s-master"
                            ],
                            "storage": [
                                "192.168.0.211"
                            ]
                        },
                        "zone": 1
                    },
                    "devices": [
                        {
                            "name": "/dev/sdb",
                            "destroydata": false
                        }
                    ]
                },
                {
                    "node": {
                        "hostnames": {
                            "manage": [
                                "k8s-node1"
                            ],
                            "storage": [
                                "192.168.0.212"
                            ]
                        },
                        "zone": 1
                    },
                    "devices": [
                        {
                            "name": "/dev/sdb",
                            "destroydata": false
                        }
                    ]
                },
                {
                    "node": {
                        "hostnames": {
                            "manage": [
                                "k8s-node2"
                            ],
                            "storage": [
                                "192.168.0.213"
                            ]
                        },
                        "zone": 1
                    },
                    "devices": [
                        {
                            "name": "/dev/sdb",
                            "destroydata": false
                        }
                    ]
                }
            ]
        }
    ]
}

执行创建：

[root@k8s-master ~]# heketi-cli topology load --json=/usr/share/heketi/topology-sample.json
        Found node k8s-master on cluster df868693bc506f0273852c454b71c415
                Adding device /dev/sdb ... OK
        Found node k8s-node1 on cluster df868693bc506f0273852c454b71c415
                Adding device /dev/sdb ... OK
        Found node k8s-node2 on cluster df868693bc506f0273852c454b71c415
                Adding device /dev/sdb ... OK

创建一个volume测试:

[root@k8s-master yaml]# heketi-cli volume create --size=2 --user "admin" --secret "adminkey"
Name: vol_d97876e11454d259f2dcccc6a27c2a13
Size: 2
Volume Id: d97876e11454d259f2dcccc6a27c2a13
Cluster Id: df868693bc506f0273852c454b71c415
Mount: 192.168.0.212:vol_d97876e11454d259f2dcccc6a27c2a13
Mount Options: backup-volfile-servers=192.168.0.211,192.168.0.213
Block: false
Free Size: 0
Reserved Size: 0
Block Hosting Restriction: (none)
Block Volumes: []
Durability Type: replicate
Distribute Count: 1
Replica Count: 3

查看volume的信息：

[root@k8s-master yaml]# gluster volume info

Volume Name: vol_d97876e11454d259f2dcccc6a27c2a13
Type: Replicate
Volume ID: a1c58d2e-4245-4611-8af2-5a0c9875028b
Status: Started
Snapshot Count: 0
Number of Bricks: 1 x 3 = 3
Transport-type: tcp
Bricks:
Brick1: 192.168.0.212:/var/lib/heketi/mounts/vg_b3a994403be347c3363a07cb43301485/brick_9077a394163d5af9a14a19857d12abd8/brick
Brick2: 192.168.0.213:/var/lib/heketi/mounts/vg_bf1d8d9ea9a01e42e4927e44c654e712/brick_4a2e7ee783495c026d12061e9dbb8865/brick
Brick3: 192.168.0.211:/var/lib/heketi/mounts/vg_8abda9d8f3a5c05efe76c03711e6331f/brick_0a078688802780f8a2b103f2b0c2a1eb/brick
Options Reconfigured:
user.heketi.id: d97876e11454d259f2dcccc6a27c2a13
transport.address-family: inet
storage.fips-mode-rchecksum: on
nfs.disable: on
performance.client-io-threads: off

8）配置StorageClass

创建glusterfs-storageclass.yaml文件内容如下：

[root@k8s-master yaml]# cat gluster-storageclass.yaml
---
kind: StorageClass
apiVersion: storage.k8s.io/v1beta1
metadata:
  name: gluster-k8s
provisioner: kubernetes.io/glusterfs
parameters:
  resturl: "http://192.168.0.211:8080"
  restauthenabled: "true"
  restuser: "admin"
  restuserkey: "adminkey"
  volumetype: "replicate:2"

9）执行PVC的创建测试

[root@k8s-master gluster]# cat gluster-pvc.yaml
---
kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: glusterfs-pvc
  namespace: default
  annotations:
    volume.beta.kubernetes.io/storage-class: "gluster-k8s"
spec:
  storageClassName: gluster-k8s
  accessModes:
  - ReadWriteMany
  resources:
    requests:
      storage: 1Gi

查看创建的PVC的状态：

[root@k8s-master gluster]# kubectl get pvc
NAME                      STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS   AGE
glusterfs-pvc             Bound    pvc-deb44c85-2bbe-11eb-ac6d-000c29824e3f   1Gi        RWX            gluster-k8s    54s

PS：

报错一：

[root@k8s-master ~]# heketi-cli topology load --json=/usr/share/heketi/topology-sample.json
Creating cluster ... ID: df868693bc506f0273852c454b71c415
        Allowing file volumes on cluster.
        Allowing block volumes on cluster.
        Creating node k8s-master ... ID: 772ef741192c089f72eb93b810639c41
                Adding device /dev/sdb ... Unable to add device: Setup of device /dev/sdb failed (already initialized or contains data?): WARNING: xfs signature detected on /dev/sdb at offset 0. Wipe it? [y/n]: [n]
  Aborted wiping of xfs.
  1 existing signature left on the device.
        Creating node k8s-node1 ... ID: 106b0ee5abce83199053a92515fbc1c5
                Adding device /dev/sdb ... Unable to add device: Setup of device /dev/sdb failed (already initialized or contains data?): WARNING: xfs signature detected on /dev/sdb at offset 0. Wipe it? [y/n]: [n]
  Aborted wiping of xfs.
  1 existing signature left on the device.
        Creating node k8s-node2 ... ID: 79e131ca65ead7586471db873af16f45
                Adding device /dev/sdb ... Unable to add device: Setup of device /dev/sdb failed (already initialized or contains data?): WARNING: xfs signature detected on /dev/sdb at offset 0. Wipe it? [y/n]: [n]
  Aborted wiping of xfs.
  1 existing signature left on the device.

解决方法：

进入节点glusterfs容器执行pvcreate

[root@k8s-master ~]# pvcreate /dev/sdb
WARNING: xfs signature detected on /dev/sdb at offset 0. Wipe it? [y/n]: y
  Wiping xfs signature on /dev/sdb.
  Physical volume "/dev/sdb" successfully created.
[root@k8s-node1 ~]# pvcreate /dev/sdb
WARNING: xfs signature detected on /dev/sdb at offset 0. Wipe it? [y/n]: y
  Wiping xfs signature on /dev/sdb.
  Physical volume "/dev/sdb" successfully created.
[root@k8s-node2 ~]# pvcreate /dev/sdb
WARNING: xfs signature detected on /dev/sdb at offset 0. Wipe it? [y/n]: y
  Wiping xfs signature on /dev/sdb.
  Physical volume "/dev/sdb" successfully creat