JuiceFS框架介绍和读写流程解析

1.基本组件介绍

JuiceFS Client：支持多种Client端的接口，比如兼容POSIX文件系统的接口，以此你可以将它挂载到系统上当文件系统使用，且可以为k8s提供存储使用，用ks8s的csi driver进行接入。同时也支持S3协议，开发了对应的S3网关进行支持；

Data Storage：对象存储服务，用以存储具体数据的，可以类比文件系统里的block数据保存，支持多种后端存储；

Metadata Engine：元数据服务，用以存储文件元数据信息的，比如文件名、目录信息、文件inode等信息，可以类比文件系统里的inode数据管理，支持多种元数据存储；

2.快速部署

我们使用docker部署一个minio作为对象存储服务，用docker部署一个redis作为元数据服务。

git下载juicefs代码并进行编译生成juicefs二进制可执行文件：

git clone https://github.com/juicedata/juicefs.git

cd juicefs && make

安装docker和下载redis和minio/minio镜像。

部署元数据服务和对象存储服务：

sudo docker run -d --name redis -v /data/redis-data:/data -p 6379:6379 --restart unless-stopped redis redis-server --appendonly yes
sudo docker run -d --name minio -v /data/minio-data:/data -p 9000:9000 --restart unless-stopped minio/minio server /data

进行format和挂载：

mkdir /data/ussfs

./juicefs format --storage minio --bucket http://127.0.0.1:9000/test123 --access-key minioadmin --secret-key minioadmin redis://127.0.0.1:6379/10 test123
./juicefs mount -d redis://127.0.0.1:6379/10 /data/ussfs

3.挂载过程分析

format过程：

format的作用是将一些元数据信息先注册好，在mount时进行获取作为配置参数，比如对象存储的相关信息，bucket的相关信息等。

流程说明：

（1）接收客户端执行的命令，如果是mount的命令，则进入mount逻辑；

（2）通过format给定的url来判断是哪种元数据服务，并初始化元数据服务对象；

（3）构建format结构体对象，结构体里包含对象存储服务信息，block size等信息；

（4）根据format的信息初始化对象存储服务并测试对象存储服务是否可增删改操作，确保对象存储服务可用；

（5）持久化format信息，在redis为元数据服务时，即是将格式化后的format数据保存到redis的setting这个key中；

（6）创建inode号为1的第一个文件，文件类型为目录，作为后续创建文件的父目录，并持久化到元数据中。

mount过程：

mount就是将自定义的文件系统挂载到指定目录下，可供符合POSIX的接口进行调用，由mount中开启的server服务进行文件操作请求接收并处理。

流程说明：

（1）获取mount中的命令行参数，获取到元数据信息url；

（2）创建元数据服务连接实例，从元数据服务中获取之前保存的format信息；

（3）根据format信息创建对象存储服务连接实例storage，创建store对象，store对象是对对象存储数据进行管理，store对象属性里包含了storage对象和对cache的管理；

（4）初始化vfs对象，vfs是一层虚拟文件系统对象，它包含了对meta和storage的管理，创建了读写对象和文件句柄管理；

（5）如果命令行参数中是有用-d指定了mount进程后台运行，则调用makeDaemon函数将fork出一个进程作为daemon进程后台运行；

（6）通过读取挂载目录文件属性来检查挂载目录是否可进行挂载；

（7）创建本次挂载session，生成session信息保存到元数据服务中；

（8）创建自定义的文件系统类型，通过用户态fuse（用户空间实现文件系统）库来进行实现，启动服务来接收fuse的请求信息并封装成request，解析request找到对应的处理函数进行处理并返回。

启动的server接收fuse请求大致流程图：

4.元数据保存key含义解析

主要介绍在redis为元数据服务时，保存的各个key的含义，方便下面讲解读写流程。

这里我们先列出redis中保存的所有key：

可以看到，大概分成好几种key，有i开头的，有d开头的，有c开头的，还有其它的一些固定字符串的key。

setting：保存的format信息的key，对应的结构体：

type Format struct {
    Name        string
    UUID        string
    Storage     string
    Bucket      string
    AccessKey   string
    SecretKey   string `json:",omitempty"`
    BlockSize   int
    Compression string
    Shards      int
    Partitions  int
    Capacity    uint64
    Inodes      uint64
    EncryptKey  string `json:",omitempty"`
}

i1：表示记录的inode号为1的文件的属性信息，同理i2为inode号为2的文件属性key，保存的值对应的结构体为：

// Attr represents attributes of a node.
type Attr struct {
    Flags     uint8  // reserved flags
    Typ       uint8  // type of a node
    Mode      uint16 // permission mode
    Uid       uint32 // owner id
    Gid       uint32 // group id of owner
    Atime     int64  // last access time
    Mtime     int64  // last modified time
    Ctime     int64  // last change time for meta
    Atimensec uint32 // nanosecond part of atime
    Mtimensec uint32 // nanosecond part of mtime
    Ctimensec uint32 // nanosecond part of ctime
    Nlink     uint32 // number of links (sub-directories or hardlinks)
    Length    uint64 // length of regular file
    Rdev      uint32 // device number
 
    Parent    Ino  // inode of parent, only for Directory
    Full      bool // the attributes are completed or not
    KeepCache bool // whether to keep the cached page or not
}

d1：当文件为目录类型时，就会对应一个d开头的key，1表示该文件夹是inode号为1的，它是一个hash类型的键，它的每个field key是文件名字，field key对应的值是文件类型和对应的inode号，field key的值保存着文件类型和文件inode号。这样的话就可以方便的找到某个目录下的某个文件名的inode号及该文件的类型，同理d3就是inode号为3的文件夹记录着它文件夹下的文件元信息。

c14_0：c表示chunk的意思，我们先来看下这个数据结构图

可以看到一个文件数据会被拆分成chunk来进行保存的，如果是大文件，那么会被按指定大小拆分成多个chunk，这个c14的14就表示这个chunk是归属于inode14这个文件的，c14_0的0则表示是第一个chunk，该key是列表类型的键，它的每个元素是一个slice，slice不是固定大小的，slice会根据block size大小拆分成多个block进行存储，比如block size是4M，如果slice是6M，则拆分成2个block来进行存储，计算出对应的两个key把键值往对象存储服务中存储。比如生成35_0_16384和35_1_8192，35是表示这个slice的id（Slice结构体中的Chunkid字段），0和1表示两个block，16384和8192分别表示block的大小，分别为4M和2M。

chunk的结构体：是slices列表的数据结构，[]meta.Slice

Slice结构体：

// Slice is a slice of a chunk.
// Multiple slices could be combined together as a chunk.
type Slice struct {
    Chunkid uint64
    Size    uint32
    Off     uint32
    Len     uint32
}

nextinode：它是一个自增的key，作用是分配新的inode；

nextchunk：它也是自增的，用来分配给slice的chunkid的；

nextsession：它也是自增的，用来给session结构体分配session id的。

totalInodes和usedSpace是记录当前一共有多少个inode和当前空间已使用量的。

5.读写文件过程分析

5.1.创建文件夹

创建文件夹命令示例：mkdir /data/ussfs/testdir

流程图：

流程说明：

（1）先获取根文件属性信息，然后通过文件路径和文件名获取指定文件属性，获取的方式就是一层层获取，比如/a/b/c，先是在a目录下找b，然后在b目录下找c，这是通过调用doLookup函数来查询获取；

（2）如果要创建的文件夹不存在则进行创建，创建调用doMkdir函数进行创建，该函数又调用mknode函数来创建文件信息（文件夹也是一个文件）；

（3）从元数据服务器中获取一个新的inode号，如果是redis元数据服务，则是由一个自增的nextinode来保存当前分配的inode号；

（4）设置新文件的文件属性信息，比如权限、创建时间等信息；

（5）向父目录中添加该新文件，当redis为元数据服务时，则是向d开头的key里比如d1里添加一条该新文件信息；

（6）更新父目录文件属性信息、新文件属性信息和文件系统的一些总体使用信息。

创建文件跟创建文件夹类似，先调用的doCreate，然后也会调用mknode来生成inode和保存文件属性信息。

5.2.写入数据到文件

写入文件命令示例：echo "123456789" > /data/ussfs/testdir/testfile

流程图：

流程说明：

（1）跟先前类似，先通过文件路径找到该文件，获取该文件属性信息，如果文件不存在先创建文件；

（2）调用doopen函数打开文件，主要是初始化文件handle，创建文件读写对象，返回文件描述符；

（3）调用dowrite，传入偏移位置和写入数据，通过偏移位置计算出要写入到第几个chunk中去，如果是跨chunk（一个chunk默认64M），则先写入一部分数据到一个chunk，然后再写剩下的数据到下一个chunk；

（4）在一个chunk中查找合适的slice进行写入，比如改变的数据是在中间部分的，那其实只要更新那一个slice数据即可，其它slice可以不变更，我们目前这场景是找不到一个合适的slice，它会创建一个slice，然后通过该slice进行数据上传；

（5）通过偏移量进行block的计算，每个block会生成对应的key，然后调用对象存储的put方法进行key value的上传来存储数据；

（6）保存slice元信息到元数据服务中。

5.3.读取文件数据

读取文件命令示例：cat /data/ussfs/testdir/testfile

流程图：

流程说明：

（1）跟先前类似，先通过文件路径找到该文件，获取该文件属性信息，如果文件不存在先创建文件；

（2）调用doopen函数打开文件，主要是初始化文件handle，创建文件读写对象，返回文件描述符；

（3）分配存储数据的page数据结构，从元数据服务获取所有slice列表；

（4）遍历每个slice，取出slice对应的所有block信息保存到page对象中；

（5）如果block有缓存则直接从缓冲中获取，否则从对象存储中重新获取，并进行缓存。