FastDFS介绍

什么是FastDFS

FastDFS是用c语言编写的一款开源的分布式文件系统。FastDFS为互联网量身定制，充分考虑了冗余备份、负载均衡、线性扩容等机制，并注重高可用、高性能等指标，使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。

FastDFS的特性：

    FastDFS是一个轻量级的开源分布式文件系统

    FastDFS主要解决了大容量的文件存储和高并发访问的问题，文件存取时实现了负载均衡

    FastDFS实现了软件方式的RAID，可以使用廉价的IDE硬盘进行存储

    支持存储服务器在线扩容

    支持相同内容的文件只保存一份，节约磁盘空间

    FastDFS只能通过Client API访问，不支持POSIX访问方式

    FastDFS特别适合大中型网站使用，用来存储资源文件（如：图片、文档、音频、视频等等）

系统架构-架构图：

• 只有两个角色，tracker server和storage server，不需要存储文件索引信息
• 所有服务器都是对等的，不存在Master-Slave关系
• 存储服务器采用分组方式，同组内存储服务器上的文件完全相同（RAID 1）
• 不同组的storage server之间不会相互通信

• 由storage server主动向tracker server报告状态信息，tracker server之间通常不会相互通信

Tracker集群：

FastDFS集群中的Tracker server可以有多台，Tracker server之间是相互平等关系同时提供服务，Tracker server不存在单点故障。客户端请求Tracker server采用轮询方式，如果请求的tracker无法提供服务则换另一个tracker。

Storage集群：

Storage集群采用了分组存储方式。storage集群由一个或多个组构成，集群存储总容量为集群中所有组的存储容量之和。一个组由一台或多台存储服务器组成，组内的Storage server之间是平等关系，不同组的Storage server之间不会相互通信，同组内的Storage server之间会相互连接进行文件同步，从而保证同组内每个storage上的文件完全一致的。一个组的存储容量为该组内存储服务器容量最小的那个，由此可见组内存储服务器的软硬件配置最好是一致的。

采用分组存储方式的好处是灵活、可控性较强。比如上传文件时，可以由客户端直接指定上传到的组也可以由tracker进行调度选择。一个分组的存储服务器访问压力较大时，可以在该组增加存储服务器来扩充服务能力（纵向扩容）。当系统容量不足时，可以增加组来扩充存储容量（横向扩容）。

Storage状态收集

Storage server会连接集群中所有的Tracker server，定时向他们报告自己的状态，包括磁盘剩余空间、文件同步状况、文件上传下载次数等统计信息。

上传文件流程图：

客户端上传文件后存储服务器将文件ID返回给客户端，此文件ID用于以后访问该文件的索引信息。文件索引信息包括：组名，虚拟磁盘路径，数据两级目录，文件名。

组名：文件上传后所在的storage组名称，在文件上传成功后有storage服务器返回，需要客户端自行保存。

虚拟磁盘路径：storage配置的虚拟路径，与磁盘选项store_path*对应。如果配置了store_path0则是M00，如果配置了store_path1则是M01，以此类推。

数据两级目录：storage服务器在每个虚拟磁盘路径下创建的两级目录，用于存储数据文件。

文件名：与文件上传时不同。是由存储服务器根据特定信息生成，文件名包含：源存储服务器IP地址、文件创建时间戳、文件大小、随机数和文件拓展名等信息。

下载文件流程图：

tracker根据请求的文件路径即文件ID 来快速定义文件。

比如请求下边的文件：

1.通过组名tracker能够很快的定位到客户端需要访问的存储服务器组是group1，并选择合适的存储服务器提供客户端访问。

2.存储服务器根据“文件存储虚拟磁盘路径”和“数据文件两级目录”可以很快定位到文件所在目录，并根据文件名找到客户端需要访问的文件。

FastDFS 如何做到无索引服务器？

    上传文件时，文件ID由 storage server 生成并返回给client
    文件ID包含了组名和文件名，storage server可以直接根据该文件名定位到文件
    一个文件ID示例

文件名包含的信息

采用Base64编码。包含的字段包括：

    源storage server IP地址
    文件创建时间
    文件大小
    文件CRC32校验码
    随机数

FastDFS同步机制：

    采用binlog文件记录文件上传、删除等操作，根据binlog进行文件同步
    增量同步方式，记录已同步的位置到.mark文件中
    同组内的storage server之间是对等的，文件上传、删除等操作可以在任意一台storage server上进行
    文件同步只在同组内的storage server 之间进行，采用push方式，即源头服务器同步给目标服务器

FastDFS如何解决同步延迟问题？

    storage生成的文件名中，包含源头storage IP 地址和文件创建时间戳
    源头storage定时向tracker报告同步情况，包含向目标服务器同步到的文件时间戳
    tracker收到storage的同步报告后，找出该组内每台storage被同步的时间戳（取最小值），作为storage属性保存到内存

以HTTP方式下载文件：

    FastDFS 分组存储方式，为HTTP方式下载提供了遍历
    FastDFS支持HTTP方式下载文件，不建议使用内置web server,推荐使用外部web server,例如Apache或 Nginx
    因为需要解决文件同步延迟的问题因此在apache 和 nginx上需要使用FastDFS扩展模块。尤其是V3.x引入小文件合并存储后，必须使用扩展模块来读取文件

FastDFS 扩展模块要点：

    使用扩展模块来解决文件同步延迟问题
    在每台storage server上部署web server，直接对外提供HTTP服务
    tracker server上不需要部署web server
    如果请求文件在当前storage上不存在，通过文件ID反编译出源stroage,直接请求源storage
    目前已提供apache和nginx扩展模块
    FastDFS扩展模块不依赖与FasrDFS server，可以独立存在！！！

FastDFS扩展模块特性：

    仅支持HTTP HEAD 和 GET
    支持 token方式的防盗链
     -ts :生成token的时间（unix时间戳）
    -token :32位的token字符串(md5签名
    支持指定保存的缺省文件名，URL参数名为filename
    支持断点续传

推荐FastDFS 部署方案：

    文件上传和删除操作：使用FastDFS client API，目前提供了C、PHP 和JAVA的client API
    文件下载采用HTTP方式：使用nginx或者apache扩展模块，不推荐使用FastDFS内置的web server
    不要做RAID，直接挂载单盘，每隔硬盘作为一个mount point

最大并发连接设置：

    参数名：max_connections
    缺省值：256
    说明： FastDFS 采用预先分配好buffer队列的做法，分配的内存大小：max_connections*buff_size,因此配置的连接数越大，消耗的内存越多。不建议配置得过大，以避免无谓的内存开销。

工作线程设置：

    参数名： work_threads
    缺省值： 4
    说明：为了避免CPU上下文切换的开销，以及不必要的资源消耗，不建议将本参数设置得过大。为了发挥出多个CPU的效能，系统中线程数总和，应等于CPU总数
    对于tracker server,公式为：work_threads + 1 = CPU 数
    对于storage,公式为：work_threads + 1 + (disk_reader_threads +disk_writer_threads) * store_path_count = CPU数

storage 目录数设置：

    参数名: subdir_count_per_path
    缺省值： 256
    说明： FastDFS 采用二级目录的做法，目录会在FastDFS初始化时自动创建。存储海量小文件，打开了trunk存储方式的情况下，建议将本参数适当该小，比如设置为32，此时存放文件的目录数为32*32 = 1024.

storage磁盘读写线程设置：

    disk_rw_separated: 磁盘读写是否分离
    disk_reader_threads: 单个磁盘读线程数
    disk_writer_threads: 单个磁盘写线程
    如果磁盘读写混合，单个磁盘读写线程数为读线程数和写线程数之和
    对于单盘挂载方式，磁盘读写线程分别设置为1即可
    如果磁盘做了RAID，那么需要酌情加大读写线程数，这样才能最大程度地发挥磁盘性能

storage同步延迟相关设置

• sync_binlog_buff_interval：将binlog buffer写入磁盘的时间间隔，取值大于0，缺省值为60s
• sync_wait_msec：如果没有需要同步的文件，对binlog进行轮询的时间间隔，取值大于0，缺省值为100ms
• sync_interval：同步完一个文件后，休眠的毫秒数，缺省值为0
• 为了缩短文件同步时间，可以将上述3个参数适当调小即可
---------------------
作者：笑看风华
来源：CSDN
原文：https://blog.csdn.net/fd2025/article/details/80071191
版权声明：本文为博主原创文章，转载请附上博文链接！