如何快速认识Ceph/CephFS，最简单的方式就是快速应用它-德赢Vwin官网网

大数据需要大存储，尤其是文件存储，Hadoop组件之一HDFS也因此得到了快速发展。随着AI时代的来临，机器学习对于大存储提出了更高的要求。分布式、并行、高速、在线扩展、高可用、可靠、安全等等，现代机器学习尤其是深度学习，要做大模型和超大模型训练，要迭代数以TB级别甚至PB级别的样本，要做类似spark的checkpoint，要做动态感知计算和网络环境的调度，等等复杂负载，对文件系统的这些需求逐渐都变成了刚需。

壹

当前比较流行的分布式文件系统，包括HDFS、Ceph/CephFS、Lustre、GPFS、Gluste rFS等，各具特点，并应用于一些特定的场景。作为开源项目的佼佼者，Ceph/CephFS因提供了对象存储、块存储、文件系统三种接口，得到了最为广泛的应用。常规的场景中，对象存储可以搭建企业级网盘，块存储可以作为OpenStack/KVM的镜像后端，文件存储可以替代HDFS支持大数据。在云原生大行其道的今天，Ceph也没有落后脚步。目前已经提供了Kubernetes/Docker存储的原生支持。

贰

了解Ceph的人，大都会认为Ceph是一个相对复杂的系统，尤其当磁盘规模达到千块甚至万块时。Ceph经受住了长时间的应用考验，也说明其架构设计非常之优秀。

在OPPO的机器学习平台里，Ceph也在发挥着极其重要的作用，提供了诸如深度模型分布式训练、代码和数据共享、训练任务容灾、模型急速发布等能力。Ceph的应用场景远不仅如此，但因为Ceph系统太过“复杂”，导致很多架构师或者技术经理不敢轻易触碰。

诚然，采纳和应用一门新技术，向来不是一个简单容易的过程，但认识或者理解一门新技术，对于我们这些混迹于IT和互联网圈的同学，可能从来都不是什么难事儿。

叁

如何快速认识Ceph/CephFS，最简单的方式就是快速应用它。如果想要理解它的原理，看代码便是最直接的方式。后面，我们用源码构建并运行一个小型的Ceph，全面感知下Ceph的魅力。对于了解Docker的同学，可以在容器里进行这个尝试。

以下演示如何快速编译并启动一个管理三块磁盘的分布式文件系统。图中Rados Cluster即为构造的Ceph存储集群， CephFS Kernel Client 是实现Linux VFS标准的内核模块，两者通过网络传递磁盘IO。