Ceph 错误收集记录

[errno 2] error connecting to the cluster

解释

安装 ceph 集群之后执行ceph -s报错如上,这个是因为认证文件没有分发到个节点导致的无法认证。

解决方案

ceph-deploy admin admin-node node1 [noden] # 后面跟你集群中的所有节点名

daemons have recently crashed

解释

一个或多个 Ceph 守护进程最近崩溃了,管理员还没有存档(确认)这个崩溃。这可能表示软件错误、硬件问题(例如,故障磁盘)或其他问题。

解决方案

  1. 查看 crash 信息

    ceph crash ls-new
  2. 查看归档信息

    ceph crash info <crash-id>
  3. 归档 crash 信息

    ceph crash archive <crash-id>

你也可以使用ceph crash archive-all命令归档 所有信息
更多参考:

解释

添加的 mon 节点不是初始化成员,集群无法识别

解决方案

修改配置文件添加public network = 172.18.1.0/24(网段需要根据实际情况修改)并将配置文件同步到新加节点

ceph-deploy --overwrite-conf config push xxx

参考