您的当前位置:首页 >应用开发 >Ceph存储节点系统盘损坏集群恢复 正文
时间:2025-11-02 20:48:57 来源:网络整理编辑:应用开发
本文主要介绍ceph16版本集群节点系统磁盘故障后的集群恢复,虽然系统盘很多都是做了raid1,但从实际做的项目看,总是有很多未知意外发生,节点挂掉后,上面的mon和osd,mgr都会down掉,如果

本文主要介绍ceph16版本集群节点系统磁盘故障后的存储集群恢复,虽然系统盘很多都是节点做了raid1,但从实际做的系统项目看,总是盘损有很多未知意外发生,节点挂掉后,坏集上面的群恢mon和osd,mgr都会down掉,存储如果所在节点的节点mgr服务是激活状态,则其他节点所在的系统备用节点将会升级为激活状态。
移除问题主机节点挂掉后,盘损在确定不能继续开机进入系统的坏集情况下,需要在其他正常的群恢节点将故障节点进行移除,此次宕机的存储节点为node4,以下命令可能会导致数据丢失,节点因为 osd 将通过调用每个 osd 来强制从集群中清除。系统
复制ceph orch host rm node4 --offline --force1. 节点初始化操作将node4节点即故障节点更换新的系统盘并重新安装系统,重装后node4主机名我修改成了node1,并更换了新的ip,在三台ceph节点上重新添加hosts解析
复制192.168.1.1 node1192.168.1.2 node2192.168.1.3 node31.2.3.将公钥添加至新主机。
复制ssh-copy-id -f -i /etc/ceph/ceph.pub node11.安装docker环境。
复制curl -sSL https://get.daocloud.io/docker | shsystemctl daemon-reloadsystemctl restart dockersystemctl enable docker1.2.3.4.安装cephadm以及ceph-common。
复制# curl --silent --remote-name --location https://github.com/ceph/ceph/raw/pacific/src/cephadm/cephadm# chmod +x cephadm# ./cephadm add-repo --release pacific# ./cephadm install# ./cephadm install ceph-common1.2.3.4.5. 向集群中添加新节点在ceph集群添加新主机。云服务器提供商
复制[root@node2 ~]# ceph orch host add node1Added host node11.2.添加后的主机列表可通过以下命令查看。
复制ceph orch host ls1.之后会自动安装mon以及crash等服务,还有node-exporter监控agent,但是新添加的节点上还不能进行ceph集群操作,因为新添加的节点上缺少ceph集群管理的密钥环,在上面的命令中其实可以看到新加的node1是缺少一个_admin标签的,这里提一下ceph是有几个特殊的主机标签的,以_开头的属于ceph主机的特殊标签,将_admin标签添加到这台新节点,就会导致cephadm 将配置文件ceph.conf和密钥环文件ceph.client.admin.keyring分发到新节点上,这里我们把_admin标签添加至新节点,这样可以在新节点上执行ceph集群的操作。
复制ceph orch host label add node1 _admin或者在添加节点时就可以把标签添加上ceph orch host add node1 --labels=_admin1.2.3. 添加osd之前想着原有的故障节点的osd直接恢复到现有集群上,后来发现虽然是恢复回去了,但是云南idc服务商osd的daemon没有被cephadm所管理,osd的容器也没有被创建,因此还是把原来故障节点的osd给格式化了,重新添加的osd,不过这里还是把我恢复的操作写一下吧。先创建一个空的osd。
复制# vceph osd create21.2.然后激活bluestore-osd的tmpfs目录 由于bluestore中osd的目录是以一个tmpfs的形式存在的,所以被umount掉了以后需要重新激活。
复制ceph-volume lvm activate (osdid) (fsid)
1. PS:这里的osdid就是我刚创建的,osdid为2,后面的fsid不是集群的fsid,而是这个osd自己的fsid,服务器托管获取方式可以直接执行ll /dev/ceph*查看,osd-block-后面的即为osd的fsid。然后添加auth和crush map,重启osd。
复制ceph auth add osd.2 osd allow * mon allow rwx -i /var/lib/ceph/osd/ceph-2/keyring1.
之后三个osd都会up,但是存在osd的daemon不被cephadm管理的问题,因此我还是删掉这个osd,重新格式化后添加的,删除osd的操作如下:
上步只是在ceph删除,还需要在磁盘上进行格式化。
复制# 显示当前设备的状态# dmsetup status# 删除所有映射关系# dmsetup remove_all# 格式化刚才删除的osd所在磁盘mkfs -t ext4 /dev/vdb1.2.3.4.5.6.重新添加osd。
复制ceph orch daemon add osd node1:/dev/vdb1.此时集群就恢复正常了。

电脑耳机如何连接音箱?(一步步教你轻松实现音箱连接)2025-11-02 20:18
无源物联网也将形成两大阵营!LPWAN“两分天下”的故事将再次上演?2025-11-02 19:59
勒索软件团体将谈判推向新的不确定性水平2025-11-02 19:29
云的复杂性以及一致安全策略的案例2025-11-02 19:06
将电脑内存条改成U盘的详细教程(简单快速地将电脑内存条改装成U盘的方法)2025-11-02 18:49
基于云的物联网软件对未来的安全意味着什么2025-11-02 18:48
各行各业如何实现智能废物管理2025-11-02 18:38
黑客利用已修复的 Fortinet FortiGate 设备漏洞获取 Root 权限2025-11-02 18:34
华为ALE-CL00手机评测(一款实用性强、性价比高的智能手机)2025-11-02 18:12
董事会想从网络安全领导者那里听到什么,不想听到什么2025-11-02 18:10
免费的电脑视频剪辑软件推荐(享受高质量视频剪辑体验,尽在免费软件中)2025-11-02 20:38
降低物联网网络安全风险的关键步骤2025-11-02 20:02
物联网创新推动自动驾驶巴士的使用2025-11-02 19:59
甲骨文承认淘汰服务器遭入侵 坚称核心云平台未受影响2025-11-02 19:54
网络设置中缺少WLAN选项的解决方法(如何解决设备中找不到WLAN选项的问题)2025-11-02 19:08
OWASP 发布生成式 AI 安全治理清单2025-11-02 19:00
物联网中使用的技术2025-11-02 18:46
五个优秀的工业物联网用例2025-11-02 18:43
免费改照片大小KB的软件推荐(简单易用的工具帮助您快速调整照片大小)2025-11-02 18:40
工业物联网采用的四个主要障碍2025-11-02 18:20