适用范围 SUSE Linux Enterprise Server 15 SP4

13 软件 RAID 查错 #

查看 /proc/mdstats 文件以确定 RAID 分区是否受损。如果磁盘出现故障，请关闭 Linux 系统并用以同样方式分区的新硬盘替换出现问题的硬盘。然后重启动您的系统并输入命令 mdadm /dev/mdX --add /dev/sdX。将 X 替换为您的特定设备标识符。这会自动将硬盘整合到 RAID 系统中并完全重新构造（适用于除 RAID 0 以外的所有 RAID 级别）。

尽管可以在重构建期间访问所有数据，但在 RAID 完全重构建之前，仍然可能遇到一些性能问题。

13.1 修复故障磁盘之后进行恢复 #

RAID 阵列中的磁盘可能会出于多种原因而发生故障。下面列出了最常见的原因：

磁盘媒体出现问题。
磁盘驱动器控制器发生故障。
与磁盘的连接断开。

在发生磁盘媒体或控制器故障时，需要更换或修复设备。如果未在 RAID 中配置热备用，则需要手动干预。

对于后一种情况，可以在修复连接（可能会自动修复）之后，使用 mdadm 命令自动重新添加发生故障的设备。

由于 md/mdadm 不能可靠地判断磁盘发生故障的原因，因此会臆测发生了严重的磁盘错误，并一直将任何发生操作失败的设备视为有故障，直到明确被告知该设备可靠为止。

在某些情况下（例如，储存设备包含内部 RAID 阵列），连接问题往往是设备发生故障的原因。在这种情况下，您可以告知 mdadm，在设备出现后，可以放心地使用 --re-add 自动重新添加该设备。为此，您可以将下面一行添加到 /etc/mdadm.conf 中：

POLICY action=re-add

请注意，仅当 udev 规则导致 mdadm -I DISK_DEVICE_NAME 在自发出现的任何设备上运行（默认行为），并且已配置 write-intent 位图（默认会配置）时，才会在设备重新出现之后自动重新添加该设备。

如果您希望此策略仅应用到某些设备而不应用到其余设备，可以将 path= 选项添加到 /etc/mdadm.conf 中的 POLICY 一行，以将非默认操作限制为只对选定的设备执行。可以使用通配符来识别设备组。有关详细信息，请参见 man 5 mdadm.conf。