有一台二手联想服务器,使用的是 ServeRAID M5210 阵列卡,今天发现他在 dmesg 中出现了大量的 direct IO failed ,PVE中的运行的虚拟机也出现了 io-error 的错误提示,这也不是这台服务器第一次出毛病了,之前还出现过网卡断流,DIMM报错CPU报错等莫名其妙的问题,毕竟是采购贪便宜从供应商买的二手服务器,倒也合理

安装StorCLI

PVE的环境是debian,因此需要做的是

  1. 下载安装包
    访问这个 docs.broadcom.com/docs/12351432
    或者访问 docs.broadcom.com ,在 Product Family 筛选 RAID Controller Cards ,然后搜索 StorCLI ,再展开 Management Software and Tools ,里面就有StorCLI了,下下来,在服务器上建一个文件夹传上去并unzip
  2. 安装

    apt install alien
    alien storcli-1.01.10-1.noarch.rpm
    dpkg -i storcli_1.01.10-2_all.deb

    这样就安装到了 /opt/MegaRAID/storcli/storcli64

给硬盘进行smart长自检

首先,可以用这个命令查看硬盘的一些基础信息

/opt/MegaRAID/storcli/storcli64 /c0 show

在输出的第一个表格中,有一列 DID 这个就是硬盘id,依次对每一个硬盘执行即可

smartctl -t long --device=megaraid,硬盘id /dev/sda

如果你使用的是sata硬盘,可能需要改为 --device=sat+megaraid,硬盘id
然后可以使用下面这个命令来获取自检结果

smartctl -l selftest --device=megaraid,硬盘id