Thursday, June 24, 2010

记录一下sirius今天做的故障排除操作

今天请Paul帮忙看了一下sirius不能启动的问题,最后结论是明天继续找SM的人去烤。纯流水帐。

我们今天进行的测试包括:

- 重现问题。将服务器从HE拉回iX之后首次、第二次和第三次重启均成功。(其中,有一次冷启失败)。
- 遂将风扇降速(FULL -> PERF),关闭powerd,执行make -j9 buildworld 20分钟后重启,故障重现。

现象:重启时过热警报LED闪烁(表示风扇不转,但开机箱看实际是正常的),系统停止响应。

Paul将系统关闭之后,重插了CPU、硬盘等。故障依然可以重现。

随后怀疑是否电源或主板问题。从库里调出一张同型号X8STi主板,透过包装发现同样是PCB 1.1。遂更换了一个确定无问题的较大功率的电源,问题依然重现。

我考虑到是否有可能是CF卡问题?拔掉之后问题依然可以重现。

下午。

Paul联系SM,并强调手中有熊猫。SM工程师提到可能是BIOS问题,发来包含修正的测试版BIOS映像一份,Paul刷过BIOS之后,故障变为LED闪烁3s后可正常启动,但我去观察时故障再次重现。

经过替换和隔离,目前基本排除CPU、电源、硬盘、CF卡和风扇的问题。

遗留问题:SM目前的推测是应基本可确定是主板或BIOS问题。