Amatsuダウン→復旧
Category : サーバ管理日記
Published by M-naka on 2010/8/7
いきなり電源断→起動不能になった。

Aegis.mythril.ne.jpへの移行をしようした矢先の話。
更新すんぞとか言ったから臍を曲げたのか(←違)。

特にHDDが異音を出したりエラーが頻発、ということもなかったので、

可能性1.電源ユニットの破損
可能性2.マザーボードの破損

のどちらかであることはほぼ明確。恐らくは電源ユニット。

とりあえずHDD上のデータが生きているかを確認。1本抜いてSerialATA-USBコンバータ経由で見てみると、問題ないことが判明。そりゃそうだ。

あとは電源ユニットを通販で取り寄せ。
安いやつがSofmapで見つかったのでそれにした。\2,480。

で、電源ユニット交換。これでダメならマザーボードだが……。あっさり復旧。やっぱり電源ユニットだった。

後始末はRAID-1の再構築。

「1本抜いた」で、異常扱いになり、片肺になった。
/proc/mdstatをcatするとこんな感じ。

Personalities : [raid1]
md0 : active raid1 sda1[0]
104320 blocks [2/1] [U_]

md2 : active raid1 sdb3[1] sda3[0]
1020032 blocks [2/2] [UU]

md3 : active raid1 sda5[0]
139227200 blocks [2/1] [U_]

md1 : active raid1 sda2[0]
20482752 blocks [2/1] [U_]

md2はswap領域で、ここだけは両肺を維持……って、swapなので不思議ではない。
アレイ状態から、/dev/sdbを抜いたことになっている。

念のためバッドブロックの有無を確認する。

/sbin/badblocks -vs -o [output_file] /dev/sdb1
/sbin/badblocks -vs -o [output_file] /dev/sdb2
/sbin/badblocks -vs -o [output_file] /dev/sdb5

でテストが走る。全周を読むのでかなり時間が掛かる。結果、バッドブロックは皆無。3年半以上24時間運転していてこれなので、優秀だ。あとはアレイの再構築をすればよい。

/sbin/mdadm --manage /dev/md0 --add /dev/sdb1
/sbin/mdadm --manage /dev/md1 --add /dev/sdb2
/sbin/mdadm --manage /dev/md3 --add /dev/sdb5

同期は自動で走るので、気長に待って作業終了。


しかしサーバ運用やってて一番故障率が高いのは電源だ、っつーのがよーーーくわかる。

実際、故障……というか、交換実績が最も多いのは電源ユニット。
幸いにして汎用パーツで、数多く出回っているのは有り難い限りである。

Amatsu.mythril.ne.jpは順次Aegis.mythril.ne.jpへ機能移行を行う。最終的にはサーバとしての運用を止め、中身を入れ替えてPCとして運用する予定。止まるには気が早いんだっつーのな。