2005年06月29日

サーバ障害

今日はなんと、サーバ障害のために会社に泊まり込みの予定。事の発端は午後4時頃。メールサーバから応答がなくなったというメールが監視サーバから届いた。そのときは、まだそんなに大事になるとは誰も思わなかった。

ちなみに社内にはユーザが直接アクセスするメールサーバが8台あり、ユーザが分散している。だから影響を受けたのは一部のユーザのみ。自分のメールボックスは他のサーバにあったから無事だった。

で、リブートしてみようとしたものの、RAIDコントローラーのBIOS画面で固まってしまう。ハード障害の可能性が高そうと言うことで、メーカーの保守担当者を呼んだ。彼は1時間ほどで当社に到着。ほぼ同時に、部品を抱えたバイク便の兄ちゃんも到着する。早速CEをサーバルームに案内し、彼はRAIDコントローラからログを収集して、部品交換作業を始めた。

ところが、部品交換をしたもののOSは起動しなかった。しかもハードディスクのランプの点灯のパターンがおかしい。ストライピングセットだから、それぞれのハードディスクは均等にアクセスランプが付くはずなのに、1台だけほとんどランプが付きっぱなし。どうやらそのディスクでもエラーが出ている。さらに他にもいろいろとおかしいことは判明し、ディスクだけでなくRAIDコントローラ、そしてHDDのバックプレーンも交換となった。

ところが、まだOSは起動せず、応援のCEが呼ばれた。この時点で午後9時。今日の徹夜を覚悟する。1時間ほどで先輩格のCEが登場して、2人で一緒に作業を始めた。しばらくして、OSが起動したとの連絡を受ける。といっても、ディスクは一部抜かれており、冗長構成ではない状態でかろうじて動いていた。バックアップを取得するように依頼されたので、ジョブを作成してスタート。だが100GB以上のデータを格納しているメールサーバであるため、終了予定は4時間後。。。今はそれを待っているところである。さてどうなることやら。

kenjiz at 23:59│Comments(0)TrackBack(0) IT 

トラックバックURL

この記事にコメントする

名前:
URL:
  情報を記憶: 評価: 顔