2006年12月29日

サーバ障害

先日ストレージを増設したサーバが、いきなり障害を起こしてくれた。結局回復するまでに約1週間もかかってしまった!年末の1週間は、その対応をしてたことになる。まずサーバ増設の翌日、どうもディスクアクセスが遅い。社内からもそんな声が上がっていたが、自分で使ってみてもやっぱり遅い。で、調べてみるとRAIDコントローラのライトバックキャッシュ用のバッテリがおかしいらしい。新品であれば充電中というステータスになることはあるが(メーカーによると最大72時間かかる模様)エラーが出ているのは増設したわけではない古いストレージ(古いといっても型番は今回購入したものと同じ)。仕方ないのでメーカーのサポートセンターに電話をして、対応を依頼する。サーバを止めるのは基本的に夜なので、夜10時を指定して来社してもらう。バッテリを交換したらとりあえずエラーは解消。ついでにハードウェア関連のツール類を最新版にアップデートしてもらう。とりあえずアクセス速度も元に戻り一安心。ところが!

ところが次の日、会社に来たら、まだ始業時間前なのに電話が鳴る。話を聞くとファイルサーバにアクセスできないとのこと。確かにフォルダを開こうとするとセマフォがどうこうとエラーが出る。とりあえずWindowsサーバの基本、リブートをしてみた。するとなんと外部ディスク装置自体を認識しなくなる。これはやばい。これから業務が始まる時間だと言うのにデータが見えないなんて。速攻でメーカーに連絡をし、超特急依頼を出す。エンジニアが来たのは3時間半後、お昼前。その間、ずっとユーザには我慢を強いることになる。で、結局昨日交換したバッテリーが不良品だったようで、RAIDコントローラを含めて交換。とりあえずサーバは暫定復旧したが、続きの作業は夜に実施することにして、とりあえずユーザへはサービス再開をアナウンス。で、メーカーのエンジニアには夜10時に再度来社してもらい、サーバを停止してから続きの作業を実施。ちなみにこの日は忘年会もあり、おいらは夕方会社を抜け出して忘年会で騒ぎ、夜10時に会社に舞い戻った。来社したエンジニアと早速作業開始。ファームウェアやパッチ類をあてるだけあててもらった。なにしろファイルサーバ&プリントサーバ&Webサーバなどの正統的な使い方しかしてないから、パッチをあてるのに躊躇する理由がない。だがここで問題発生。このストレージサーバは、Windows Server2003 Storage Serverというストレージ用OSなので、通常のWindows Serverとはちょっと違う。なのでWindows Updateが実行できない。で、Storage Server用にService Releaseが出ているのだけど、それをインストールしないと一部のパッチが当たらない。ちなみにおいらは以前メーカーのWebページからService Release用のDVDを取り寄せたのだけど、エラーが発生してインストールできなかったことがあった。で、結局この日は万策尽きて、エラーの起きるDVDをメーカーのエンジニアに持ち帰ってもらい、原因調査を頼んだ。

そして次の日、メーカーより連絡があり、例のDVDは社内検証でもエラーが起きる不良品との事。実はDVD-Rだったのだけど、焼きに失敗したメディアだったらしい・・・・おいおいおいおい。頼むでしかし。で、「今日にでもインストールに伺いたい」といわれたのだけど、Service Releaseのインストール前にはフルバックアップが推奨されているので、とりあえずはフルバックアップを取る。といっても容量は2TBもあるし、サイズの小さなファイルがほとんどなので時間がえらくかかる。結局この日はバックアップが終わらないという理由で次の日へ持ち越し。そして年末も迫ったこの日、Service Releaseのインストール(Service Packと違って、最新版を1度インストールすればいいのではなくて、古いのから順番に入れる必要がある)を実施して、その他のHPのツール類も順番に最新版へ。なんだかんだと時間がかかって1日作業。そして約1週間の経過の後、ストレージサーバは正常な状態に戻った。それにしてもえらく大変だった。あとは、バックアップにかかる時間を如何に短縮するかが課題ではある。何かいい知恵はないでしょうか?

kenjiz at 23:36│Comments(0)TrackBack(0) IT 

トラックバックURL

この記事にコメントする

名前:
URL:
  情報を記憶: 評価: 顔