2012年05月29日

ファイルサーバトラブル

先週から、おいらの会社のファイルサーバが障害で大変なことになっています。事の発端は、サーバがいきなりブルースクリーンになること。まぁ、障害自体は避けられないし驚きもしないので、とりあえず保守呼んで原因切り分け。ただこのときは特にエラーもなく、保守員も手当たり次第にパーツ交換。再起動するとしばらくはちゃんと動いている。でもまた少ししたらブルースクリーン。またパーツ交換、でも直らず。このあたりまではおいらの海外出張中の話。

で、おいら帰国後にトラブル対応に参戦。Microsoftサポートから、NTFS.SYSのバージョンアップを試すように提案が届く。で、やってみたら動き出したように見えた・・・。と思ったが半日後に再度ブルースクリーン。万事休す。で、結局メモリのフルダンプを取得することに。フルダンプって、メモリの容量だけあるから、このサーバの場合24GBあります。で、このダンプファイルをMicrosoftサポートに送るのだけで一苦労。最終的にはファイルを分割して自社のWebサイトにアップし、先方にダウンロードしてもらうという方法に。

で、メモリダンプの解析結果で判明したのは、NTFSファイルシステムが一部破損していて、その特定ファイルにアクセスした瞬間にブルースクリーンになるとのこと。WindowsOS弱いっすねー。解決法としてはscandiskと言われたのですが、ディスク容量は20TB以上、ファイル数は1億以上あるので、scandiskはおそらく1週間以上かかる見込み。結局、別パーティションを切ってそこにテープからフルリストアし、ユーザーへ提供再開となりました。テープ上に保管されていなかったファイルは、破損パーティションから個別にサルベージです。LTO5ドライブを4つ同時並行で動かしても、リストアに数日かかりました。

それにしても、大容量のファイルサーバの運用は難しいですね。ハードウェア的には冗長構成も取れるし、ストレージでクローンを作ったりもできるけど、ファイルシステムの破損となると手の打ちようがありません。かといって対策をとらないわけにもいかないので、ストレージを増設してOS上でミラーリングすることにします。DFS-Rを使うか、robocopyを使うか、あるいはサードパーティの製品か、これから構成を考えないといけません。メーカーや販社からもいくつか提案をもらいましたが、実際の運用ノウハウをベースにしているとは思えない提案ばかりで、微妙です。数十TBのファイルサーバをこうやって運用しているよ、バックアップはこうしているよ、みたいなノウハウって、どこにあるんでしょうね?

kenjiz at 23:35│Comments(0)TrackBack(0) IT 

トラックバックURL

この記事にコメントする

名前:
URL:
  情報を記憶: 評価: 顔