ネットワーク管理者の憂鬱な日常

とある組織でネットワーク管理に携わる管理者の憂鬱な日常を書いてみたりするブログ

緊急メンテナンス

とあるサーバが機能しなくなり,コンソールを見に行くと
シングルユーザーモードに落ちてた.


とりあえず,マニュアルでfsckかけて再起動したのだが,しばらくすると
再び(シングルユーザモードに)落ちる.

まあ,どう見てもファイルシステム逝ってるのは明らかなのだが,
/var/log/messages確認すると,こんなエラーが頻発・・・

/kernel: ad0: READ command timeout tag=0 serv=0 - resetting
/kernel: ata0: resetting devices .. done

これは,ファイルシステムというより,デバイス(HDD自体)がお亡くなり・・・orz
もう,だましだまし運用というレベルでもなくなったので,仕方なく緊急メンテナンス.

ビジネスタイムど真ん中のサービス停止なので,
あちこちから文句言われるだろうなぁ,と思ってたら案の定・・・
文句やら苦笑いしながらの励ましやらw

相変わらず,ご丁寧に電話で「止まってるよ」と教えて頂いた上に
「いつ直るの?」と問い合わせてこられる方も少なくなく.

確かに,mission criticalなサービスだったので「どないなってん」と
思うユーザの気持ちが分からないでもない.
連休前だし,仕事も早く終わらせたいのでしょうw

でも,問い合わせ対応している間,復旧作業が止まるんですけど(泣).

結局,根本的な部分から再構築していたので,断続的に半日サービス停止.
しかし,これでとりあえず大丈夫かなぁ,と.

インフラとして重要なポジションを確立したと考えれば,ありがたい話
ではあるが,それ故に止まった時の影響と負担も大きくなりつつありw
そろそろアウトソースでも考えてみましょうかねぇ・・・
# そんな金があれば,だけどw

復旧後,(技術の分かる)部局トップから,笑いながら労って頂いたのが
せめてもの救いでしたよ(苦笑).

スポンサーリンク