緊急メンテナンス
とあるサーバが機能しなくなり,コンソールを見に行くと
シングルユーザーモードに落ちてた.
とりあえず,マニュアルでfsckかけて再起動したのだが,しばらくすると
再び(シングルユーザモードに)落ちる.
まあ,どう見てもファイルシステム逝ってるのは明らかなのだが,
/var/log/messages確認すると,こんなエラーが頻発・・・
/kernel: ad0: READ command timeout tag=0 serv=0 - resetting
/kernel: ata0: resetting devices .. done
これは,ファイルシステムというより,デバイス(HDD自体)がお亡くなり・・・orz
もう,だましだまし運用というレベルでもなくなったので,仕方なく緊急メンテナンス.
ビジネスタイムど真ん中のサービス停止なので,
あちこちから文句言われるだろうなぁ,と思ってたら案の定・・・
文句やら苦笑いしながらの励ましやらw
相変わらず,ご丁寧に電話で「止まってるよ」と教えて頂いた上に
「いつ直るの?」と問い合わせてこられる方も少なくなく.
確かに,mission criticalなサービスだったので「どないなってん」と
思うユーザの気持ちが分からないでもない.
連休前だし,仕事も早く終わらせたいのでしょうw
でも,問い合わせ対応している間,復旧作業が止まるんですけど(泣).
結局,根本的な部分から再構築していたので,断続的に半日サービス停止.
しかし,これでとりあえず大丈夫かなぁ,と.
インフラとして重要なポジションを確立したと考えれば,ありがたい話
ではあるが,それ故に止まった時の影響と負担も大きくなりつつありw
そろそろアウトソースでも考えてみましょうかねぇ・・・
# そんな金があれば,だけどw
復旧後,(技術の分かる)部局トップから,笑いながら労って頂いたのが
せめてもの救いでしたよ(苦笑).
シングルユーザーモードに落ちてた.
とりあえず,マニュアルでfsckかけて再起動したのだが,しばらくすると
再び(シングルユーザモードに)落ちる.
まあ,どう見てもファイルシステム逝ってるのは明らかなのだが,
/var/log/messages確認すると,こんなエラーが頻発・・・
/kernel: ad0: READ command timeout tag=0 serv=0 - resetting
/kernel: ata0: resetting devices .. done
これは,ファイルシステムというより,デバイス(HDD自体)がお亡くなり・・・orz
もう,だましだまし運用というレベルでもなくなったので,仕方なく緊急メンテナンス.
ビジネスタイムど真ん中のサービス停止なので,
あちこちから文句言われるだろうなぁ,と思ってたら案の定・・・
文句やら苦笑いしながらの励ましやらw
相変わらず,ご丁寧に電話で「止まってるよ」と教えて頂いた上に
「いつ直るの?」と問い合わせてこられる方も少なくなく.
確かに,mission criticalなサービスだったので「どないなってん」と
思うユーザの気持ちが分からないでもない.
連休前だし,仕事も早く終わらせたいのでしょうw
でも,問い合わせ対応している間,復旧作業が止まるんですけど(泣).
結局,根本的な部分から再構築していたので,断続的に半日サービス停止.
しかし,これでとりあえず大丈夫かなぁ,と.
インフラとして重要なポジションを確立したと考えれば,ありがたい話
ではあるが,それ故に止まった時の影響と負担も大きくなりつつありw
そろそろアウトソースでも考えてみましょうかねぇ・・・
# そんな金があれば,だけどw
復旧後,(技術の分かる)部局トップから,笑いながら労って頂いたのが
せめてもの救いでしたよ(苦笑).