HDD逝きかけ
某サーバのHDDが臨終間近.ま,以前から気づいてはいたのだが(苦笑).
/kernel: ad0: READ command timeout tag=0 serv=0 - resetting
/kernel: ata0: resetting devices .. done
とか,
/kernel: ad0: WRITE command timeout tag=0 serv=0 - resetting
/kernel: ata0: resetting devices .. ata0-slave: ATA identify retries exceeded
/kernel: done
とかのログを,1日1〜2回の頻度で吐いていたりするw
smartmontoolsなどで監視してれば,もう少し早く検知できたのかもしれないけど.
で,調べてみると,どうやらコントローラ障害という説もあり.
いずれにしても,壊れかけであることは明らかw
でも,稼働している(かつ利用頻度の高い)サーバを再構築するのって
実は面倒だったりする.
設計段階から冗長性を考慮しておけばよかったのだが,これ作った時は
当該サービスに関する冗長化スキルを持ち合わせておらず.
ま,今から実装してもよいのかもしれないが,とりあえずプライベートクラウド
でも検討してみよう.
# プライベートクラウド自体がbuzz wordではあるのだがw
/kernel: ad0: READ command timeout tag=0 serv=0 - resetting
/kernel: ata0: resetting devices .. done
とか,
/kernel: ad0: WRITE command timeout tag=0 serv=0 - resetting
/kernel: ata0: resetting devices .. ata0-slave: ATA identify retries exceeded
/kernel: done
とかのログを,1日1〜2回の頻度で吐いていたりするw
smartmontoolsなどで監視してれば,もう少し早く検知できたのかもしれないけど.
で,調べてみると,どうやらコントローラ障害という説もあり.
いずれにしても,壊れかけであることは明らかw
でも,稼働している(かつ利用頻度の高い)サーバを再構築するのって
実は面倒だったりする.
設計段階から冗長性を考慮しておけばよかったのだが,これ作った時は
当該サービスに関する冗長化スキルを持ち合わせておらず.
ま,今から実装してもよいのかもしれないが,とりあえずプライベートクラウド
でも検討してみよう.
# プライベートクラウド自体がbuzz wordではあるのだがw