ネットワーク管理者の憂鬱な日常

とある組織でネットワーク管理に携わる管理者の憂鬱な日常を書いてみたりするブログ

停電の夏

どうやら明日は台風7号の襲来を受けそう。ピークは午後から夜にかけてくらいか。
今の予想進路だと、どうやら紀伊半島を北上しそうな感じ。
なので、台風の左半分が通過しそうな四国東部は、恐らく強めの雨が降る程度で収まると思われ。
しかし、論文書きつつ念のため待機かなぁ。台風だと電話も鳴らないだろうし(苦笑)。

さて、このシーズンになると悩まされるのが停電。
もちろん2003年の北米大停電のような事態ではなく、台風などによる送電線の断線が
主な原因のもの。あとは、落雷による瞬電とかでこの時期の停電発生率は年間で一番高い。
停電時間の長短に関係なく、停電そのものが精神衛生上よろしくない。

もちろん、管理するサーバ群やネットワーク機器群の一次側には当然UPSをかましてある。
しかし、自家発電設備があるワケではないので持っても30分。一定時間内に通電されない
ようだと、UPSと連動しているサーバ群は自らをシャットダウンし始める。

問題はネットワーク機器たち。そもそも彼らにはシャットダウンという概念がない。
# ロードバランサなどPCベースのものは除く(泣)。

というか、組込機器なのでいつ電源が切られたとしても、電源を再投入すれば何事も
なかったかのように動き出す(ように設計されている)ハズ。
# ロードバランサなどPCベースのものは除く(泣)。

ところが現実はそうではない。
基本的に24時間364日(※365日ではない)運用を行っている機器は、コールドスタート
させるとろくな事がない。
さっきまで元気に動いていたスイッチが、POST(Power On Self Test)時にスイッチング
モジュールの異常を検出したりする。もちろんネットワーク機器として機能しない。

運良く予備機に同じ型のスイッチがあれば、バックアップのconfig(設定情報)を注入して
交換し作業完了となるのだが、そうじゃなければconfigから組み直し。タメイキ混じりの
作業となる。もちろんバックアップしてたconfigがあるのでスクラッチじゃないけど。

組込機器の特徴として、HDDなどの稼働部品を製品構成から排除することで
可用性向上を図っている。なので、IOSやExtremeWareなどの機器OSやconfigなどの
設定情報も、基盤上やPCMCIAに実装されるFLASHメモリに格納され、このFLASHメモリ
からシステムが起動される。

だが、このFLASHメモリがくせ者。導入から数年以上経過したFLASHメモリは、
何故だか電荷保持力が落ち、結果としてFLASHに格納されていたconfigやIOSなどが
消え去ってしまう。結果、POST動作後のシステムブートが実行できないため、
ネットワーク機器として機能しない、ということがあった。
特に室温環境が良好ではない環境で数年運用された機器に起こる、という経験則を持っている。
※ちなみに私は電子工学分野は素人なので、この現象が正しいという保証は致しかねます。

いずれにせよ、24時間運用している機器を止めるとろくな事がない。

しかし、実は台風や落雷よりも怖いモノがある。それは「受変電設備法定点検」。
※なので、24時間364日運用なワケです。

年に一度、必ずやってくるシャットダウンとコールドスタート(苦笑)。
結構いい確率で何らかの問題が起こるんすよね。
今年もお盆明けに実施される模様。
サーバやネットワーク機器がご先祖様と供に送り出されないことを祈る。

スポンサーリンク