勝手にリブートするな!

昨日発覚したことなんだが、管理しているサーバーが勝手にリブートしているらしい。
それも、確認できている2009年11月以降だけで、4回も定例外のリブートが発生している。
過去に発生した4回とも業務時間外に発生しているため、実際の業務に影響はなかったのは幸運だったが、業務時間外≒監視時間外なので発覚が遅れたのは不幸だ。

ちなみに原因は判っている。
サーバーのハードメーカーが提供しているファームウェアの問題で、今回の件とは別の障害の対応として、すでに最新版に更新してある。


でも問題はそこじゃない。
今回の件に顧客が先に気がついた点が問題だ。

今回の件は、リブートが監視時間外に発生したため、監視システムで検知できなかった。監視開始時間になって監視システムの画面を起動したときには、該当サーバーはリブートが完了して正常に稼動しているので、表面上はサーバーが動作し続けているように見える。
じゃあ、なぜ顧客は気づくことができたか?
それは、我々が毎月提出している「稼動報告書」のメモリ使用率の推移から、定例外のリブート読み取ったらしい。
言われてみれば、たしかに不自然な動きをしている。


なぜ、顧客が気づくことに、我々は気づけなかったのか?
これについては、何も言えまい。どう頑張っても「見落としていた」としか言いようがない。
そんなの言い訳にもならんだろうな…。

この「稼動報告書」は、意外なほどに作成体力がかかっており、かなり必死になって作成している。今までずっと俺一人で作ってきたが、今年になってから後輩と二人で手分けして作成している。それでも必死な状態は変わらない。
むしろ今は後輩がまだ覚えきってない分、俺の負荷は高くなっている。


それでも言い訳にはならんだろうな。どうしたものか…。