本当に仕事が終わらない

仕事が終わらないというか、呪われてるってレベルになってきたぞ。

今日は、出社した途端に客から「アプリにログオンできない」と電話がかかってきた。また、ユーザーアカウントをロックアウトさせたんじゃないかと思いつつ、サーバーを確認してみるとアプリ内部でDBに接続出来てないっぽいエラーが大量発生してた。
原因は、サーバーをリブートしたタイミングで、Oracleインスタンスの起動に失敗したらしい。しかも厄介なことに、サービスは起動してるのに、インスタンスは死んでるという訳わからん状態。
サービスは監視ツールで監視できるけど、インスタンスまでは確認できないから、検知できなかった。

とりあえずの対策として、アプリのログを監視して検知できるようにしたスクリプトを、翌朝までに20台ほどある全サーバーに設置しなくてはいけない。(もっとも、それは俺の作業じゃないが…)
翌朝も早めに出社してサービス稼動前に全サーバーの稼動確認をしなくてはいけない。(それは俺の仕事だ)

しかも、今回の障害は社内規定により「重度レベル障害」になるらしく。社内的にもいつもよりも面倒な報告が必要になるらしい。


そして、俺の仕事はまったく進んでない。