日経コンピュータ2013年4月4日号に「システム障害は起こったほうがよい」という記事がありました。趣旨は、システム障害が起こらないと、いつの間にか「絶対にミスやトラブルは起こらない」という油断にすり替わってしまうことが問題だというものです。
ハードウェアは壊れ、ソフトウェアにはバグがあり、人はミスするものです。この前提にたってシステム障害に対応しなければいけません。
「絶対にミスやトラブルがあってはならない」と考えるだけではなく、起こりうるミスやトラブルをすべて洗い出し、対応策をあらかじめ決めておかなければなりません。リスク管理では、対応策に「回避」「転嫁」「軽減」「受容」の4つがあります。
回避
「回避」とは障害が発生しないような対策をとることです。発生確率と発生時の損害と対策にかかる費用から対策を決めることになります。
転嫁
「転嫁」とは、障害が発生したときの影響を外部に移すことです。例として、保険があります。
軽減
「軽減」とは、障害が発生したときの影響を少なくすることです。「回避」と同じように発生確率と発生時の損害をどれだけ小さくできるかと対策にかかる費用から対策を決めることになります。システムトラブルの対策はほとんど「軽減」になります。
受容
「受容」とは、障害を受け入れることです。障害の影響が小さく、発生確率が小さいわりに、対策の費用が大きいときに、あえて対策をとらないことです。
それでも想定外のトラブルは起こるものです。想定外のトラブルであわてないために、システムトラブルを想定した訓練が必要です。
安定稼働が油断にすり替わらないようにしなければなりません。実際にシステムトラブルを起こして訓練することは難しいですが、できるだけ実際に発生するときと同じ状況での訓練が必要です。そうすれば、「システム障害は起こったほうがよい」ということはなくなります。