NTTのひかり電話障害はコマンド間違いが原因、待機系は稼働せず だそうだが、なんだかこの内容には、まったく???だ。 コマンドの打ち間違いというが、そんなコマンドベースでなにかを作業するシステムになっているのがまず不思議だし、システムとして稼動している状態において、HDDの内容を削除できるような権限と、それを要する作業ってなんなのだろうとか思ってしまう。 もっとも、報道の内容は、極めて情報量がすくなく、もっと多くの要因が複合的に絡み合った結果、大規模な障害となったであろうから、そのあたりはこの記事だけでは論じれないだろう。 それにしても、こういう人的ミスが、障害発生後速やかに発見できず、調査などをしてから原因がわかるのは、多分に心理的背景があるのだろう。 パソコンや機器のユーザーサポートなどでは、"いつもと何も変えていないのに、突然機器がおかしくなった"などの相談時に、よくよくヒアリングしていくと、新しいソフトをインストールしたとか、ハードウェアの接続を変えたとか、何にかの設定を変えたなんていうのが発覚することは、とてもよくある。 トラブルや障害が発生した時に、その原因の解明をするために、一番重要な事は、障害の発生、前後の作業や事象を正確に把握することなのだけれど、直面している人達は、自らの価値観でフィルタリングしてしまうことがある。 当人は、何も変えていない、変わっていないと思っても、その心理のそこには、小さな違いを関係のない事柄として無意識のもとにマスクしてしまっている事がある。 こういうトラブルシューティングでは、管理者が当事者からの情報を、鵜呑みにするのではなく、冷静に不足してる情報がないか、時間軸上での抜けはないかなどと、整理する能力が問題解決の鍵になる。 管理者が、一つの情報をもとに、思い入れで、特定の方向の解析に注力をしてしまうと、結果的に原因の追究に時間がかかるというパターンに陥る。 今回の事故では、いつ現場の人間がコマンドを打ち間違えたという事を認知し、報告したのか、事故時の作業内容に対して管理者はきちとん記録をし、不整合性を確認したのかは、興味のあるところだ。