はじめに
システム関連で久々に超大規模なニュースがあったので、これに関して思うところをまとめておこうと思います。
題材はもちろん、Arrow headの話です。詳細はいろいろなところにありますが、ここでは日経の記事へのリンクを貼っておきます。
https://www.nikkei.com/article/DGXMZO64460870R01C20A0I00000/
原因は
アナウンスによると、原因はストレージのメモリの故障によるもので、本来であれば待機系に切り替わるものが、切り替わらなかった。これにともない、取引所から各証券会社に送信する情報に問題が発生することが考えられた。
状況を回復するには、システムを再起動するしかなく、再起動することでそれまでに溜まっていた証券会社からの注文がクリアされてしまい、注文が無かったことになってしまうため、その混乱を避けるために再起動はできなかった。
ということの様です。
もうちょっと砕くと
私の本業はSystems Engineeringなので、この説明を見ると大体の雰囲気はわかります。なるほどと思うのですが、ここの記載内容は一般の人が思うITの遥か先にある話なので、もうちょっとわかりやすく噛み砕いてみようと思います。
まず、ストレージですが、これはまぁ、ハードディスクのお化けみたいなものと思えば良いと思います。家庭用パソコンにはパソコンを動かすのに必要な全ての部品が付いていますが、Enterpriseになると、求められる性能が桁違いなので、専用の機械を用意します。Enterprise向けハードディスクの専用機器がストレージです。
障害が発生すると、待機系に切り替わるという話ですが、これは重要な業務データを全く同じもう一台の機器にも保存して、通常利用している稼働系に何かがあったら待機系のデータにアクセスして業務を継続することを意味します。ストレージが壊れただけで全業務データがなくなって、業務を再開できなくなってしまったら目も当てられないので、ストレージを二重化することで、ある種の保険をかけています。
この「ストレージが切り替わらなかった」と言っているので、ストレージ自体の筐体の障害か、サーバーからのデータの書き込み経路の問題が可能性としては高いのですが、システムを再起動したら治る見込みがあったことから、おそらく経路の問題なのではないかと思います。ストレージの筐体障害だったらリブートしても治らないはずなので。
さらに噛み砕いていくと、一口に「データの書き込み経路」と言っても、サーバーから実際にストレージにデータを書き込む経路にはいろいろな機械が存在します。例えば、HBAと呼ばれるNetworkインターフェースの様なものや、SAN SwitchというNetwork Switchの様なものまで。
ストレージの障害を検知した際には、これらの機器が全て連動して書き込み対象のストレージをこれまでの稼働形から待機形に切り替えるのですが、この切り替わりがうまくいかなかったという話に見えます。
また、障害が発生した部位が、ストレージのメモリモジュールというあたりからして、それを起因に何らかの不具合が顕在化して、本来であれば正常に切り替わるはずのストレージ側のHBAもしくはコントローラーなどが正常に切り替わらなかったのではないかと思います。
一方で、リブートしたら注文がクリアされてしまうという話ですが、これはおそらく大量の情報を可能な限り高速で処理するために、情報をキャッシュ上で持っているだけで、ディスクに書き込んでいないという話なのではないかと思います。
例えるならば、短期記憶として暗記しただけで、ノートに書き込んでいないという話です。故に、システムを再起動したらディスクに記録していない情報は無くなってしまうため、安易に再起動もできないということなのだろうと思います。
本件に関して思うこと
こういうとき、「犯人探し」をしだすと組織とは思わぬ方向に動き出し、最後に犯人と特定された人には後生消えない大きな傷を負うことになり、人生に影響するので是非ともそれはやめてほしいと思います。
システムの構築は1人では成し得ず、常に現場の最前線で設計、構築、テストを行う人と、その妥当性をレビューする人がいて初めて成立し、常に責任を共有している筈なのですが、こういうことが起きるとその責任は現場に押しつけられがちなので、是非ともそれはやめていただきたい。
犯人を探して、責任を押し付けるのはある種楽なのですが、その障害が作り込まれ、流出した構造を解明し、対策を打たないことには世の中は良くなりません。
また、こう言ったことが起きるたびに、ひとり、また一人とSystem Engineeringの現場から人がいなくなることを思うと、社会のデジタル化が進み、そもそも人がたりていない状況で、各社人材の獲得競争になっている昨今、引き続き現場を守り続けているメンバーにより大きな負荷がかかるので、報道も含めて、世の中があまりネガティブになりすぎない様にしてほしいと思います。
最後に、ITシステムの障害が社会にこれだけ大きなインパクトを与える様な状態にあるということは、それがつまり、インフラとして定着し、より一般の人からは見えづらくなってきているという証拠であり、故に、「使えて当たり前」と思われる様になることで、障害が発生し、使えなくなった時の人々のリアクションがとてつもなく大くなっています。
これに伴い、「当たり前に使えること」に対する評価が下がっていき、現場で働く人たちのモチベーション維持が相当難しくなってきています。
すでにITなしでは社会生活が成り立たないところまできていますので、世の中の便利を支えるために、その裏では、日夜相当な数の人たちが心身をすり減らしながら働いているということに思いを馳せていただき、そのありがたみを感じてもらえると幸いです。