ドコモ通信障害から学ぶべき教訓 – S-MAX

BLOGOS


NTTドコモの輻輳障害について考えてみた!

既報通り、NTTドコモの携帯電話サービスにおける音声通話およびデータ通信にて利用しづらい事象が全国規模で10月14日17時頃より発生し、事象の原因となった位置登録不可の影響範囲は推定で約200万ユーザーだと発表されました。

その後、音声通話およびデータ通信にて利用しづらい状況は翌10月15日5時5分に5G/4Gネットワークでは回復し、さらに復旧が遅れていた3Gネットワークでも10月15日22時00分にすべて回復したということです。

今回起きた事象は通信ネットワークの「輻輳」と呼ばれるもので、通信量過多による混雑に起因するものです。そしてその混雑が発生した理由は、IoT機器向けの設備を新しい設備へと変更する際に不具合が生じ、再び古い機器へと切り戻す(元に戻す)ための作業を行う段階で発生したものでした。

原因や発端はどうであれ、こういったネットワーク障害による通信不能は私たちの生活に大きく影響するようになりました。その影響力はわずか5年前と比較しても相当に多大なものとなっています。私たちの生活はどこまで通信ネットワークに依存し、通信ネットワークなしでは生きていけない生活となっているのでしょうか。

感性の原点からテクノロジーの特異点を俯瞰する連載コラム「Arcaic Singularity」。今回はNTTドコモの輻輳障害から、私たちの生活と通信ネットワークの関係について掘り下げていきます。


私たちの生活はどこまで通信と関わっているだろうか

■設備の切り替え作業の見積もりの甘さが引き起こした事故

はじめにNTTドコモが起こした輻輳障害について簡単に時系列でおさらいしておきます。詳細はこちらの記事を御覧ください

障害の発端となったのは主にIoT機器向けの通信設備(位置情報サーバー)の交換作業でした。この設備をさらに性能の高い新しい設備へと交換し、5G時代に爆発的に増加することが予想されるIoT機器の受け入れ体制を整えることが目的でした。

NTTドコモはこの交換を14日0時より開始していましたが、7時26分の段階で不具合を確認。万が一の不具合に備えていた手順通りに古い設備への切り戻し作業を開始します。

ちなみに、この時の「新しい設備で発生した不具合」とは、位置情報の登録に関するものでした。通信機器はIoT機器に限らず、その位置情報を登録することで「これはNTTドコモのネットワークを利用する機器です」といったような確認を行っています。

私たちが利用するスマートフォン(スマホ)も通信の際にはこういった位置情報の確認を行うことで、スムーズで繋がりやすい通信環境を確保しています。

新しい設備へ位置情報を登録する際、日本国内のIoT機器では問題がなかったものの、海外のIoT機器で登録情報に問題が発生し、そのままでは古い設備からの移管作業が行えなかったということです。

そのため、NTTドコモでは古い設備へと戻す作業を行うことになりました。


私たちが何気なく利用している通信ネットワークは、さまざまな端末情報の管理によって成立している

ところが、その古い設備への切り戻し作業でさらなる問題が発生してしまいます。新しい設備へ位置情報を移し終えたIoT機器は、再び古い設備へ情報を戻さなければいけませんが、その戻す段階で輻輳を起こしてしまったのです。

通信ネットワークの輻輳とは、分かりやすく言えば大渋滞です。一気に大量の通信が発生したことで処理しきれなくなり、通信が止まったのです。

NTTドコモももちろんそういった状況が起こり得ることを想定し、切り戻す機器の数を20万台ずつに制御して行っていたそうですが、その台数の見積もりが甘かったことが今回の問題の最大の原因となってしまいました。

例えば、道路で交通事故が発生すれば、そこを起点にあちこちからの車両が殺到してさらなる大渋滞を引き起こしますが、通信ネットワークでも同じような状況が起こります。

全国の20万台のIoT機器が一斉に位置情報登録のための通信を行おうとして輻輳が発生し、通信が遅延したり止まってしまったことで、それぞれのIoT機器は位置情報を登録するためにさらに再送信を繰り返します。

つまり、ネットワーク攻撃でよくあるDDoS攻撃のような状況が生み出されてしまい、輻輳状態がますます悪化する悪循環が発生しました。対象となる機器の多くが自動運用されるIoT機器であったことも、制御を失わせた原因かも知れません。

こうしたIoT機器を管理する設備の輻輳はやがて通信トラフィック全体も逼迫し、一般の利用者も繋がりにくくなる輻輳状態となってしまったことからNTTドコモでは17時37分より全国規模での通信停止を伴うネットワークコントロール(通信規制)が行われるに至ります。


不具合に不具合が積み重なった結果が今回の事故だった

問題を大きくしてしまった一端としては、IoT機器の通信トラフィックと一般の利用者の通信トラフィックを別々で管理できていなかったことが挙げられます。

現在の最新の技術ではこういったものは1つのサーバー内で仮想化され、論理的に別々の管理が行えるようになっていますが、古い設備ではそれが行えないままでした。

つまり、輻輳などに耐性の高い仮想化技術(スライシング技術)を導入した新しい設備へ入れ替える作業で、仮想化技術を導入していない古い設備の弱点が露呈したということになります。

この通信サーバーの仮想化技術こそが、5G時代に併せて進められてきた新しい技術なのです。


ワイヤレスジャパン2018でKDDIが展示していた仮想化基地局のスライシング技術

Source