「フレッツ光」の障害は通信機器のバグが原因–NTTグループで1600億円の投資も

　日本電信電話（NTT）とNTT東日本、NTT西日本は、4月28日に説明会を実施。4月3日にNTT東西の「フレッツ光」で発生した大規模通信障害の原因と対策について、判明した詳細を解説するとともに、NTTグループ全体でより強靭性の高いネットワークを実現するための取り組みを説明した。

NTT東西らは4月28日に、「フレッツ光」で発生した通信障害とその対処について説明会を実施。冒頭にはNTT東西の代表者が改めて謝罪している

特定のマルチキャスト通信が潜在のバグを引き起こす
1600億円を費やしグループ全体のネットワークを強靭化
1. 共有:
2. 関連

特定のマルチキャスト通信が潜在のバグを引き起こす

　まずはNTT東西が、通信障害の経緯について説明した。この通信障害は4月3日の午前7時10分から、NTT東日本で1時間43分、NTT西日本で1時間39分にわたって発生したもの。影響したのはNTT東西合わせて16都道府県の一部であり、光アクセスサービスは最大で44万6000回線、光回線を利用した「ひかり電話」も最大23万3000回線が、利用できない、あるいは利用しづらくなるなどの影響を受けたという。

　また、ひかり電話に関しては、合計東京都と神奈川県の一部で復旧が遅れ、復旧まで2時間58分の時間を費やしている。そうしたことからひかり電話の障害は、総務省が定める「重大な事故」に該当するとして報告するに至ったとのことだ。

通信障害の概要。影響はNTT東西合わせて16都道府県に及んでおり、ひかり電話は一部の都県で復旧が遅れたことから総務省の「重大な事故」に該当したとのこと

　両社の説明によると、通信障害の原因は一部メーカー製の加入者収容装置のソフトウェアに潜在していたバグにあり、そのバグで不具合を引き起こしたのがマルチキャスト通信であるという。マルチキャスト通信は動画配信などで多く用いられるものだが、通信障害が発生した同日に実施されたあるマルチキャスト通信のパケットを、該当の加入者収容装置が受信するなど複数の条件が重なったことで不具合が発生。パケット転送部が再起動を繰り返すようになった。

　パケット転送部は二重化されており、不具合が生じた時はもう一方の機器に切り替わる仕組みだったのだが、原因がソフトウェアであったため、切り替わったもう一方の装置も同じパケットを受信して再起動を繰り返し、結果双方が再起動と切り替えを繰り返して通信できない状態に陥ったという。

特定メーカー製の加入者収容装置に潜在していた未知のバグが、特定のマルチキャスト通信によって引き起こされ、パケット転送部が再起動と切り替えを繰り返したために通信障害へと至ったようだ

　該当の加入者収容装置はメーカー側が10年ほど前に販売開始したもので、NTT東西は2018年に導入。今回通信障害を起こしたのはそのうち1割程度で、メーカー側もこれまで把握していないバグだったという。一方で、通信障害を引き起こしたマルチキャスト通信はRFC（Request for Comments）に準拠したもので、サイバー攻撃の痕跡はないとしている。

　それゆえ、不具合が起きる設定を使わないよう運用することで問題の回避に至ったそうだが、原因の究明に時間がかかったため通信障害が長期化してしまったとのこと。そこで両社は再発防止策として、通信機器メーカーとより密に連携してリスクの洗い出しを強化しながら不具合発生時の迅速な対応を進めるほか、第三者組織でのリスク評価体制強化、そして今回の通信障害を引き起こすきっかけとなったマルチキャスト通信に対する検証の強化も進めていくという。

1600億円を費やしグループ全体のネットワークを強靭化

　その後、NTTから、NTTグループ全体でネットワークの信頼性を高める取り組みについての説明があった。NTTグループという視点で見れば、実は今回の通信障害以外にも2022年8月にNTT西日本が、2022年12月にNTTドコモが大規模通信障害を引き起こしている。

NTTグループで見れば今回だけでなく、2022年にはNTT西日本とNTTドコモが大規模通信障害を起こしており、一層の通信障害対策が求められている状況だという

　NTTグループはこれまでも、全体で通信障害対策に向けた取り組みを進めてきた。しかし、一連の通信障害が示す通り、それでもなお想定外の事象により通信障害が起きているのが現状だ。

　そこで想定外のことが必ず起きるという前提に立ち、より強靭なネットワークを実現する取り組みを進めているという。実際に同社では、先のNTT西日本の通信障害を受け、各社のCTO（Chief Technology Officer）・CDO（Chief Digital Officer）級のメンバーが参加する「システム故障再発防止委員会」を設立。通信障害の再発防止策などの議論を進めているとのこと。

　NTTグループが提供するサービスは多岐にわたるが、同委員会ではその中でも社会的影響の大きいシステムや装置に絞り込み、極端な異常が起きた時に適切な対処ができるかどうかを検証してきた。そこで見えてきたのが「機器の故障」、外部からの「大量のトラフィック流入」、そしてアラートなどが鳴らずに機器が故障する「サイレント故障」という3つのリスクであり、それらに適切な対策ができるよう、グループ企業のノウハウを生かして検討や対策が進められている。

　機器の故障に対しては、全国で1つに集約されているシステムの分散、強化を図っているとのこと。集約されたシステムで障害が発生すると影響が広範囲に及ぶことから、機器をエリアごとに分割したり、設備を増強したりすることで影響を最小化できるという。しかし、対策に非常にコストがかかることから、複雑な処理が必要で復旧に時間がかかるサーバー類に重点を置いて対策しているそうだ。

1つに集約されているシステムを各地域に分散するなどして影響を小さくする対策を進めているが、低廉な料金で通信サービスを提供する上ではコスト面で限界があるため、重要な機器に限定して対策を進めているという

　トラフィック流入への対処は、規制を適正化することだ。従来のシステムでは、1つの事業者から大量のトラフィックがあっても全てのトラフィックを規制してしまうことから、大量のトラフィック流入を発生させている事業者の通信だけを規制することで、他の事業者に影響が及ばない仕組みを実装するとしている。

　そして、サイレント故障への対処となるのが、ネットワーク運用の視える化である。2022年に起きたNTT西日本の通信障害は伝送装置の故障が原因で、それ自体はアラートですぐ判明した。しかし、実際に影響が出ているのがネットワークや顧客にどのような影響を与えているのかを把握するのに時間がかかってしまい、対処が遅れたとのこと。そこで、多数の拠点に試験端末を設置してサービスの提供状況をモニタリングするなどして、障害の影響をすぐ把握できる仕組みを構築したという。

通信障害の影響がどこに起きているか把握するのが難しかったことから、多数の端末を設置してサービス状況を把握するなどして、各レイヤーで通信障害の影響を素早く把握できる体制を整えたとのこと

　さらに、今後は各装置から収集したデータを基に、AI技術などを活用してネットワーク運用の高度化を推し進めていくとのこと。その具体的な例の1つとして挙げられたのが「デジタル・ツイン・コンピューティング」で、データを基に仮想空間上にネットワークを構築、保持し、その上でシミュレーションすることにより復旧の効率化を図ったり、機器の故障を検証したりするのに役立てることを考えているという。