NTT東西、フレッツ光等の大規模通信障害に備え1,600億円投資。強靭なネットワークを構想

PC Watch

 NTTおよびNTT東日本、NTT西日本は、4月3日に発生した通信障害の影響について説明するとともに、大規模通信故障を踏まえた強靭性の高いネットワークの実現に向けた取り組みを発表した。

 4月28日の会見で、NTT東日本 執行役員 ネットワーク事業推進本部副本部長の島雄策氏、NTT西日本 執行役員 設備本部サービスエンジニアリング部長の桂一詞氏、NTT 執行役員 技術企画部門長の池田敬氏が説明した。

NTT 執行役員 技術企画部門長の池田敬氏

NTT東日本 執行役員 ネットワーク事業推進本部副本部長の島雄策氏(左)、NTT西日本 執行役員 設備本部サービスエンジニアリング部長の桂一詞氏

 NTT東日本では、4月3日午前7時10分から8時53分までの1時間43分、NTT西日本では午前7時10分から8時49分までの1時間39分に渡り、光アクセスサービスやひかり電話などの通信サービスが利用できない、あるいは利用しづらい事象が発生。

 その原因として、「加入者収容装置のうち、特定の機種において、内部処理にソフトウェアの不具合が内在しており、マルチキャスト受信において、一定の条件が重なった場合に不具合が発生した」と説明。

 「受信したマルチキャストパケットは、RFCに準拠したロングパケットであり、サイバー攻撃の痕跡がないことを確認している」と結論づけた。また、「設定における人的ミスもない」と説明した。

 なお、NTT東日本では、東京都と神奈川県の一部エリアにおいて、約1,000回線のひかり電話にエラーが発生しており、これらの回線の回復措置を行なったため、NTT東日本のすべての回線における最終復旧時間は午前10時8分となり、影響時間は2時間58分になっている。

 NTT東西では、今回の通信障害において、総務省に重大事故として報告を行なっているが、対象となるのは、ひかり電話サービスであり、3万ユーザー以上、1時間以上の通信障害に該当したという。フレッツサービスについては重大事故の報告には該当していない。

 また、加入者収容装置の不具合は、内部処理の設定変更によって事象を回避できることを確認しており、加入者収容装置の対象機種すべてにこれを適用したという。

 現時点では、設定変更によって回避している状況であり、ソフトウェアのアップデートなどは行なわれていない。NTT東日本では、約600台の装置への設定変更対応を4月10日に完了。NTT西日本では約500台への対応を4月7日に完了した。

 通信サービスの影響は、NTT東日本では、北海道、東京都、神奈川県、埼玉県、千葉県、新潟県、NTT西日本では大阪府、滋賀県、岐阜県、石川県、富山県、福井県、島根県、鳥取県、愛媛県、徳島県の合計16都道府県におよんだ。

 影響数は最大44万6,000回線とし、NTT東日本では35万9,000回線、NTT西日本では8万7,000回線としている。そのうち、ひかり電話への影響は最大23万3,000回線。内訳はNTT東日本が18万6,000回線、NTT西日本が4万7,000回線。影響を与えた光コラボレーション事業者数は、最大324事業者になるという。

 不具合の事象は、マルチキャスト受信において、複数の条件が重なったことに起因し、加入者収容装置のパケット転送部が、再起動と切り替わりを繰り返し、サービスに影響したというものだ。マルチキャスト受信以外の複数の条件については、セキュリティリスクの観点から公表はしなかった。

 加入者収容装置は、各都道府県のNTTビルに設置しており、顧客の回線を収容するとともに、上位の中継装置にパケットの送受信を行なう役割を担う。

 光アクセスサービスで提供しているインターネット通信や音声通信といった顧客宅とつながるすべての通信が加入者収容装置を通過しており、同装置の不具合により、サービスが利用できなかったり、利用しづらかったりする事象が発生した。

 また、マルチキャスト受信は、複数の通信相手先を指定して行なう通信方法で、大容量および多数の拠点へのデータ配信に利用されている。今回は、このマルチキャストパケットの受信が停止したことで、サービスが順次復旧したという。

 「NTT東西と、通信機器メーカーによる解析の結果、加入者収容装置のマルチキャストの内部処理において、ソフトウェアの不具合が内在しており、それが原因であることが判明した。

 標準とも言えるRFC準拠のパケットを受信したにも関わらず、再起動を繰り返すという事象が発生しており、これはメーカー側も認識していなかった未知の事象である。

 この通信機器は、国内外において多く利用されているものであり、設定はカスタマイズする部分もあるが、ベースは汎用品である。セキュリティリスクを考慮して、通信機器メーカーの名称は公表しない」と述べた。

 NTT東日本では、約4,600台の加入者収容装置のうち、今回不具合を起こしたものと同一の機種を約600台導入し、そのうち89台で不具合が発生した。

 また、NTT西日本では、約3,600台のうち、約500台が同一機種で、27台で不具合が発生したという。同一機種の約1割で不具合が発生したことになる。

 「該当機種は2018年度から導入しており、すでに5年が経過している。今回の事象は、NTT東西ともに初めて発生した事象である」としたほか、「加入者収容装置は、ハードウェアの二重化構成としていたが、事象の原因がソフトウェアの不具合であったことから、二重化したパケット転送部の間で、再起動と切り替えを繰り返してしまった」と説明した。

 NTT東日本およびNTT西日本による今後の対策についても説明した。

 通信機器メーカーと新たな連携体制を構築し、装置検証などにおいて、通信機器メーカーと一体となったリスク項目の洗い出しなどを強化。

 NTT東西の利用実態を考慮したメーカーとの共同検証や、装置再起動を繰り返さないようにするためのフェイルセーフ機能などの共同検討を行なう。

 また、さまざまな技術検討を円滑に行なうことを目的に、装置の機能実装などに関する適切な情報提供を調達条件に反映したり、不具合発生時における迅速な対応に向けて、メーカーとの情報連携を実施し、合同での訓練などの事前準備を強化したりするという。

 さらに、社内におけるリスク評価体制の強化に向けて、NTT東西のクオリティアシュアランス向上の取り組みを強化。

 検証内容の妥当性について、開発部門以外の第三者組織でリスクを評価する体制を強化するほか、マルチキャスト通信において、コンテンツ配信サーバーからの通信状況を確認する仕組みを導入し、検証を強化する。

 「一斉配信するというマルチキャスト通信の特性上、受信者を収容する複数装置にパケットが同報され、不具合が同時発生することになった。

 また、通信機器メーカーでも認識していなかった未知の不具合が内在していたこと、同一のソフトウェアや設定内容で再起動が繰り返されたため、手動による再起動でも正常化ができなかった状況にあった。さらに、サービス影響範囲の特定は迅速に実施できたが、原因究明にあたって一定の時間を要したことが反省点である。

 未知の不具合に対して、社会インフラを支える電気通信事業者として、どう対処すべきかが本質的な課題である。経験したことがない新たな課題であると捉えている。

 また、この事象は今回の通信機器メーカーだけに発生するものではなく、ほかの通信機器メーカーでも起こる可能性があると考えられる。リスクを低減し、安定した通信サービスを提供するにはこれまでの通信事業者とメーカーという枠組みを超え、一歩踏み出した新たな関係構築が、通信事業者の責務であると考えている。

 さまざまな通信機器メーカーに働きかけをしていきたい。今回の再発防止策は、そうした観点から策定したものである」と述べた。

 その上で、「NTT東日本とNTT西日本は、重要インフラである通信サービスを提供する企業としての社会的責任を果たしていく。メーカーでも認識していない不具合への対策として、これまで以上にメーカーとの連携を強化した検証を実施することで、装置不具合を洗い出す可能性を高めるとともに、メーカーと共同で影響を限定化するための新たな仕組みを検討する。通信サービスの確実、安定的な提供に今後も努め、同様の事象を発生させることのないよう、再発防止に努める」としている。

 一方、NTTでは、大規模通信故障を踏まえた強靭性の高いネットワークの実現に向けた取り組みについて説明した。

 NTTグループでは、今回の事象以外にも、2022年8月にはNTT西日本が伝送装置の故障により、インターネットがつながらない通信故障が発生。

 2022年12月にはNTTドコモにおいて、故障した機器が正常な信号を送り続けたため、予備装置への切り替えが行なわれずにインターネット通信が利用しにくい状況が発生した。NTTグループでは、過去10年間で、14件を重大事故として、総務省に報告しているという。

 NTTでは、2022年9月に、NTTグループ各社のCTOやCDOが参加するシステム故障再発防止委員会を設置し、相次ぐ大規模故障により顕在化したリスクの再発防止について、グループ横断での総点検および対策の徹底を実施。まずは社会的影響が大きいサービスのシステムや装置について、リスクや課題を洗い出し、効果が高いものから集中的に検討したという。

 さらに、同委員会を設置する以前から、KDDIで発生した大規模通信障害の事象をきっかけに、想定外の事象は必ず起こることを前提としたさらなる信頼性向上にも取り組んできたという。

 「3倍のトラフィックが集中したり、3分の2の装置が停止したりといった極端な異常状態を設定し、グループ横断的にリスクを棚卸ししたほか、各社のノウハウや優良事例を水平展開し、より強靭なネットワークの実現を目指している」という。

 開発、設計、運用のチームが参加して、故障発生の未然防止や故障発生時の影響最小化、人的ミスの発生防止や運用支援のための実現に向けた議論を行ない、それらが履行されていることを監査する機能も用意している。

 具体的な取り組みとして、リスク評価を行ない、復旧難易度の高い装置やシステムを中心に分割や設備増強を行なうことで、(1)罹障規模の縮小化やトラフィック変動耐力の向上を図る「全国集約型システムのエリア分割・設備増強」、(2)接続サーバーへの外部からの流入呼に対して、接続事業者ごとに緻密なトラフィック制御が可能な仕組みを実装する「大量トラフィック流入規制の適正化」、(3)従来の装置アラームベースの運用に加えて、自動試験端末の設置などによって、各レイヤーの状況を早期に把握する「ネットワーク運用状況の視える化」、(4)ネットワーク内の各種情報を一元的に集約し、AIによる被疑箇所の特定や自動復旧措置を実現し、将来的にネットワーク運用の自動化や自律化を目指す「AIなどを活用したネットワーク運用の高度化」、(5)通信機器メーカーとの連携の強化や試験方法のイノベーションにより、装置の不具合を洗い出す可能性を高める「潜在故障の未然防止に向けた検証試験の強化」を挙げた。

 NTTでは、より強靭なネットワークやシステムの実現に向けて、2022〜2025年度までに、1,600億円規模の投資を計画しているという。

 さらに、顧客に対する迅速な情報発信の実施するために、24時間365日での運用監視組織を設置し、初報の迅速化と多様な発信チャネルの整備も進める。

 事故発生から30分以内に、確実な初報公表に向けて、判断ロジックの簡略化や公表パターンを雛型化し、輪番組織で公表する仕組みに変更。公式SNSなどを活用した発信チャネルの多様化に向けた整備も完了しているという。

 「従来は、オペレーションセンターでアラームがあがると災害対策室で影響範囲を確定し、広報室を通じて公表する仕組みであったため時間がかかっていた。現在はオペレーションセンターでアラームがあがると、不確定であってもその場で初報を発信。並行して影響範囲を確定し、第2報以降で詳細な情報を出す仕組みにした」という。

 一方、さらなる信頼性を求める顧客に対しては、BCP(事業継続計画)を強化するソリューションのラインナップを揃えていることを説明。

 NTT東日本では、フレッツ光のバックアップ用としてモバイル回線を利用して、セキュアにVPN接続が可能な「Managed SD-WAN モバイル接続サービス」を提供しているほか、NTTコミュニケーションズではIoT向けデータ通信として、1枚のSIMで複数の通信キャリアを利用でき、ネットワーク故障発生時には自律的に接続先を切り替える「Active Multi-access SIM」を提供していることを紹介。

 「今後は、非常時における事業者間ローミング等に関する検討会において議論されている事業者間ローミングについても積極的に取り組んでいく。HAPSなどの宇宙通信も活用していきたい」などとした。

Source

コメント