KDDI、障害前と同程度まで通信は回復。全面復旧は5日夕方にも

PC Watch

KDDI 執行役員 技術統括本部副統括本部長 兼 エンジニアリング推進本部長の山本和弘氏(左)、KDDI 取締役執行役員専務 技術統括本部長の吉村和幸氏(右)

 KDDIは、2022年7月2日1時35分から発生していたauの通信障害に関して、7月4日20時から、オンライン会見を開き、進捗状況などについて説明した。

 KDDI 取締役執行役員専務 技術統括本部長の吉村和幸氏は、「音声通話、SMS、データ通信を含め、全国的にほぼ回復している。長期に渡り、多大なご迷惑をおかけしたことを深くお詫び申し上げる」と陳謝した。また、「全面的な復旧は、5日夕刻を目途にしている」と述べた。

 同社によると、VoLTE交換機の負荷低減への対処、加入者DBへの負荷低減、データ不一致の修正処理など、7月3日に予定されていた作業は計画通りに終了したものの、ネットワーク試験や検証を行なっている中で、VoLTE交換機や加入者DBの負荷が十分に軽減しなかったため、4日7時から流量制御などの対処を講じ、音声通話が利用しづらい状況が続いたという。

 また、18台のVoLTE交換機のうち6台が、加入者DBに不要な過剰信号を送出していたことから、4日12時18分から13時18分にかけて、これに対処。「繰り返される形で加入者DBに過剰信号が送出されていた。そこで、(これら6台の)VoLTE交換機を切り離し、信号の送信を停止。加入者DBを含めた統合DBへの負荷を低減することができた」とし、「現時点では、VoLTE交換機、加入者DBともに十分に負荷を軽減し、障害前と同水準となっている。お客様端末の発着信成功率も大幅に向上している。4日14時51分に流量制御を解除した」という。

 同社によると、影響回線数は最大で3,915万回線。内訳は、スマートフォンおよび携帯電話向け回線が最大約3,580万回線、MVNO向け回線が最大約140万回線、IoT回線が最大約150万回線、ホームプラス電話回線が最大約45万回線となっている。

 「ネットワークおよびトラフィックの状況監視を引き続き行ない、個人/法人のお客様のサービス利用状況の確認を継続して行なっていく。あわせて詳細な原因究明と再発防止策の策定を推進していく」と述べた。


 主な質疑応答の内容は以下の通り。

——今日発生したVoLTE交換機の過剰信号は、前日とは異なる新たな障害だったのか

KDDI 3日夕方の段階で、データ不一致の修正処理が完了したことで、システム負荷が落ちると想定していた。だが、実際には、何らかの原因があって負荷が高い状態が続いた。これにより、データ通信の負荷は下がっていたが、音声通信がつながらないという状況が生まれていたため、引き続き調査を行ない、4日午前中に、問題箇所を特定し、処置を行なうことで、負荷を軽減できた。

 VoLTE交換機の過剰信号は、ルーターの障害を起因としたものかどうかを含めて、原因は特定できていない。音声通話の復旧が遅れたのは複雑な構造となっており、負荷低減対策に時間がかかったのが原点である。

 過剰信号は、6台のVoLTE交換機から送出されていたが、故障の原因は判明していない。残りの12台については、健全性についての確認を行なっている。18台構成は冗長性を持ったものであり、12台の設備容量でも十分運用できる状況になっている。12台で継続的にサービスを提供できる状況にある。6台は修理を行ない、今後、18台の構成に戻していくことになる。

——流量制御の解除後、利用できないユーザーはいなかったのか

KDDI 流量制御は、昨日の時点では50%としていたが、制御を段階的に緩和した。音声とデータは別々に制御をかけていたわけではない。4日14時51分に流量制御を解除した。それ以降はほぼ回復していたが、ネットワークの健全性の確認作業などを行なっており、ほぼ回復したとのホームページへの掲載が遅れた。

 流量制御を解除して以降も、一部ユーザーでは利用しづらい状況が続いたが、端末の電源を入れなおすことで復旧するケースもある。「ほぼ」と表現しているのは、ネットワークの状況をしっかりと確認したいと考えているからだ。法人ユーザーの中にはシステムの中に組み込んでいる例もある。

 完全復旧の状況と、現在の状況は、ネットワーク環境に変化はない。基本的には安定していると思っているが、個人ユーザー、法人ユーザーにサービスをしっかり使ってもらえているかどうかを確認してから、完全復旧宣言をしたい。

——復旧方法は、これしかなかったのか

KDDI 時間をかけて、これ以上、輻輳しないようにやっていくことが大切であった。そこで、データ不一致修正処理にも時間をかけた。この方法が、お客様への影響をなるべく早くなくすという意味では、最も適切な手順だと思っている。通信障害が発生しても3分の1強のお客様は利用できており、それらのお客様に影響がないように復旧作業をしていった。

——再発防止にはどう取り組むのか

KDDI 重大な事故と認識している。なるべく早く、再発防止策を策定したい。同様の事故を起こさないようにすることが大切である。2021年のNTTドコモの事象を受けて復旧手順を用意しており、それを作動させたが、収まらない事象だった。どこがいけなかったのかをしっかりと振り返りたい。月曜日を含む3日間の通信障害はあってはならないことであると認識している。KDDI全体で再発防止に取り組む。

 また、IP化の促進が大規模通信障害を引き起こしているとは考えていない。逆に復旧が早くなるという実態もある。だが、端末からは、頻繁にシステムにアクセスしている状況が作られており、それが輻輳の引き金にはなっている。

——補償についてはどう考えているか

KDDI 現在は、原因究明と再発防止に力を注いでおり、補償については別途案内する。

Source

コメント

タイトルとURLをコピーしました