Ethernetというか10GBASE-Tに関しては、2017年から【10GBASE-T、ついに普及?】と題し、全11回と番外編2回をお届けした。だが、ツイストペアによる銅配線のEthernetは10GBASE-Tまでで、25/40GBASE-Tはまだまだ実用化には至っていない。
【アクセス回線10Gbpsへの道】とも一部は被るかもしれないが、ここでは光ファイバーを利用する“光Ethernet”を紹介していこう。
「光Ethernetの歴史と発展」記事一覧
Facebookデータセンター内の配線は500m以内が大半ながら14%は2kmの到達距離が必要
BER周りのプレゼンテーションを紹介した前回に続き、IEEE 802.3 Beyond 400 Gb/s Ethernet Study Group」の2021年5月のミーティングの内容について見ていこう。
BER周りと比べ、Optical周りに関するプレゼンテーションが少なかったのは、3月のミーティングにおけるOptical関係の提案で、ある程度話が付いたとみなされた(というか、3月の提案内容を精査しないとその先には進めず、これはStudy Groupの範疇を超えると判断された?)ようだ。
それもあって5月のミーティングでは、Opticalを実装するための方法論というよりは、もう少し広い範囲から見た話がいくつか示された。
まず、FacebookのRob Stone氏らによる”On the Broad Market Potential of the 800 Gb/s 4 wavelength 2km on Single Mode Fiber Objective“は、実質スライド5枚と簡単なものだが、そこに興味深い話が出てきていた。
Facebookが自社で抱えるデータセンター(DC)は、Sustainability Impact Mapでも参照できるが、現時点で世界に17拠点が置かれ、各DC内の構成は以下右のようになっている。
とにかく、1つのDCが複数の建物に分かれ、それぞれの間はかなりの距離になる。そして、そこで使われているSMFの距離をまとめたのが右で、別の書き方をすると以下のような比率となる。つまり、大半は500m以内である一方で、2kmほどの到達距離を必要とするケースが14%ほどあるわけだ。
- 500m未満 79%
- 500m以上~1000m未満 2%
- 1000m以上~2000m未満 14%
- 2000m以上~3000m未満 4%
FacebookやMicrosoftのDC事業者にはIEEEの標準化作業は遅いとの不満が先んじて標準化したMSAをIEEEがフォローアップするのが暗黙の前提に
さて、FacebookではDC内の配線コストを最小限に抑えるため、以下をベースとしているという。
- 単一のSingle Optical PMDを利用
- 現在は混在している「200G-FR4-OCP」と「400G-FR4-OCP」を「800G-FR4-OCP」へ移行
(いずれもIEEEの同種規格の派生規格で、到達距離は最大3km。DCの環境に合わせて波長を変更)
その上で、以下の要望を示した。これは、Study Groupの議論が深まる中で、実際に利用しているユーザーのリクエストを示した格好だ。
- 非IEEE標準のFR4仕様は既に広く利用されている(何しろ自分たちが使っている!)
- モジュールの標準化は重要
- できれば3kmの到達距離を考慮して欲しい
似た話は、MicrosoftのBrad Booth氏による”Future DC Network Considerations“でも寄せられた。Microsoftは現在、400Gを400ZRで実装しようとしており、この先は800Gをパスして400G×2という構成を考えているそうだ。そしてこれは、ほかのDC事業者でも似た傾向、ということが、まず示されていた。
次の話はスイッチだ。以下はInphiが以前に示したスライドを下敷きにしたものだが、Core-Aggregation-ToRという3層構造のスイッチになっている。ただ、これはあくまで論理的な話で、実際はサーバーの数が増えると、TORはともかくAggregationのステージが1段では済まなくなる可能性が高い。
例えばラックが120本あり、ところがスイッチが32ポートしかないような場合、一番台数が少ないのは図1の構成となるが、これだとLayer 1とLayer 2の間の帯域が細すぎることになり、ここがボトルネックとなる。
そこで、もう少しバランスを考えると図2のような3段構成となり、スイッチの台数も9台にまで増えることになる(これでバランスが取れているか、は使い方次第。Layer 3は例えば16ラック程度に抑え、Layer 1⇔Layer 2の間もx8ではなくx4などとした方がいいのかもしれないが、そもそも32ポートスイッチという時点でいろいろと破綻しているので、その点に突っ込むつもりはないため、ご容赦いただきたい)。
要するに、スイッチのポート数(Radix)が足りないことが最大の要因であり、しかも多段構成にすると、それだけレイテンシーも増え、消費電力も増えるので、いいことは何もない。
このあたりからも、業界では大容量のスイッチを使う方向へとシフトしているが、Microsoftでは512ポートの採用を考慮しているそうだ。ポート数が多ければ多段構成にする必要性が大きく減るから、スイッチ単体のコストや消費電力は増えても、トータルでは安くなるし、もちろんレイテンシーも減る。
そんなわけで、より高速、より多数のRadixを持ったスイッチの採用を志向するMicrosoftに代表されるデータセンター事業者にとって、IEEEの標準化作業は遅いという不満は当然あるわけで、それが理由でMSAが乱立することとなる。
実際にFacebookは200G-FR4-OCPや400G-FR4-OCPを使い、Microsoftは400ZRを使っているわけだが、MSAはしばしばIEEE 802.3に準拠する形で標準化が行われているため、当初はIEEEに先んじてMSAとして標準化されても、あとからIEEEが速度や採用技術(FECや変調方式など)でフォローアップしてくることを暗黙の前提にしている。
Beyond 400G Study Groupは、800GbEと同時に1.6Tの標準化も行うべきと主張
以上を前提に、800GbEの標準化を狙っている現在のBeyond 400G Study Groupでは、それといっしょに1.6Tの標準化も行うべきだ、との主張を行っている。
要するに、800Gの標準化が見えてから1.6Tの標準化に向かうのは時間が掛かりすぎるので、800Gとともに1.6Tの検討も進めることで、少しでも標準化時期を早めたい、という要望である。
この後「1.6Tの標準化を行わない理由はない」旨をとうとうと述べつつ、Study Groupの検討をPHYに絞り、MACは後送りにすることを主張している。
特に、3段目の”Even if PHY technology exists, next Ethernet speed gated by process”(もしPHYの技術が確立しているのであれば、次世代Ethernetの速度は製造プロセスで決まる)というのは、確かに現状では事実である。
『200G×8の1.6Tbps、×4の800Gbpsでの転送実現は2023年?』でも示した以下の行ではないが、現状主流の7nm世代では200Gベースの800G(や1.6T)の実現は難しい。
ただ、2021年あたりから本格的に生産が始まった(まずはスマートフォン用SoC向けだが、BroadcomとかMarvellは既にデータセンター向け製品の製造を始めている)5nm世代なら200Gベースの規格は現実的であり、この仕様が標準化に向かう時期には3nmとか2nm世代のプロセスが現実になっていることを考えると、これらのプロセスを使えば800G/1.6T製品の製造はかなり容易になるだろう。
そんなわけで、この意見にも一応見るべきものはある。ということで、Recommendationとして以下の2つが挙げられている。
- 将来のMACレートにも対応すべき
- MACパラメータは”≧800G”のようにすべき