AMD、96コアの第4世代EPYC。Xeon比で最大3倍の性能を発揮

PC Watch

第4世代EPYC。12個のCCDと1つのIODから構成されている(写真提供: AMD)

 米AMDは10日、米国カリフォルニア州サンフランシスコ市の会場において記者会見を開催し、Genoa(ジェノア)の開発コードネームで開発を続けてきた第4世代AMD EPYCプロセッサ(以下第4世代EPYC)を正式発表。出荷開始したことを明らかにした。

96コアを1ソケットで実現

第4世代EPYCの概要(出典: AMD)

 第4世代EPYCは、既に販売されているRyzen 7000シリーズと同じZen 4マイクロアーキテクチャを採用している。AMDコーポレート・フェロー兼シリコンデザインエンジニアのマイク・クラーク氏によれば、基本的にはRyzen 7000シリーズに採用されているZen 4シリーズと同等のマイクロアーキテクチャになる。

 Zen 4の特徴は、以下の記事で詳しく解説している通りで、フロントエンド、ロードストアユニット、L2キャッシュの増量(512KBから1MBへ)などの改良によりIPC(Instruction Per Clock-cycle)が13%改善している。

 また、AVX-512命令に対応していることも特徴。256bit SIMDレジスタを利用して演算するため、512bit AVX命令を実行するには2クロックサイクルかかる計算になり、スループットは256bit時と変わらないが、フロントエンドの効率などが改善され性能が向上している。VNNIなどのAVX-512の拡張追加命令にも対応しており、Intel第3世代Xeon SP(Ice Lake-SP)でサポートされているレベルのAVX-512命令に対応している。

 第4世代EPYCでは、このZen 4マイクロアーキテクチャのCPUコアを最大96個まで1つのパッケージに搭載することが可能になっている。第3世代EPYC(Milan)では64コアが最大で、1.33倍に増やされているかたちだ。

SP5に進化したプラットホーム(出典: AMD)

プラットフォーム(出典: AMD)

 これは、AMDのCPU/GPUの特徴となっているチップレット(複数のダイを1パッケージ上で混載する技術)を採用していることによるもの。

 第3世代EPYCでは、1つあたり8 CPUコアとなっているCCD(Core Complex Die)を最大8つ実装できた。それに対して、第4世代EPYCでは製造プロセスルールがTSMCの5nmに微細化されて小さくなったこと、そしてソケットがSP5という新しいソケットになりパッケージのサイズが72x75mmと、従来のSP3よりも大きくなったことなどにより、12個を1パッケージに実装することが可能になった。

チップレット(出典: AMD)

 CPUとIOD(I/Oダイ)を接続するインターフェイス(GMI3)は、32bit(リード)+16bit(ライト)という構成は第3世代EPYCと同じだが、第4世代EPYCではCCDの数が4つ以下の時にはそのインターフェイスを2x(32bit+16bit)の構成に設定できるGMI3-Wideという設定が用意された。

 たとえば、CPUコア数は少ないが、周波数を高めに設定しているHPC向けSKUなどがこの構成にされ、より性能を引き上げることができる。このGMI-Wideの設定は、全ての32コア以下のSKUが対象というわけではなく、32コア以下のSKUの中でも特定のSKUだけがこの設定になっているが、どれがそうかは、現時点では明らかにされていない。

12チャネルのDDR5メモリ、2ソケット時に160レーンのPCIe Gen 5に対応するIOD

メモリ構成(出典: AMD)

 第4世代EPYCではCPUだけでなく、IODも強化されている。第3世代EPYCのIODは14nmで製造されていたが、第4世代EPYCはTSMCの6nmへと微細化され、それに伴って機能や性能は大きく引き上げられている。

メモリの機能(出典: AMD)

 強化されているポイントの1つは、メモリコントローラだ。第3世代EPYCのIODに内蔵されているメモリコントローラは8つで、DDR4メモリを8チャネルで利用できる。対して第4世代EPYCのIODでは、メモリコントローラは12基搭載され、DDR5メモリを12チャネル構成で利用することができる。なお、10、8、6、4、2、1チャネルでも利用することは可能だ(マザーボード側の設計にも依存する)。

PCI Express(出典: AMD)

 2つめの強化ポイントは、I/O周り。2ソケット構成では最大160レーンのPCI Express Gen 5と、最大12レーンのPCI Express Gen 3のI/Oが利用可能になっている(1ソケット時には128レーン)。CPUとCPUを接続するInfinity Fabricの接続数を3から4にする場合には最大128レーン(Gen 5)と12レーン(Gen 3)になる。

 これにより、x16相当のPCI Expressデバイスを最大9基接続可能だ。また、実行効率が向上していることも特徴で、PCI Express Gen 5 x16の400Gb InfiniBandを利用した場合には、単方向で396Gbps、双方向で790Gbpsを実現しており、それぞれ99%、98%という実効レートを実現できているとAMDでは説明している。

CXL(出典: AMD)

 PCI Expressの技術を応用してコヒーレントを可能にする業界標準のCXL 1.1にも対応しており、CXL 1.1でType-3として定義されているメモリバッファに対応した。これにより、メモリバッファを搭載したCXLの拡張メモリモジュールをメインメモリの一部として利用することが可能になる。

第3世代Xeon SPと比べて最大3倍の性能を発揮

モデルナンバーの仕組み(出典: AMD)

 モデルナンバーに関しては新しいスキームが導入される。千の桁は製品シリーズを示しており、第4世代EPYCでは全て9になっている。百の桁はコア数で、0なら8コア、1は16コア、5は64コア、6は84~96などを意味している。十の桁は数字が大きければ多いほど高性能ということを示す。一の桁の数字は世代を示しており、今回は「4」になっている。最後のアルファベットはないのが通常版、Fがコア数よりもクロック周波数を重視したバージョン、Pは1P用となっている。

【表1】第4世代EPYCのSKU
モデルナンバー コア数 標準TDP cTDP ベースクロック周波数 ブースト周波数
9654 96 360W 320-400W 2.4GHz 3.7GHz
9634 84 290W 240-300W 2.25GHz 3.7GHz
9554 64 360W 320-400W 3.1GHz 3.75GHz
9534 64 280W 240-300W 2.45GHz 3.7GHz
9454 48 290W 240-300W 2.75GHz 3.8GHz
9354 32 280W 240-300W 3.25GHz 3.8GHz
9334 32 210W 200-240W 2.7GHz 3.9GHz
9254 24 200W 200-240W 2.9GHz 4.15GHz
9224 24 200W 200-240W 2.5GHz 3.7GHz
9124 16 200W 200-240W 3.0GHz 3.7GHz
9474F 48 360W 320-400W 3.6GHz 4.1GHz
9374F 32 320W 320-400W 3.85GHz 4.3GHz
9274F 24 320W 320-400W 4.05GHz 4.3GHz
9174F 16 320W 320-400W 4.1GHz 4.4GHz
9654P 96 360W 320-400W 2.4GHz 3.7GHz
9554P 64 360W 320-400W 3.1GHz 3.75GHz
9454P 48 290W 240-300W 2.75GHz 3.8GHz
9354P 32 280W 240-300W 3.25GHz 3.8GHz

 第3世代EPYCでもそうだったように、EPYCのSKUはコア数、クロック周波数、TDPなどの違いで差別化がされており、メモリ、PCI Expressのレーン数、Infinity Fabricなどの仕様は全てのSKUで共通となっている。

 AMDは新製品の性能に関しても明らかにしている。仮想マシンのベンチマーク(VMmark 3.1.1)では、第4世代EPYCの最上位モデル(EPYC 9654)は前世代の第3世代EPYCの最上位モデルとなるEPYC 7763と比較すると約1.72倍、Intelの第3世代Xeon SPの最上位SKUとなるXeon Platinum 8380(40コア)と比較すると約2.8倍、VM数で換算すると、3.1倍となっている。他のベンチマークでもXeon Platinum 8380に比較して2.4~2.7倍の性能を実現しているとAMDは説明している。

15台のXeon SPサーバーを5台のEPYCで実現可能(出典: AMD)

 こうした結果などから、たとえばSPECrate2017_int_baseのスコアで同じ性能を実現するには、2Pの第3世代Xeon SPのシステムが15のサーバーブレードを必要とするのに対して、第4世代EPYCに関しては5台のサーバーブレードで済み、導入時のコストを削減できるほか、年間の電気代も削減することが可能で、1年間にかかるTCOを最大51%削減できるとAMDは説明している。

 製品出荷は既に開始されており、本日より順次OEMメーカーから搭載製品が販売、出荷が行なわれる見通しだという。競合となるIntelが現時点でも次世代製品となるSapphire Rapidsを正式発表できておらず、昨日、1月上旬に発表、出荷開始する予定とアナウンスできた段階であることを考えると、それに先んじて新製品を発表できたAMDのリードは小さくない。

EPYC(写真提供: AMD)

Source

コメント

タイトルとURLをコピーしました