【笠原一輝のユビキタス情報局】チップレットになった「第4世代Xeon SP」、性能向上の鍵はAMXと4つのアクセラレータ

PC Watch

新しいCPUソケットLGA4677と第4世代Xeon SP

 Intelは1月10日(現地時間、日本時間1月11日)に報道発表を行ない、同社が「Sapphire Rapids」(サファイアラピッズ)の開発コードネームで開発してきたデータセンター向けCPUを、「第4世代Xeonスケーラブル・プロセッサー」(英語名:4th Gen Xeon Scalable Processors、以下第4世代Xeon SP)として発表したことを明らかにした。

 新しい第4世代Xeon SPは、4つのCPUダイを1つのパッケージに統合しているというチップレット技術を採用しており、Intelが独自開発したEMIBを利用して4つダイが1つの巨大CPUとして動作する仕組みになっている。これにより従来製品では最大40コアだったCPUコア数は、最大60コアへと強化されている。

 また、アーキテクチャ面での大きな強化点としては、QAT(QuickAssist Technology)、DLB(Dynamic Load Blancer)、DSA(Data Streaming Accelerator)、IAA(In-Memory Analytics Accelerator)といった4つのハードウェアアクセラレータがCPUに統合されており、それらを利用することでCPUの処理をオフロードして電力効率を大きく改善している。

 そうした第4世代Xeon SPのハードウェアに関して、Intelへの取材などを通じて分かったことを踏まえながら解説していきたい。

チップレットのXCC、モノリシックMCCという2つの種類のパッケージが用意されている第4世代Xeon SP

第4世代Xeon SPのXCC(ヒートスプレッダを外したところ)。4つのCPUタイルがあることが分かる

 今回の第4世代Xeon SPは、CPUの内部構造(マイクロアーキテクチャ)、パッケージ、そしてプラットホームに至るまで、ほとんど総取り替えと言って良いほどの大きな改良になっている。

 その1番の目玉はCPUのパッケージング技術として、チップレットを採用したことだ。チップレットとは複数のダイをパッケージ上で混載する技術で、第4世代Xeon SPではIntelが自社開発したEMIB(イーミブ、Embedded Multi-die Interconnect Bridge)と呼ばれるチップレット技術が利用されている。EMIBはサブ基板の内部にブリッジ用のチップ(Embedded Silicon Bridge)でチップ同士を接続しており、通常のチップレットなどに比べてより高速にデータ通信を可能にしている。

 第4世代Xeon SPでは、CPUパッケージのサブ基板上に4つのCPUタイル(Intelではチップレットでのダイのことをタイルと呼んでいる)をEMIBで接続する構造になっている。第4世代Xeon SPでは正方形に近いCPUタイルが4つサブ基板上に実装されているのがCPUの実物を見ると見てとれる。

XCC、MCC、XCC(Xeon Maxシリーズ)(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 Intelによれば、この4つのCPUタイルを基板上に実装しているのはXCC(eXtreme Core Count)と呼んでいる構成で、もう1つのMCC(Medium Core Count)は従来と同じモノリシック(単体)なダイになっている。Intelが公表した資料などを基に、XCC、MCCの構造をブロック図にしたものが以下の図になる。

XCC、MCC、XCC(Xeon Maxシリーズ)のブロック図(筆者作成)

 既に述べたとおり、XCCは4つのCPUタイルから構成されており、1つのタイルにはGolden Coveコア(後述するが、第12世代Core、第13世代CoreのPコアとして採用されているCPUのマイクロアーキテクチャ)のCPUが15個あり、それぞれに2チャンネルのDDR5メモリコントローラ、さらに2つのPCI Express Gen 5のコントローラ、1つのUPIコントローラ、そしてHBM2eのメモリコントローラも用意されている(ただし、HBM2eのメモリコントローラはMaxシリーズのみで利用され、通常版の第4世代Xeonでは無効にされている)。

 また、CPUタイル1つにはそれぞれにQAT、DLB、DSA、IAAといったハードウェアアクセラレータが用意されている(ハードウェアアクセラレータに関しては後述する)。

 まとめると、CPUタイル、そしてCPUパッケージ全体でCPUコア、PCI Expressコントローラ、UPIコントローラ、アクセラレータなどをまとめると、以下のような数があることになる。

【表1】CPUタイル1つとXCC全体でのハードウェアの数
CPUタイル XCC全体
CPUコア数 15 60
メモリコントローラ DDR5(2)/HBM(1) DDR5(8)/HBM(4)
PCI Express Gen 5 2 8
UPI 1 4
QAT 1 4
DLB 1 4
DSA 1 4
IAA 1 4

 CPUタイルそれぞれにメモリコントローラやアクセラレータ、PCI Expressコントローラなどを搭載していることで、それぞれ複数が使えるようになっており、CPUタイル同士をCPUタイル内部とメッシュインターコネクトで接続することで、性能を大きく低下させることなくチップレットの仕組みを実現している。

MCCはアーキテクチャ的には34コア、製品レベルでは32コアという構成に

Xeon Maxシリーズ。4つのタイルの周りに16GBのHBM2eメモリが4つ搭載されている。抵抗などの周辺チップがパッケージに乗り切らないので、耳が飛び出している形になっている

 MCCの方は、32コア以下のSKUで利用され、アーキテクチャ的には34コアのCPUが用意されている。しかし、MCCで最上位構成のSKUは32コアで、2コアは標準状態で無効になっている。8チャンネルDDR5メモリコントーラという仕様は同じだが、PCI Express Gen 5コントローラは6つとXCCに比べて2つ少ないことになる。

 また、アクセラレータは、XCCではCPUタイル1つに4種類のアクセラレータが搭載されており、それぞれが4つ搭載されていた。MCCではQATとDLBが2つあることになっており、DSAとIAAについては1つとなっている。

 こうしたMCCの構成を見ていると、同じ30コア前後の構成であれば、XCCに採用されているCPUタイルを2つ利用して30コア製品としてMCCにすれば良いのではと考えたくなるだろう。しかし、その場合CPUタイル1つにはメモリコントローラは2チャンネルしかないので、CPUタイル2つではメモリは4チャンネルになってしまい、データセンター向けCPUとしてはメモリ帯域が十分ではなくなってしまう。

 これを避けるためには、AMDがEPYCで採用しているように、メモリコントローラは別ダイにしてCPUと分離しないといけなくなるだろう。今回のXCCではそのデザインを採用しなかったので、MCCをモノリシックのダイにしたのは論理的な選択といえる。

 Xeon Maxシリーズは、既に11月に概要が発表されている通り、第4世代Xeon SPに、64GBのHBM2eメモリを追加したバージョンになる(このため、Sapphire Rapids with High Bandwidth Memoryと別の開発コードネームが与えられてきた)。

Xeon Maxのパッケージ、同じLGA4677

 Xeon MaxではCPUコアは最大56コアになり、標準状態で4つのコアが無効にされているほか、アクセラレータはDSAのみが有効にされておりmQATなどほかの3つは無効にされている。

CPUはGolden Coveに強化されSTで15%性能向上、AMXに対応したAI推論性能が大幅アップ

第3世代Xeon SP(Sunny Cove)と第4世代Xeon(Golden Cove)の比較。第4世代ではIPCが15%向上している(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 CPUコアは、クライアントPC向けの第12世代/第13世代CoreのPコアで採用されているGolden Coveコアになっている。前世代となる第3世代Xeon SP(Ice Lake-SP)ではCoveシリーズの最初の世代となるSunny Coveから、クライアントPC向けでいえば2世代進化したことになる。

 採用されているGolden Coveは第12世代Core向けのL2キャッシュが1.25MB版ではなく、第13世代Coreに採用されているL2キャッシュが2MBになっているバージョンになっている(クライアントPCではそれをRaptor Coveと呼んでいる)。

 Golden Coveでは、Sunny Coveに比べるとフロントエンド(デコーダや分岐予測など)が大きく強化されているほか、L2キャッシュもL3キャッシュも増やされており、世代間のIPC(Instruction Per Clock-cycle、1周波数あたりに実行できる命令数のこと、数字が大きければ大きいほどCPUの実行効率が良いことを意味する)が15%向上している。つまり、シングルスレッドで処理を行なうと15%性能が向上するということを意味する。

 それと同時に、ソケット1つあたりのCPUコア数が増えている。第3世代Xeon SPではモノリシックダイだったため、1ソケットで40コアが最大構成になっていた。それに対して第4世代Xeon SPのXCCでは最大60コアになっており、CPUコア数が約1.5倍になっている。それにより、1ソケットあたりのマルチスレッド性能も向上している。

AMXおよびAdvanced Vector Extensions for vRANという新命令セットに対応(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 また、第4世代Xeon SPではx86の拡張命令セットとして2つの拡張命令セットが追加されている。1つはAMX(Advanced Matrix eXtensions)で、AMXはCPUに搭載された新しい演算器「TMUL(Tile Matrix multiply Unit)」を利用して効率よく行列演算を行なう仕組みになる。こうした拡張命令は、最近のAI推論処理を行なうプロセッサー(CPU/GPU)で搭載されることがトレンドになっていて、AMXもそうした拡張命令の1つと考えてよい。

 AMXに対応したCPUでは、2つのTMULエンジンが内蔵されており、それを利用して行列演算を効率よく行なうことができる。これにより、BF16を利用してAI推論を行う時により高効率で演算することができる。

 また、AVX512の拡張として用意される「Advanced Vector Extensions for vRAN」は、5GのRAN(Radio Access Network)を汎用プロセッサで構築するアプリケーション(vRAN)に利用する場合に、FP16を利用して複雑な乗算をAVX512で行なうことが可能になる。Advanced Vector Extensions for vRANではAVX512に42の新しい命令が追加され、FP16の演算時のスループットが2倍になり、vRANの性能を大きく引き上げることができる。

QAT、DLB、DSA、IAAという4つの種類のHWアクセラレータをそれぞれ4つ搭載

4つのハードウェアアクセラレータに対応(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 第4世代Xeon SPではそうした追加の拡張命令だけでなく、4つのハードウェアアクセラレータがCPUタイル(XCC)、CPUダイ(MCC)に統合されている。具体的にはQAT、DLB、DSA、IAAの4つになる。

QAT(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 QATはもともと初代Xeon SPの世代で暗号化/復号化のアクセラレータとしてチップセット側に統合されたアクセセラレータだが、今回の第4世代Xeon SPではそれがCPU側に統合されている。

DLB(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

DSA(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

IAA(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 DLBは、CPUにデータを読み込んで処理する際に、データを実行効率の良い順序に並べ替えてキューに入れて実行するためのアクセラレータになる。それによりCPUに負荷をかけることなく順序を入れ替えることができるので、CPUの利用効率を上げることができる。

 DSAはメモリにデータを書き込む際に、その書き込みをDSAにより最適化することで、より効率よくメモリに書き込むことが可能になる。IAAは圧縮、解凍、スキャン/フィルタという3つのエンジンを内蔵しており、データを圧縮して読み込むことでメモリの帯域を節約することを可能にする。

Optimized Power Mode(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 こうしたアクセラレータはそれぞれCPUにかかる負荷をオフロードすることを目的としており、CPUのリソースを演算にだけ振り向けることができるだけでなく、CPUの電力効率を改善することを可能にする。さらに、「Optimized Power Mode」という電力効率優先のモードが用意されており、マザーボードのBIOS設定で有効にすることができ、5%程度の性能低下と引き換えに20%消費電力を下げることが可能になっている。

 Intelによれば、こうしたアクセラレータやそうした電力効率優先モードを活用することで、電力効率は前世代に比べて2.9倍改善しているということだ。

 XCCではこうしたアクセラレータがCPUタイルに1つずつ搭載される。このため、4つのタイルから構成されるソケット全体でそれぞれ4つのアクセラレータが搭載されていることになる。ただし、すべてのSKUでこうしたアクセラレータが有効になっているのかと言えばそうではなく、例えば最上位SKUとなるXeon Platinum 8490Hでは4種類4つ(合計16個)のアクセラレータすべてが有効になっているが、ほかのSKUでは4種類1つずつ(合計4つ)のアクセラレータが有効になっているなど、どの種類のアクセラレータと何個が使えるかはSKUに依存する(後述するSKU表を参照)。

 Intelは今回の第4世代Xeon SPで新しい仕組みとして「Intel OnDemand」が導入される。これは、CPUに対して専用APIを介して無効になっているアクセラレータやCPUコアなどを有効にする仕組みで、OEMベンダーやCSPなどを経由して提供される有料サービスだ。

 Intel OnDemandに対応したSKUだけで有効だが、ユーザーにすれば購入後にアクセラレータやCPUコアが追加で必要になった場合に購入することができる。購入後に機能を拡張できる仕組みはユニークで、CPUを交換しなくても機能を拡張できることは、OEMベンダーやCSPにとっても新しいビジネスとなる可能性を秘めている。

CPUソケットはLGA4189に、DDR5メモリ、80レーンのPCI Express Gen 5/CXL 1.1に対応

第4世代Xeon SPでは1つの製品で1ソケットから8ソケットまでカバーする(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 今回の第4世代Xeon SPでは、プラットホーム側も大きな拡張が入る。CPUソケットは従来のSocket P+(LGA4189)に代わって、Socket E(LGA4677)が導入される。ソケットが変更されるのは、PCI Expressのレーン数の増加やDDR5という新しいメモリに対応するためで、ピン数が違うことからも分かるように、ソケットの互換性はない。なお、チップセットも強化されており、新しくC741がチップセットとして提供される。

 第3世代Xeon SPでは、1-2ソケットが開発コードネームIce Lake-SP、4-8ソケットが開発コードネームCooper Lakeと2つのラインアップに分割されていたが、第4世代Xeonでは1ソケットから8ソケットまで1つの製品でサポートすることができる。これはXCCでUPIが3つから4つに増やされ、新しい接続トポロジーが導入されたからだ。なお、UPIは第3世代Xeon SPでの12GT/sから転送速度は引き上げられて、16GT/sと強化されている。

 UPIが4コントローラなのはXCCだけあり、MCCは3コントローラであるため4ソケットまでの対応となる。XCCでも8ソケットで利用する場合には、8ソケットまでをサポートするSKUを選ぶ必要がある。

【表2】Xeonのプラットホームの変遷(筆者作成)
ブランド名 Xeon 5600番台 Xeon E5 Xeon E5 v2 Xeon E5 v3 Xeon E5 v4 Xeon SP 第2世代Xeon SP 第3世代Xeon SP(4-8S) 第3世代Xeon SP(1-2S) 第4世代Xeon SP
開発コードネーム Westmere-EP Sandy Bridge-EP Ivy Bridge-EP Haswell-EP Broadwell-EP Skylake-SP Cascade Lake-SP Cooper Lake Ice Lake Sapphire Rapids
リリース年 2010年 2012年 2013年 2014年 2016年 2017年 2019年 2020年 2021年 2023年
製造プロセスルール 32nm 32nm 22nm 22nm 14nm 14nm 14nm 14nm 10nm Intel 7(10nm Enhanced Superfin)
CPUコア(ソケットあたり最大) 6 8 12 18 22 28 56 28 40 60
ダイ構成(HCC、MCC、LCC) 6 8 15、10、6 18、12、8 24、15、10 28、18、10 28、18、10 28、18、10 非公表 60、32、LCCなし
パッケージあたりのダイ数 1 1 1 1 1 1 1(パッケージ)/2(BGA) 1 1 4(HCC版)/1(MCC)
L2キャッシュ(コアあたり) 256KB 256KB 256KB 256KB 256KB 1MB 1MB 1MB 1.25MB 2MB
LLCキャッシュ(コアあたり) 2MB 2.5MB 2.5MB 2.5MB 2.5MB 1.375MB 1.375MB 1.375MB 1.5MB 1.875MB
LLCキャッシュ(ダイあたり最大) 12MB 20MB 30MB/20MB/15MB 45MB/30MB/20MB 55MB/37.5MB/25MB 38.5MB/24.75MB/13.75MB 38.5MB/24.75MB/13.75MB 38.5MB/24.75MB/13.75MB 最大60MB 最大112.5
コアマイクロアーキテクチャ Nehalem世代 Sandy Bridge世代 Sandy Bridge世代(改良版) Haswell世代 Haswell世代(改良版) Skylake世代 Skylake世代 Skylake世代 Sunny Cove Golden Cove
コア間インターコネクト リング リング リング リング メッシュ メッシュ メッシュ メッシュ メッシュ
CPUソケット Socket B(LGA1366) Socket R(LGA2011) Socket R(LGA2011) Socket R3(LGA2011v3) Socket R3(LGA2011v3) Socket P(LGA3647) Socket P(LGA3647)/BGA(5903ball、2ダイ構成) Socket P+(LGA4189) Socket P+(LGA4189) Socket E(LGA4677)
最大ソケット 2 2 2 2 2 2/4/8 2/4/8 4/8 2 2/4/8
最大メモリ容量(ソケットあたり) 288GB 384GB 768GB 1.5TB 1.5TB 1.5TB 4.5TB(Optane DCPM利用時) 4.5TB(Optane DCPM利用時) 4TB(DDRのみ)/6TB(DDR+Optane) 4TB(DDR5)/6TB(DDR+Optane)
メモリ DDR3-1333 DDR3-1600 DDR3-1866 DDR4-2133 DDR4-2400 DDR4-2666 DDR4-2933 DDR4-3200 DDR4-3200 DDR5-4800(1DPC)/4400(2DPC)
Optane DC Persistent Memory対応 ○(200シリーズ) ○(200シリーズ) ○(300シリーズ)
メモリチャネル数(CPUソケットあたり) 3 4 4 4 4 6 6/12 6 8 8
拡張命令:AVX AVX AVX2 AVX2/TSX AVX512 AVX512 /w Intel DL Boost(VNNI) AVX512 /w Intel DL Boost(VNNI) AVX512 /w Intel DL Boost(VNNI) AVX512 /w Intel DL Boost(VNNI)
拡張命令:AMX 対応
QPI/UPI(ダイあたり) 2x最大6.4GT/s 2x最大8GT/s 2x最大8GT/s 2x最大9.6GT/s 2x最大9.6GT/s 3x最大10.4GT/s 3x最大10.4GT/s 6x最大10.4GT/s 3x最大11.2GT/s 4x最大16GT/s
PCI Express(CPU側) PCI Express Gen2(チップセット側) PCI Express Gen 3 PCI Express Gen 3 PCI Express Gen 3 PCI Express Gen 3 PCI Express Gen 3 PCI Express Gen 3 PCI Express Gen 3 PCI Express Gen 4 PCI Express Gen 5
PCI Expressレーン数(CPU側/ソケットあたり) 36(チップセット側) 40 40 40 40 64(MCC/LCCは48) 48 48 64 80
CXL 1.1(最大4デバイス)
DMI DMI/Gen2(4レーン) DMI/Gen2(4レーン) DMI/Gen2(4レーン) DMI/Gen2(4レーン) DMI/Gen3(4レーン) DMI/Gen3(4レーン) DMI/Gen3(4レーン) DMI/Gen3(4レーン) DMI/Gen4(8レーン)
チップセット 5500(Tyrusburg) C600(Patsburg) C600(Patsburg) C610(Wellsburg) C610(Wellsburg) C620(Lewisburg) C620(Lewisburg) C620A(Lewisburg R) C620A(Lewisburg R) C741

プラットホームの機能(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 メモリはDDR5に変更されている。メモリチャンネルは第3世代Xeon SPと同じ8チャンネルで、1DPC(1DIMM per Channel)であればDDR5-4800、2DPCであればDDR5-4400で利用することができる。256GBのDDR5のR-DIMMを2DPCで利用した場合、1ソケットあたり最大4TBのメモリを実装することができる。

 なお、既にIntelはビジネスのクローズを明らかにしているOptane Persistent Memoryも引き続きサポートされており、最新のOptane Persistent Memory 300シリーズを利用することができる。DDR5とOptaneを組み合わせた場合は1ソケットあたり最大6TBのメモリ容量を利用することができる。

 PCI ExpressはGen 5に強化され、最大80レーンを利用することができる。PCI Expressにコヒーレントの機能を追加したCXL(Compute eXpress Link)のバージョン1.1にも対応しており、Type1とType2デバイスを最大4デバイスまで利用することができる。

TDPは最大350Wに引き上げられる、真価を発揮するにはAMX/HWアクセラレータへの対応が必須

第4世代Xeon SP、左が通常のXeon SP、右がHBM2eのXeon Max。実際にはこういう2ソケットの構成はなく、あくまで展示用

 今回発表された第4世代Xeon SPのSKU構成と価格(参考価格、税別)は以下のようになっている

【表3】SKUと価格(Intelの資料より筆者作成)
対象市場 シリーズ SKU コア数 ベースクロック(GHz) ターボ時最大クロック(マルチコア/GHz) ターボ時最大クロック(シングルコア/GHz) L3キャッシュ(MB) TDP(W) 最大ソケット数 DDR5速度 UPIリンク数 DSA QAT DLB IAA SGX Enclave容量(GB) Intel OnDemand対応 ダイ 奨励顧客価格(RCP/米ドル)
2Sパフォーマンス汎用 Platinum 8480+ 56 2 3 3.8 105 350 2 4800 4 1 1 1 1 512 XCC 10710
Platinum 8470 52 2 3 3.8 105 350 2 4800 4 1 0 0 0 512 XCC 9359
Platinum 8468 48 2.1 3.1 3.8 105 350 2 4800 4 1 0 0 0 512 XCC 7214
Platinum 8486Y+ 40 2 2.8 3.7 105 300 2 4800 4 1 1 1 1 128 XCC 5558
Platinum 8462Y+ 32 2.8 3.6 4.1 60 300 2 4800 3 1 1 1 1 128 XCC 5945
Gold 6448Y 32 2.1 3 4.1 60 225 2 4800 3 1 0 0 0 128 MCC 3583
Gold 6442Y 24 2.6 3.3 4 60 225 2 4800 3 1 0 0 0 128 MCC 2878
Gold 6444Y 16 3.6 4 4.1 45 270 2 4800 3 1 0 0 0 128 MCC 3622
Gold 6426Y 16 2.3 3.3 4.1 37.5 185 2 4800 3 1 0 0 0 128 MCC 1517
Gold 6434 8 3.7 4.1 4.1 22.5 195 2 4800 3 1 0 0 0 128 MCC 2607
Gold 5415+ 8 2.9 3.6 4.1 22.5 150 2 4400 3 1 1 1 1 128 MCC 1066
2Sメインストリーム汎用 Platinum 8452Y 36 2 2.8 3.2 67.5 300 2 4800 4 1 0 0 0 128 XCC 3995
Gold 6438Y+ 32 2 2.8 4 60 205 2 4800 3 1 1 1 1 128 MCC 3141
Gold 6430 32 2.1 2.6 3.4 60 270 2 4400 3 1 0 0 0 128 XCC 2128
Gold 5420+ 28 2 2.7 4.1 52.5 205 2 4400 3 1 1 1 1 128 MCC 1848
Gold 5418Y 24 2 2.8 3.8 45 185 2 4400 3 1 0 0 0 128 MCC 1483
Silver 4416+ 20 2 2.9 3.9 37.5 165 2 4400 2 1 1 1 1 64 MCC 1176
Silver 4410Y 12 2 2.8 3.9 30 150 2 4000 2 1 0 0 0 64 MCC 563
液冷汎用 Platinum 8470Q 52 2.1 3.2 3.8 105 350 2 4800 4 1 0 0 0 512 XCC 9410
Gold 6458Q 32 3.1 4 4 60 350 2 4800 3 1 0 0 0 128 MCC 6416
1S汎用 Gold 6414U 32 2 2.6 3.4 60 250 1 4800 0 1 0 0 0 512 XCC 2296
Gold 5412U 24 2.1 2.9 3.9 45 185 1 4400 0 1 0 0 0 128 MCC 1113
Bronze 3408J 8 1.8 1.9 1.9 22.5 125 1 4400 0 1 0 0 0 64 MCC 415
長寿命(IOT)汎用 Silver 4410T 10 2.7 3.4 4 26.25 150 2 4000 2 1 0 0 0 64 MCC 624
IMDB/アナリティクス/仮想化最適(ソケット拡張可能) Platinum 8490H 60 1.9 2.9 3.5 112.5 350 8 4800 4 4 4 4 4 512 XCC 17000
Platinum 8468H 48 2.1 3 3.8 105 330 8 4800 4 4 4 4 4 512 XCC 13923
Platinum 8460H 40 2.2 3.1 3.8 105 330 8 4800 4 4 0 0 4 512 XCC 10710
Platinum 8454H 32 2.1 2.7 3.4 82.5 270 8 4800 4 4 4 4 4 512 XCC 6450
Platinum 8450H 28 2 2.6 3.5 75 250 8 4800 4 4 0 0 4 512 XCC 4708
Platinum 8444H 16 2.9 3.2 4 45 270 8 4800 4 4 0 0 4 512 XCC 4234
Gold 6448H 32 2.4 3.2 4.1 60 250 4 4800 3 1 2 2 1 512 MCC 3658
Gold 6418H 24 2.1 2.9 4 60 185 4 4800 3 1 0 0 1 512 MCC 2065
Gold 6416H 18 2.2 2.9 4.2 45 165 4 4800 3 1 0 0 1 512 MCC 1444
Gold 6434H 8 3.7 4.1 4.1 22.5 195 4 4800 3 1 0 0 1 512 MCC 3070
5G/ネットワーキング最適 Platinum 8470N 52 1.7 2.7 3.6 97.5 300 2 4800 4 4 4 4 0 128 XCC 9520
Platinum 8471N 52 1.8 2.8 3.6 97.5 300 1 4800 4 4 4 4 0 128 XCC 5171
Gold 6438N 32 2 2.7 3.6 60 205 2 4800 3 1 2 2 0 128 MCC 3351
Gold 6428N 32 1.8 2.5 3.8 60 185 2 4000 3 1 2 2 0 128 MCC 3200
Gold 6412N 32 1.8 2.6 3.6 60 185 1 4400 3 1 2 2 0 128 MCC 2368
Gold 5418N 24 1.8 2.6 3.8 45 165 2 4000 3 1 2 2 0 128 MCC 1664
Gold 5411N 24 1.9 2.8 3.9 45 165 1 4400 3 1 2 2 0 128 MCC 1232
クラウド最適化(IaaS -P/SaaS -V/Media ーM) Platinum 8468V 48 2.4 2.9 3.8 97.5 330 2 4800 3 1 1 1 1 128 XCC 7121
Platinum 8458P 44 2.7 3.2 3.8 82.5 350 2 4800 3 1 1 1 1 512 XCC 6759
Platinum 8461V 48 2.2 2.8 3.7 97.5 300 1 4800 0 1 1 1 1 128 XCC 4491
Gold 6438M 32 2.2 2.8 3.9 60 205 2 4800 3 1 0 0 2 128 MCC 3273
ストレージ/HCI最適化 Gold 6454S 32 2.2 2.8 3.4 60 270 2 4800 4 4 4 4 0 128 XCC 3157
Gold 5416S 16 2 2.8 4 30 150 2 4400 3 1 2 2 0 128 MCC 944
HPC Max 9480 56 1.9 2.6 3.5 112.5 350 2 4800 4 4 0 0 0 512 XCC 12980
Max 9470 52 2 2.7 3.5 105 350 2 4800 4 4 0 0 0 512 XCC 11590
Max 9468 48 2.1 2.6 3.5 105 350 2 4800 4 4 0 0 0 512 XCC 9900
Max 9460 40 2.2 2.7 3.5 97.5 350 2 4800 3 4 0 0 0 128 XCC 8750
Max 9462 32 2.7 3.1 3.5 75 350 2 4800 3 4 0 0 0 128 XCC 7995

 今回の第4世代Xeon SPからIntelはSKU構成を、ターゲット市場別にして提供することにしている。2Sパフォーマンス汎用、2Sメインストリーム汎用、液冷汎用、1ソケット汎用、長寿命(IOT)汎用、IMDB/アナリティクス/仮想化最適(ソケット拡張可能)、5G/ネットワーキング最適、クラウド最適化、ストレージ/HCI最適化、HPC(Xeon Maxシリーズ)などのターゲット市場に向けてSKUが用意されている。

 注意したいのはTDPで、従来の第3世代Xeon SPでは最大270Wになっていたが、第4世代Xeon SPではそれが最大350Wに拡張されている。こうした傾向にあるのは第4世代Xeonだけでなく、競合となるAMDの第4世代EPYCも、最上位SKUでは標準で360W、cTDPでは400Wが可能になっており、それだけのTDPの電力量で発生する熱を確実に放熱すると考えると、従来のヒートシンク+ファンという空冷では十分ではない可能性が高い。

 このため、OEMメーカーはヒートシンクをより大型にして、ファンの数を増やして対応するというところが多い。場合によっては液冷、液浸(専用の油に漬けてシステム全体で冷やす冷却方法)などのさらに高効率な冷却システムを検討する場合も出てくるだろう。

 最後に第4世代Xeon SPの性能について説明しておきたい。Intelが公表した第3世代Xeon SPと第4世代Xeon SPとの比較データは以下の通りだ。

Intelが公開した第3世代Xeon SPを基準とした時の第4世代Xeon SPの性能(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 データベースやWeb、メディアなどではおおむね1.5~2倍程度の性能を発揮し、大きな性能向上が発揮されているのはインメモリデータベースのRockDBの2.93倍などで、この場合にはIAAアクセラレータを有効にした結果2.93倍という結果が得られていると考えることができる。同じことはAI推論のSSD-RN34(RT推論/BF16)の10倍という結果も同様で、こちらはAMXでBF16を利用して演算した場合の結果になっている。

 こうした結果からも分かるように、第4世代Xeonの真価を発揮させるにはAMXなどの新しい拡張命令やハードウェアアクセラレータをソフトウェアが利用できるようにする必要がある。IntelはISV(独立系ソフトウェアベンダー)に対して、AMXやハードウェアアクセラレータを利用できる開発キットを合わせて提供している。第4世代Xeon SPの導入を検討しているのなら、同時に利用しているソフトウェアがAMXやQAT/DLB/DSA/IAAなどのアクセラレータに対応しているかどうかをチェックしておくと良いだろう。

Source

コメント