【笠原一輝のユビキタス情報局】チップレットになった「第4世代Xeon SP」、性能向上の鍵はAMXと4つのアクセラレータ

新しいCPUソケットLGA4677と第4世代Xeon SP

　Intelは1月10日(現地時間、日本時間1月11日)に報道発表を行ない、同社が「Sapphire Rapids」(サファイアラピッズ)の開発コードネームで開発してきたデータセンター向けCPUを、「第4世代Xeonスケーラブル・プロセッサー」(英語名：4th Gen Xeon Scalable Processors、以下第4世代Xeon SP)として発表したことを明らかにした。

　新しい第4世代Xeon SPは、4つのCPUダイを1つのパッケージに統合しているというチップレット技術を採用しており、Intelが独自開発したEMIBを利用して4つダイが1つの巨大CPUとして動作する仕組みになっている。これにより従来製品では最大40コアだったCPUコア数は、最大60コアへと強化されている。

　また、アーキテクチャ面での大きな強化点としては、QAT(QuickAssist Technology)、DLB(Dynamic Load Blancer)、DSA(Data Streaming Accelerator)、IAA(In-Memory Analytics Accelerator)といった4つのハードウェアアクセラレータがCPUに統合されており、それらを利用することでCPUの処理をオフロードして電力効率を大きく改善している。

　そうした第4世代Xeon SPのハードウェアに関して、Intelへの取材などを通じて分かったことを踏まえながら解説していきたい。

チップレットのXCC、モノリシックMCCという2つの種類のパッケージが用意されている第4世代Xeon SP
MCCはアーキテクチャ的には34コア、製品レベルでは32コアという構成に
CPUはGolden Coveに強化されSTで15%性能向上、AMXに対応したAI推論性能が大幅アップ
QAT、DLB、DSA、IAAという4つの種類のHWアクセラレータをそれぞれ4つ搭載
CPUソケットはLGA4189に、DDR5メモリ、80レーンのPCI Express Gen 5/CXL 1.1に対応
TDPは最大350Wに引き上げられる、真価を発揮するにはAMX/HWアクセラレータへの対応が必須
1. 共有:
2. 関連

チップレットのXCC、モノリシックMCCという2つの種類のパッケージが用意されている第4世代Xeon SP

第4世代Xeon SPのXCC(ヒートスプレッダを外したところ)。4つのCPUタイルがあることが分かる

　今回の第4世代Xeon SPは、CPUの内部構造(マイクロアーキテクチャ)、パッケージ、そしてプラットホームに至るまで、ほとんど総取り替えと言って良いほどの大きな改良になっている。

　その1番の目玉はCPUのパッケージング技術として、チップレットを採用したことだ。チップレットとは複数のダイをパッケージ上で混載する技術で、第4世代Xeon SPではIntelが自社開発したEMIB(イーミブ、Embedded Multi-die Interconnect Bridge)と呼ばれるチップレット技術が利用されている。EMIBはサブ基板の内部にブリッジ用のチップ(Embedded Silicon Bridge)でチップ同士を接続しており、通常のチップレットなどに比べてより高速にデータ通信を可能にしている。

　第4世代Xeon SPでは、CPUパッケージのサブ基板上に4つのCPUタイル(Intelではチップレットでのダイのことをタイルと呼んでいる)をEMIBで接続する構造になっている。第4世代Xeon SPでは正方形に近いCPUタイルが4つサブ基板上に実装されているのがCPUの実物を見ると見てとれる。

XCC、MCC、XCC(Xeon Maxシリーズ)(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　Intelによれば、この4つのCPUタイルを基板上に実装しているのはXCC(eXtreme Core Count)と呼んでいる構成で、もう1つのMCC(Medium Core Count)は従来と同じモノリシック(単体)なダイになっている。Intelが公表した資料などを基に、XCC、MCCの構造をブロック図にしたものが以下の図になる。

XCC、MCC、XCC(Xeon Maxシリーズ)のブロック図(筆者作成)

　既に述べたとおり、XCCは4つのCPUタイルから構成されており、1つのタイルにはGolden Coveコア(後述するが、第12世代Core、第13世代CoreのPコアとして採用されているCPUのマイクロアーキテクチャ)のCPUが15個あり、それぞれに2チャンネルのDDR5メモリコントローラ、さらに2つのPCI Express Gen 5のコントローラ、1つのUPIコントローラ、そしてHBM2eのメモリコントローラも用意されている(ただし、HBM2eのメモリコントローラはMaxシリーズのみで利用され、通常版の第4世代Xeonでは無効にされている)。

　また、CPUタイル1つにはそれぞれにQAT、DLB、DSA、IAAといったハードウェアアクセラレータが用意されている(ハードウェアアクセラレータに関しては後述する)。

　まとめると、CPUタイル、そしてCPUパッケージ全体でCPUコア、PCI Expressコントローラ、UPIコントローラ、アクセラレータなどをまとめると、以下のような数があることになる。

【表1】CPUタイル1つとXCC全体でのハードウェアの数
	CPUタイル	XCC全体
CPUコア数	15	60
メモリコントローラ	DDR5(2)/HBM(1)	DDR5(8)/HBM(4)
PCI Express Gen 5	2	8
UPI	1	4
QAT	1	4
DLB	1	4
DSA	1	4
IAA	1	4

　CPUタイルそれぞれにメモリコントローラやアクセラレータ、PCI Expressコントローラなどを搭載していることで、それぞれ複数が使えるようになっており、CPUタイル同士をCPUタイル内部とメッシュインターコネクトで接続することで、性能を大きく低下させることなくチップレットの仕組みを実現している。

MCCはアーキテクチャ的には34コア、製品レベルでは32コアという構成に

Xeon Maxシリーズ。4つのタイルの周りに16GBのHBM2eメモリが4つ搭載されている。抵抗などの周辺チップがパッケージに乗り切らないので、耳が飛び出している形になっている

　MCCの方は、32コア以下のSKUで利用され、アーキテクチャ的には34コアのCPUが用意されている。しかし、MCCで最上位構成のSKUは32コアで、2コアは標準状態で無効になっている。8チャンネルDDR5メモリコントーラという仕様は同じだが、PCI Express Gen 5コントローラは6つとXCCに比べて2つ少ないことになる。

　また、アクセラレータは、XCCではCPUタイル1つに4種類のアクセラレータが搭載されており、それぞれが4つ搭載されていた。MCCではQATとDLBが2つあることになっており、DSAとIAAについては1つとなっている。

　こうしたMCCの構成を見ていると、同じ30コア前後の構成であれば、XCCに採用されているCPUタイルを2つ利用して30コア製品としてMCCにすれば良いのではと考えたくなるだろう。しかし、その場合CPUタイル1つにはメモリコントローラは2チャンネルしかないので、CPUタイル2つではメモリは4チャンネルになってしまい、データセンター向けCPUとしてはメモリ帯域が十分ではなくなってしまう。

　これを避けるためには、AMDがEPYCで採用しているように、メモリコントローラは別ダイにしてCPUと分離しないといけなくなるだろう。今回のXCCではそのデザインを採用しなかったので、MCCをモノリシックのダイにしたのは論理的な選択といえる。

　Xeon Maxシリーズは、既に11月に概要が発表されている通り、第4世代Xeon SPに、64GBのHBM2eメモリを追加したバージョンになる(このため、Sapphire Rapids with High Bandwidth Memoryと別の開発コードネームが与えられてきた)。

Xeon Maxのパッケージ、同じLGA4677

　Xeon MaxではCPUコアは最大56コアになり、標準状態で4つのコアが無効にされているほか、アクセラレータはDSAのみが有効にされておりｍQATなどほかの3つは無効にされている。

CPUはGolden Coveに強化されSTで15%性能向上、AMXに対応したAI推論性能が大幅アップ

第3世代Xeon SP(Sunny Cove)と第4世代Xeon(Golden Cove)の比較。第4世代ではIPCが15%向上している(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　CPUコアは、クライアントPC向けの第12世代/第13世代CoreのPコアで採用されているGolden Coveコアになっている。前世代となる第3世代Xeon SP(Ice Lake-SP)ではCoveシリーズの最初の世代となるSunny Coveから、クライアントPC向けでいえば2世代進化したことになる。

　採用されているGolden Coveは第12世代Core向けのL2キャッシュが1.25MB版ではなく、第13世代Coreに採用されているL2キャッシュが2MBになっているバージョンになっている(クライアントPCではそれをRaptor Coveと呼んでいる)。

　Golden Coveでは、Sunny Coveに比べるとフロントエンド(デコーダや分岐予測など)が大きく強化されているほか、L2キャッシュもL3キャッシュも増やされており、世代間のIPC(Instruction Per Clock-cycle、1周波数あたりに実行できる命令数のこと、数字が大きければ大きいほどCPUの実行効率が良いことを意味する)が15%向上している。つまり、シングルスレッドで処理を行なうと15%性能が向上するということを意味する。

　それと同時に、ソケット1つあたりのCPUコア数が増えている。第3世代Xeon SPではモノリシックダイだったため、1ソケットで40コアが最大構成になっていた。それに対して第4世代Xeon SPのXCCでは最大60コアになっており、CPUコア数が約1.5倍になっている。それにより、1ソケットあたりのマルチスレッド性能も向上している。

AMXおよびAdvanced Vector Extensions for vRANという新命令セットに対応(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　また、第4世代Xeon SPではx86の拡張命令セットとして2つの拡張命令セットが追加されている。1つはAMX(Advanced Matrix eXtensions)で、AMXはCPUに搭載された新しい演算器「TMUL(Tile Matrix multiply Unit)」を利用して効率よく行列演算を行なう仕組みになる。こうした拡張命令は、最近のAI推論処理を行なうプロセッサー(CPU/GPU)で搭載されることがトレンドになっていて、AMXもそうした拡張命令の1つと考えてよい。

　AMXに対応したCPUでは、2つのTMULエンジンが内蔵されており、それを利用して行列演算を効率よく行なうことができる。これにより、BF16を利用してAI推論を行う時により高効率で演算することができる。

　また、AVX512の拡張として用意される「Advanced Vector Extensions for vRAN」は、5GのRAN(Radio Access Network)を汎用プロセッサで構築するアプリケーション(vRAN)に利用する場合に、FP16を利用して複雑な乗算をAVX512で行なうことが可能になる。Advanced Vector Extensions for vRANではAVX512に42の新しい命令が追加され、FP16の演算時のスループットが2倍になり、vRANの性能を大きく引き上げることができる。

QAT、DLB、DSA、IAAという4つの種類のHWアクセラレータをそれぞれ4つ搭載

4つのハードウェアアクセラレータに対応(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　第4世代Xeon SPではそうした追加の拡張命令だけでなく、4つのハードウェアアクセラレータがCPUタイル(XCC)、CPUダイ(MCC)に統合されている。具体的にはQAT、DLB、DSA、IAAの4つになる。

QAT(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　QATはもともと初代Xeon SPの世代で暗号化/復号化のアクセラレータとしてチップセット側に統合されたアクセセラレータだが、今回の第4世代Xeon SPではそれがCPU側に統合されている。

DLB(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

DSA(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

IAA(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　DLBは、CPUにデータを読み込んで処理する際に、データを実行効率の良い順序に並べ替えてキューに入れて実行するためのアクセラレータになる。それによりCPUに負荷をかけることなく順序を入れ替えることができるので、CPUの利用効率を上げることができる。

　DSAはメモリにデータを書き込む際に、その書き込みをDSAにより最適化することで、より効率よくメモリに書き込むことが可能になる。IAAは圧縮、解凍、スキャン/フィルタという3つのエンジンを内蔵しており、データを圧縮して読み込むことでメモリの帯域を節約することを可能にする。

Optimized Power Mode(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　こうしたアクセラレータはそれぞれCPUにかかる負荷をオフロードすることを目的としており、CPUのリソースを演算にだけ振り向けることができるだけでなく、CPUの電力効率を改善することを可能にする。さらに、「Optimized Power Mode」という電力効率優先のモードが用意されており、マザーボードのBIOS設定で有効にすることができ、5%程度の性能低下と引き換えに20%消費電力を下げることが可能になっている。

　Intelによれば、こうしたアクセラレータやそうした電力効率優先モードを活用することで、電力効率は前世代に比べて2.9倍改善しているということだ。

　XCCではこうしたアクセラレータがCPUタイルに1つずつ搭載される。このため、4つのタイルから構成されるソケット全体でそれぞれ4つのアクセラレータが搭載されていることになる。ただし、すべてのSKUでこうしたアクセラレータが有効になっているのかと言えばそうではなく、例えば最上位SKUとなるXeon Platinum 8490Hでは4種類4つ(合計16個)のアクセラレータすべてが有効になっているが、ほかのSKUでは4種類1つずつ(合計4つ)のアクセラレータが有効になっているなど、どの種類のアクセラレータと何個が使えるかはSKUに依存する(後述するSKU表を参照)。

　Intelは今回の第4世代Xeon SPで新しい仕組みとして「Intel OnDemand」が導入される。これは、CPUに対して専用APIを介して無効になっているアクセラレータやCPUコアなどを有効にする仕組みで、OEMベンダーやCSPなどを経由して提供される有料サービスだ。

　Intel OnDemandに対応したSKUだけで有効だが、ユーザーにすれば購入後にアクセラレータやCPUコアが追加で必要になった場合に購入することができる。購入後に機能を拡張できる仕組みはユニークで、CPUを交換しなくても機能を拡張できることは、OEMベンダーやCSPにとっても新しいビジネスとなる可能性を秘めている。

CPUソケットはLGA4189に、DDR5メモリ、80レーンのPCI Express Gen 5/CXL 1.1に対応

第4世代Xeon SPでは1つの製品で1ソケットから8ソケットまでカバーする(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　今回の第4世代Xeon SPでは、プラットホーム側も大きな拡張が入る。CPUソケットは従来のSocket P+(LGA4189)に代わって、Socket E(LGA4677)が導入される。ソケットが変更されるのは、PCI Expressのレーン数の増加やDDR5という新しいメモリに対応するためで、ピン数が違うことからも分かるように、ソケットの互換性はない。なお、チップセットも強化されており、新しくC741がチップセットとして提供される。

　第3世代Xeon SPでは、1-2ソケットが開発コードネームIce Lake-SP、4-8ソケットが開発コードネームCooper Lakeと2つのラインアップに分割されていたが、第4世代Xeonでは1ソケットから8ソケットまで1つの製品でサポートすることができる。これはXCCでUPIが3つから4つに増やされ、新しい接続トポロジーが導入されたからだ。なお、UPIは第3世代Xeon SPでの12GT/sから転送速度は引き上げられて、16GT/sと強化されている。

　UPIが4コントローラなのはXCCだけあり、MCCは3コントローラであるため4ソケットまでの対応となる。XCCでも8ソケットで利用する場合には、8ソケットまでをサポートするSKUを選ぶ必要がある。

【表2】Xeonのプラットホームの変遷(筆者作成)
ブランド名	Xeon 5600番台	Xeon E5	Xeon E5 v2	Xeon E5 v3	Xeon E5 v4	Xeon SP	第2世代Xeon SP	第3世代Xeon SP(4-8S)	第3世代Xeon SP(1-2S)	第4世代Xeon SP
開発コードネーム	Westmere-EP	Sandy Bridge-EP	Ivy Bridge-EP	Haswell-EP	Broadwell-EP	Skylake-SP	Cascade Lake-SP	Cooper Lake	Ice Lake	Sapphire Rapids
リリース年	2010年	2012年	2013年	2014年	2016年	2017年	2019年	2020年	2021年	2023年
製造プロセスルール	32nm	32nm	22nm	22nm	14nm	14nm	14nm	14nm	10nm	Intel 7(10nm Enhanced Superfin)
CPUコア(ソケットあたり最大)	6	8	12	18	22	28	56	28	40	60
ダイ構成(HCC、MCC、LCC)	6	8	15、10、6	18、12、8	24、15、10	28、18、10	28、18、10	28、18、10	非公表	60、32、LCCなし
パッケージあたりのダイ数	1	1	1	1	1	1	1(パッケージ)/2(BGA)	1	1	4(HCC版)/1(MCC)
L2キャッシュ(コアあたり)	256KB	256KB	256KB	256KB	256KB	1MB	1MB	1MB	1.25MB	2MB
LLCキャッシュ(コアあたり)	2MB	2.5MB	2.5MB	2.5MB	2.5MB	1.375MB	1.375MB	1.375MB	1.5MB	1.875MB
LLCキャッシュ(ダイあたり最大)	12MB	20MB	30MB/20MB/15MB	45MB/30MB/20MB	55MB/37.5MB/25MB	38.5MB/24.75MB/13.75MB	38.5MB/24.75MB/13.75MB	38.5MB/24.75MB/13.75MB	最大60MB	最大112.5
コアマイクロアーキテクチャ	Nehalem世代	Sandy Bridge世代	Sandy Bridge世代(改良版)	Haswell世代	Haswell世代(改良版)	Skylake世代	Skylake世代	Skylake世代	Sunny Cove	Golden Cove
コア間インターコネクト	–	リング	リング	リング	リング	メッシュ	メッシュ	メッシュ	メッシュ	メッシュ
CPUソケット	Socket B(LGA1366)	Socket R(LGA2011)	Socket R(LGA2011)	Socket R3(LGA2011v3)	Socket R3(LGA2011v3)	Socket P(LGA3647)	Socket P(LGA3647)/BGA(5903ball、2ダイ構成)	Socket P+(LGA4189)	Socket P+(LGA4189)	Socket E(LGA4677)
最大ソケット	2	2	2	2	2	2/4/8	2/4/8	4/8	2	2/4/8
最大メモリ容量(ソケットあたり)	288GB	384GB	768GB	1.5TB	1.5TB	1.5TB	4.5TB(Optane DCPM利用時)	4.5TB(Optane DCPM利用時)	4TB(DDRのみ)/6TB(DDR＋Optane)	4TB(DDR5)/6TB(DDR＋Optane)
メモリ	DDR3-1333	DDR3-1600	DDR3-1866	DDR4-2133	DDR4-2400	DDR4-2666	DDR4-2933	DDR4-3200	DDR4-3200	DDR5-4800(1DPC)/4400(2DPC)
Optane DC Persistent Memory対応	–	–	–	–	–	–	○	○(200シリーズ)	○(200シリーズ)	○(300シリーズ)
メモリチャネル数(CPUソケットあたり)	3	4	4	4	4	6	6/12	6	8	8
拡張命令：AVX	－	－	AVX	AVX2	AVX2/TSX	AVX512	AVX512 /w Intel DL Boost(VNNI)	AVX512 /w Intel DL Boost(VNNI)	AVX512 /w Intel DL Boost(VNNI)	AVX512 /w Intel DL Boost(VNNI)
拡張命令：AMX	－	－	－	－	－	－	－	－	－	対応
QPI/UPI(ダイあたり)	2x最大6.4GT/s	2x最大8GT/s	2x最大8GT/s	2x最大9.6GT/s	2x最大9.6GT/s	3x最大10.4GT/s	3x最大10.4GT/s	6x最大10.4GT/s	3x最大11.2GT/s	4x最大16GT/s
PCI Express(CPU側)	PCI Express Gen2(チップセット側)	PCI Express Gen 3	PCI Express Gen 3	PCI Express Gen 3	PCI Express Gen 3	PCI Express Gen 3	PCI Express Gen 3	PCI Express Gen 3	PCI Express Gen 4	PCI Express Gen 5
PCI Expressレーン数(CPU側/ソケットあたり)	36(チップセット側)	40	40	40	40	64(MCC/LCCは48)	48	48	64	80
CXL	－	－	－	－	－	－	－	－	－	1.1(最大4デバイス)
DMI	－	DMI/Gen2(4レーン)	DMI/Gen2(4レーン)	DMI/Gen2(4レーン)	DMI/Gen2(4レーン)	DMI/Gen3(4レーン)	DMI/Gen3(4レーン)	DMI/Gen3(4レーン)	DMI/Gen3(4レーン)	DMI/Gen4(8レーン)
チップセット	5500(Tyrusburg)	C600(Patsburg)	C600(Patsburg)	C610(Wellsburg)	C610(Wellsburg)	C620(Lewisburg)	C620(Lewisburg)	C620A(Lewisburg R)	C620A(Lewisburg R)	C741

プラットホームの機能(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　メモリはDDR5に変更されている。メモリチャンネルは第3世代Xeon SPと同じ8チャンネルで、1DPC(1DIMM per Channel)であればDDR5-4800、2DPCであればDDR5-4400で利用することができる。256GBのDDR5のR-DIMMを2DPCで利用した場合、1ソケットあたり最大4TBのメモリを実装することができる。

　なお、既にIntelはビジネスのクローズを明らかにしているOptane Persistent Memoryも引き続きサポートされており、最新のOptane Persistent Memory 300シリーズを利用することができる。DDR5とOptaneを組み合わせた場合は1ソケットあたり最大6TBのメモリ容量を利用することができる。

　PCI ExpressはGen 5に強化され、最大80レーンを利用することができる。PCI Expressにコヒーレントの機能を追加したCXL(Compute eXpress Link)のバージョン1.1にも対応しており、Type1とType2デバイスを最大4デバイスまで利用することができる。

TDPは最大350Wに引き上げられる、真価を発揮するにはAMX/HWアクセラレータへの対応が必須

第4世代Xeon SP、左が通常のXeon SP、右がHBM2eのXeon Max。実際にはこういう2ソケットの構成はなく、あくまで展示用

　今回発表された第4世代Xeon SPのSKU構成と価格(参考価格、税別)は以下のようになっている

【表3】SKUと価格(Intelの資料より筆者作成)
対象市場	シリーズ	SKU	コア数	ベースクロック(GHz)	ターボ時最大クロック(マルチコア/GHz)	ターボ時最大クロック(シングルコア/GHz)	L3キャッシュ(MB)	TDP(W)	最大ソケット数	DDR5速度	UPIリンク数	DSA	QAT	DLB	IAA	SGX Enclave容量(GB)	Intel OnDemand対応	ダイ	奨励顧客価格(RCP/米ドル)
2Sパフォーマンス汎用	Platinum	8480+	56	2	3	3.8	105	350	2	4800	4	1	1	1	1	512	○	XCC	10710
	Platinum	8470	52	2	3	3.8	105	350	2	4800	4	1	0	0	0	512	○	XCC	9359
	Platinum	8468	48	2.1	3.1	3.8	105	350	2	4800	4	1	0	0	0	512	○	XCC	7214
	Platinum	8486Y+	40	2	2.8	3.7	105	300	2	4800	4	1	1	1	1	128	○	XCC	5558
	Platinum	8462Y+	32	2.8	3.6	4.1	60	300	2	4800	3	1	1	1	1	128	○	XCC	5945
	Gold	6448Y	32	2.1	3	4.1	60	225	2	4800	3	1	0	0	0	128	○	MCC	3583
	Gold	6442Y	24	2.6	3.3	4	60	225	2	4800	3	1	0	0	0	128	○	MCC	2878
	Gold	6444Y	16	3.6	4	4.1	45	270	2	4800	3	1	0	0	0	128	○	MCC	3622
	Gold	6426Y	16	2.3	3.3	4.1	37.5	185	2	4800	3	1	0	0	0	128	○	MCC	1517
	Gold	6434	8	3.7	4.1	4.1	22.5	195	2	4800	3	1	0	0	0	128	○	MCC	2607
	Gold	5415+	8	2.9	3.6	4.1	22.5	150	2	4400	3	1	1	1	1	128	○	MCC	1066
2Sメインストリーム汎用	Platinum	8452Y	36	2	2.8	3.2	67.5	300	2	4800	4	1	0	0	0	128	○	XCC	3995
	Gold	6438Y+	32	2	2.8	4	60	205	2	4800	3	1	1	1	1	128	○	MCC	3141
	Gold	6430	32	2.1	2.6	3.4	60	270	2	4400	3	1	0	0	0	128	○	XCC	2128
	Gold	5420+	28	2	2.7	4.1	52.5	205	2	4400	3	1	1	1	1	128	○	MCC	1848
	Gold	5418Y	24	2	2.8	3.8	45	185	2	4400	3	1	0	0	0	128	○	MCC	1483
	Silver	4416+	20	2	2.9	3.9	37.5	165	2	4400	2	1	1	1	1	64	○	MCC	1176
	Silver	4410Y	12	2	2.8	3.9	30	150	2	4000	2	1	0	0	0	64	○	MCC	563
液冷汎用	Platinum	8470Q	52	2.1	3.2	3.8	105	350	2	4800	4	1	0	0	0	512	○	XCC	9410
液冷汎用	Gold	6458Q	32	3.1	4	4	60	350	2	4800	3	1	0	0	0	128	○	MCC	6416
1S汎用	Gold	6414U	32	2	2.6	3.4	60	250	1	4800	0	1	0	0	0	512	○	XCC	2296
	Gold	5412U	24	2.1	2.9	3.9	45	185	1	4400	0	1	0	0	0	128	○	MCC	1113
	Bronze	3408J	8	1.8	1.9	1.9	22.5	125	1	4400	0	1	0	0	0	64	－	MCC	415
長寿命(IOT)汎用	Silver	4410T	10	2.7	3.4	4	26.25	150	2	4000	2	1	0	0	0	64	○	MCC	624
IMDB/アナリティクス/仮想化最適(ソケット拡張可能)	Platinum	8490H	60	1.9	2.9	3.5	112.5	350	8	4800	4	4	4	4	4	512	－	XCC	17000
	Platinum	8468H	48	2.1	3	3.8	105	330	8	4800	4	4	4	4	4	512	－	XCC	13923
	Platinum	8460H	40	2.2	3.1	3.8	105	330	8	4800	4	4	0	0	4	512	－	XCC	10710
	Platinum	8454H	32	2.1	2.7	3.4	82.5	270	8	4800	4	4	4	4	4	512	－	XCC	6450
	Platinum	8450H	28	2	2.6	3.5	75	250	8	4800	4	4	0	0	4	512	－	XCC	4708
	Platinum	8444H	16	2.9	3.2	4	45	270	8	4800	4	4	0	0	4	512	－	XCC	4234
	Gold	6448H	32	2.4	3.2	4.1	60	250	4	4800	3	1	2	2	1	512	－	MCC	3658
	Gold	6418H	24	2.1	2.9	4	60	185	4	4800	3	1	0	0	1	512	－	MCC	2065
	Gold	6416H	18	2.2	2.9	4.2	45	165	4	4800	3	1	0	0	1	512	－	MCC	1444
	Gold	6434H	8	3.7	4.1	4.1	22.5	195	4	4800	3	1	0	0	1	512	－	MCC	3070
5G/ネットワーキング最適	Platinum	8470N	52	1.7	2.7	3.6	97.5	300	2	4800	4	4	4	4	0	128	○	XCC	9520
	Platinum	8471N	52	1.8	2.8	3.6	97.5	300	1	4800	4	4	4	4	0	128	○	XCC	5171
	Gold	6438N	32	2	2.7	3.6	60	205	2	4800	3	1	2	2	0	128	○	MCC	3351
	Gold	6428N	32	1.8	2.5	3.8	60	185	2	4000	3	1	2	2	0	128	○	MCC	3200
	Gold	6412N	32	1.8	2.6	3.6	60	185	1	4400	3	1	2	2	0	128	○	MCC	2368
	Gold	5418N	24	1.8	2.6	3.8	45	165	2	4000	3	1	2	2	0	128	○	MCC	1664
	Gold	5411N	24	1.9	2.8	3.9	45	165	1	4400	3	1	2	2	0	128	○	MCC	1232
クラウド最適化(IaaS -P/SaaS -V/Media ｰM)	Platinum	8468V	48	2.4	2.9	3.8	97.5	330	2	4800	3	1	1	1	1	128	○	XCC	7121
	Platinum	8458P	44	2.7	3.2	3.8	82.5	350	2	4800	3	1	1	1	1	512	○	XCC	6759
	Platinum	8461V	48	2.2	2.8	3.7	97.5	300	1	4800	0	1	1	1	1	128	○	XCC	4491
	Gold	6438M	32	2.2	2.8	3.9	60	205	2	4800	3	1	0	0	2	128	○	MCC	3273
ストレージ/HCI最適化	Gold	6454S	32	2.2	2.8	3.4	60	270	2	4800	4	4	4	4	0	128	○	XCC	3157
ストレージ/HCI最適化	Gold	5416S	16	2	2.8	4	30	150	2	4400	3	1	2	2	0	128	○	MCC	944
HPC	Max	9480	56	1.9	2.6	3.5	112.5	350	2	4800	4	4	0	0	0	512	－	XCC	12980
	Max	9470	52	2	2.7	3.5	105	350	2	4800	4	4	0	0	0	512	－	XCC	11590
	Max	9468	48	2.1	2.6	3.5	105	350	2	4800	4	4	0	0	0	512	－	XCC	9900
	Max	9460	40	2.2	2.7	3.5	97.5	350	2	4800	3	4	0	0	0	128	－	XCC	8750
	Max	9462	32	2.7	3.1	3.5	75	350	2	4800	3	4	0	0	0	128	－	XCC	7995

　今回の第4世代Xeon SPからIntelはSKU構成を、ターゲット市場別にして提供することにしている。2Sパフォーマンス汎用、2Sメインストリーム汎用、液冷汎用、1ソケット汎用、長寿命(IOT)汎用、IMDB/アナリティクス/仮想化最適(ソケット拡張可能)、5G/ネットワーキング最適、クラウド最適化、ストレージ/HCI最適化、HPC(Xeon Maxシリーズ)などのターゲット市場に向けてSKUが用意されている。

　注意したいのはTDPで、従来の第3世代Xeon SPでは最大270Wになっていたが、第4世代Xeon SPではそれが最大350Wに拡張されている。こうした傾向にあるのは第4世代Xeonだけでなく、競合となるAMDの第4世代EPYCも、最上位SKUでは標準で360W、cTDPでは400Wが可能になっており、それだけのTDPの電力量で発生する熱を確実に放熱すると考えると、従来のヒートシンク＋ファンという空冷では十分ではない可能性が高い。

　このため、OEMメーカーはヒートシンクをより大型にして、ファンの数を増やして対応するというところが多い。場合によっては液冷、液浸(専用の油に漬けてシステム全体で冷やす冷却方法)などのさらに高効率な冷却システムを検討する場合も出てくるだろう。

　最後に第4世代Xeon SPの性能について説明しておきたい。Intelが公表した第3世代Xeon SPと第4世代Xeon SPとの比較データは以下の通りだ。

Intelが公開した第3世代Xeon SPを基準とした時の第4世代Xeon SPの性能(出典：4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

　データベースやWeb、メディアなどではおおむね1.5～2倍程度の性能を発揮し、大きな性能向上が発揮されているのはインメモリデータベースのRockDBの2.93倍などで、この場合にはIAAアクセラレータを有効にした結果2.93倍という結果が得られていると考えることができる。同じことはAI推論のSSD-RN34(RT推論/BF16)の10倍という結果も同様で、こちらはAMXでBF16を利用して演算した場合の結果になっている。

　こうした結果からも分かるように、第4世代Xeonの真価を発揮させるにはAMXなどの新しい拡張命令やハードウェアアクセラレータをソフトウェアが利用できるようにする必要がある。IntelはISV(独立系ソフトウェアベンダー)に対して、AMXやハードウェアアクセラレータを利用できる開発キットを合わせて提供している。第4世代Xeon SPの導入を検討しているのなら、同時に利用しているソフトウェアがAMXやQAT/DLB/DSA/IAAなどのアクセラレータに対応しているかどうかをチェックしておくと良いだろう。

Source