AMD、シングルダイでPCIeカード形状のHPC/AI向け「Instinct MI210」。FP64/32で最大45.3TFLOPSを発揮

AMDのInstinct MI210 アクセラレータ。GPUがシングルダイになり、形状がPCI Expressカードになった

　AMDは、3月22日(現地時間)に報道発表を行ない、同社が2021年11月に発表したCDNA 2アーキテクチャ採用HPC/AI用アクセラレータ「AMD Instinct MI200シリーズ」(以下Instinct MI200シリーズ)の最新製品となる「Instinct MI210 アクセラレータ」(以下MI210)を発表し、同日より出荷開始したことを明らかにした。

　Instinct MI200シリーズは、2021年11月の発表時点ではデータセンター向けのモジュール(OAM)に、パッケージレベルでGPUダイが2つ搭載されているInstinct MI250X(以下MI250X)、Instinct MI250(以下MI250)の2製品が正式に発表され投入されていた。今回追加モデルとして発表されたMI210は、GPUがシングルダイとなり、形状がPCI Expressの拡張カード形式になっている。

　倍精度の浮動小数点演算(FP64)と単精度の浮動小数点演算(FP32)で最大22.6TFLOPS、FP64とFP32の行列演算時に最大45.3TFLOPS、半精度の浮動小数点演算(FP16)とBfloat16は最大181TFLOPS、INT8は181TOPSというピーク性能を実現している。

シリーズ最新製品のMI210はシングルダイでPCI Expressカード形状に
1. 共有:
2. 関連

シリーズ最新製品のMI210はシングルダイでPCI Expressカード形状に

MI210の特徴

　AMDが今回発表したMI200は、Instinct MI200シリーズの新しいSKUとなる。11月の発表時にはMI250XとMI250という2つのSKUが投入されており、CDNA 2アーキテクチャのGPUダイが2つパッケージ上に実装されており、パッケージ上でダイとダイがInfinity Fabricで接続されることで、高い処理能力を実現していた。

　それに対して今回発表されたMI210は、GPUがシングルダイになっており、コンピュートユニットの数はMI250の208CUの半分となる104CUとなっている。

3つのAMD Instinct MI200シリーズ

【表1】 MI210、MI250、MI250Xのスペック(AMDの資料より筆者作成)
	MI210	MI250	MI250X
コンピュートユニット	104	208	220
ストリームプロセッサ	6,656	13,312	14,080
FP64/FP32(Vector)	最大22.6TFLOPS	最大45.3TFLOPS	最大47.9TFLOPS
FP64/FP32(Matrix)	最大45.3TFLOPS	最大90.5TFLOPS	最大95.7TFLOPS
FP16/Bfloat16	最大181TFLOPS	最大362.1TFLOPS	最大383TFLOPS
INT8	最大181TOPS	最大362.1TOPS	最大383TOPS
メモリ容量(種類)	64GB(HBM2e)	128GB(HBM2e)	128GB(HBM2e)
帯域幅	1.6TB/秒	3.2TB/秒	3.2TB/秒
フォームファクタ	PCIe	OAM	OAM
TDP	300W	500W(空冷)/560W(水冷)	500W(空冷)/560W(水冷)

　MI250XとMI250は、いずれもOAM(OCP Accelerator Module)と呼ばれる形状を採用。基板に対して平行に装着されるモジュール形状で、データセンター向けのブレードサーバーに最初から実装されることを前提としたものとなっていた。

　それに対してMI210は、PCI Expressの拡張カード形状になっており、サーバーブレードに用意されているPCI Express x16のスロットに挿して利用する形となる。

　カード上部には2ウェイないしは4ウェイのInfinity Fabricのブリッジコネクタが用意されており、最大3ポートでカード同士を接続することで、PCI Expressよりも高速で広帯域なInfinity Fabricを利用することが可能になる。また、仮想化技術であるSR-IOVにも対応しており、AMDのEPYCと組み合わせると、VMWareなどにおいてGPUをパススルーで仮想マシンから利用することができる。

　なお、PCI ExpressはGen 4に対応しており、メインメモリは64GBのHBM2eで、メモリ帯域は上位モデルの半分となる1.6TB/秒となっている。

ピーク時の性能

NVIDIA A100(40GB)との性能比較

　ピーク時の性能は、倍精度の浮動小数点演算(FP64)と単精度の浮動小数点演算(FP32)が最大22.6TFLOPS、行列演算利用時にはそれぞれ最大45.3TFLOPSとなる。また、半精度の浮動小数点演算(FP16)とBfloat16は最大181TFLOPS、INT8は181TOPSとなる。

　AMDによれば、MI210とNVIDIAのPCI Expressカード形状のA100(40GB)とベンチマークで比較した場合、MI210がAMGで2.1倍(Setup)と1.4倍(Solve)、HPLで1.8倍、NBODY-64で1.4倍、NBODY-32で1.3倍、Quicksilverで1.7倍となっているという。さらに実アプリケーションでの比較の場合、OpenMMで2.1倍、LAMMPSで1.8倍、Relionで1.7倍の性能が発揮できると説明している。

従来よりも取り扱いパートナーが増えている

　MI210はすでに出荷が開始されており、ASUS、Atos、Dell Technologies、GIGABYTE、HPE、Lenovo、SupermicroなどのOEM/ODMメーカーなどから提供される予定。これらのパートナー企業は以前よりも増えており、取り扱いのベンダーが増加傾向にあるとAMDは説明している。