AMD、シングルダイでPCIeカード形状のHPC/AI向け「Instinct MI210」。FP64/32で最大45.3TFLOPSを発揮

PC Watch

AMDのInstinct MI210 アクセラレータ。GPUがシングルダイになり、形状がPCI Expressカードになった

 AMDは、3月22日(現地時間)に報道発表を行ない、同社が2021年11月に発表したCDNA 2アーキテクチャ採用HPC/AI用アクセラレータ「AMD Instinct MI200シリーズ」(以下Instinct MI200シリーズ)の最新製品となる「Instinct MI210 アクセラレータ」(以下MI210)を発表し、同日より出荷開始したことを明らかにした。

 Instinct MI200シリーズは、2021年11月の発表時点ではデータセンター向けのモジュール(OAM)に、パッケージレベルでGPUダイが2つ搭載されているInstinct MI250X(以下MI250X)、Instinct MI250(以下MI250)の2製品が正式に発表され投入されていた。今回追加モデルとして発表されたMI210は、GPUがシングルダイとなり、形状がPCI Expressの拡張カード形式になっている。

 倍精度の浮動小数点演算(FP64)と単精度の浮動小数点演算(FP32)で最大22.6TFLOPS、FP64とFP32の行列演算時に最大45.3TFLOPS、半精度の浮動小数点演算(FP16)とBfloat16は最大181TFLOPS、INT8は181TOPSというピーク性能を実現している。

シリーズ最新製品のMI210はシングルダイでPCI Expressカード形状に

MI210の特徴

 AMDが今回発表したMI200は、Instinct MI200シリーズの新しいSKUとなる。11月の発表時にはMI250XとMI250という2つのSKUが投入されており、CDNA 2アーキテクチャのGPUダイが2つパッケージ上に実装されており、パッケージ上でダイとダイがInfinity Fabricで接続されることで、高い処理能力を実現していた。

 それに対して今回発表されたMI210は、GPUがシングルダイになっており、コンピュートユニットの数はMI250の208CUの半分となる104CUとなっている。

3つのAMD Instinct MI200シリーズ

【表1】 MI210、MI250、MI250Xのスペック(AMDの資料より筆者作成)
MI210 MI250 MI250X
コンピュートユニット 104 208 220
ストリームプロセッサ 6,656 13,312 14,080
FP64/FP32(Vector) 最大22.6TFLOPS 最大45.3TFLOPS 最大47.9TFLOPS
FP64/FP32(Matrix) 最大45.3TFLOPS 最大90.5TFLOPS 最大95.7TFLOPS
FP16/Bfloat16 最大181TFLOPS 最大362.1TFLOPS 最大383TFLOPS
INT8 最大181TOPS 最大362.1TOPS 最大383TOPS
メモリ容量(種類) 64GB(HBM2e) 128GB(HBM2e) 128GB(HBM2e)
帯域幅 1.6TB/秒 3.2TB/秒 3.2TB/秒
フォームファクタ PCIe OAM OAM
TDP 300W 500W(空冷)/560W(水冷) 500W(空冷)/560W(水冷)

 MI250XとMI250は、いずれもOAM(OCP Accelerator Module)と呼ばれる形状を採用。基板に対して平行に装着されるモジュール形状で、データセンター向けのブレードサーバーに最初から実装されることを前提としたものとなっていた。

 それに対してMI210は、PCI Expressの拡張カード形状になっており、サーバーブレードに用意されているPCI Express x16のスロットに挿して利用する形となる。

 カード上部には2ウェイないしは4ウェイのInfinity Fabricのブリッジコネクタが用意されており、最大3ポートでカード同士を接続することで、PCI Expressよりも高速で広帯域なInfinity Fabricを利用することが可能になる。また、仮想化技術であるSR-IOVにも対応しており、AMDのEPYCと組み合わせると、VMWareなどにおいてGPUをパススルーで仮想マシンから利用することができる。

 なお、PCI ExpressはGen 4に対応しており、メインメモリは64GBのHBM2eで、メモリ帯域は上位モデルの半分となる1.6TB/秒となっている。

ピーク時の性能

NVIDIA A100(40GB)との性能比較

 ピーク時の性能は、倍精度の浮動小数点演算(FP64)と単精度の浮動小数点演算(FP32)が最大22.6TFLOPS、行列演算利用時にはそれぞれ最大45.3TFLOPSとなる。また、半精度の浮動小数点演算(FP16)とBfloat16は最大181TFLOPS、INT8は181TOPSとなる。

 AMDによれば、MI210とNVIDIAのPCI Expressカード形状のA100(40GB)とベンチマークで比較した場合、MI210がAMGで2.1倍(Setup)と1.4倍(Solve)、HPLで1.8倍、NBODY-64で1.4倍、NBODY-32で1.3倍、Quicksilverで1.7倍となっているという。さらに実アプリケーションでの比較の場合、OpenMMで2.1倍、LAMMPSで1.8倍、Relionで1.7倍の性能が発揮できると説明している。

従来よりも取り扱いパートナーが増えている

 MI210はすでに出荷が開始されており、ASUS、Atos、Dell Technologies、GIGABYTE、HPE、Lenovo、SupermicroなどのOEM/ODMメーカーなどから提供される予定。これらのパートナー企業は以前よりも増えており、取り扱いのベンダーが増加傾向にあるとAMDは説明している。

AMDのInstinct MI210 アクセラレータ

Source

コメント