AMDは、3月22日(現地時間)に報道発表を行ない、同社が2021年11月に発表したCDNA 2アーキテクチャ採用HPC/AI用アクセラレータ「AMD Instinct MI200シリーズ」(以下Instinct MI200シリーズ)の最新製品となる「Instinct MI210 アクセラレータ」(以下MI210)を発表し、同日より出荷開始したことを明らかにした。
Instinct MI200シリーズは、2021年11月の発表時点ではデータセンター向けのモジュール(OAM)に、パッケージレベルでGPUダイが2つ搭載されているInstinct MI250X(以下MI250X)、Instinct MI250(以下MI250)の2製品が正式に発表され投入されていた。今回追加モデルとして発表されたMI210は、GPUがシングルダイとなり、形状がPCI Expressの拡張カード形式になっている。
倍精度の浮動小数点演算(FP64)と単精度の浮動小数点演算(FP32)で最大22.6TFLOPS、FP64とFP32の行列演算時に最大45.3TFLOPS、半精度の浮動小数点演算(FP16)とBfloat16は最大181TFLOPS、INT8は181TOPSというピーク性能を実現している。
シリーズ最新製品のMI210はシングルダイでPCI Expressカード形状に
AMDが今回発表したMI200は、Instinct MI200シリーズの新しいSKUとなる。11月の発表時にはMI250XとMI250という2つのSKUが投入されており、CDNA 2アーキテクチャのGPUダイが2つパッケージ上に実装されており、パッケージ上でダイとダイがInfinity Fabricで接続されることで、高い処理能力を実現していた。
それに対して今回発表されたMI210は、GPUがシングルダイになっており、コンピュートユニットの数はMI250の208CUの半分となる104CUとなっている。
MI210 | MI250 | MI250X | |
---|---|---|---|
コンピュートユニット | 104 | 208 | 220 |
ストリームプロセッサ | 6,656 | 13,312 | 14,080 |
FP64/FP32(Vector) | 最大22.6TFLOPS | 最大45.3TFLOPS | 最大47.9TFLOPS |
FP64/FP32(Matrix) | 最大45.3TFLOPS | 最大90.5TFLOPS | 最大95.7TFLOPS |
FP16/Bfloat16 | 最大181TFLOPS | 最大362.1TFLOPS | 最大383TFLOPS |
INT8 | 最大181TOPS | 最大362.1TOPS | 最大383TOPS |
メモリ容量(種類) | 64GB(HBM2e) | 128GB(HBM2e) | 128GB(HBM2e) |
帯域幅 | 1.6TB/秒 | 3.2TB/秒 | 3.2TB/秒 |
フォームファクタ | PCIe | OAM | OAM |
TDP | 300W | 500W(空冷)/560W(水冷) | 500W(空冷)/560W(水冷) |
MI250XとMI250は、いずれもOAM(OCP Accelerator Module)と呼ばれる形状を採用。基板に対して平行に装着されるモジュール形状で、データセンター向けのブレードサーバーに最初から実装されることを前提としたものとなっていた。
それに対してMI210は、PCI Expressの拡張カード形状になっており、サーバーブレードに用意されているPCI Express x16のスロットに挿して利用する形となる。
カード上部には2ウェイないしは4ウェイのInfinity Fabricのブリッジコネクタが用意されており、最大3ポートでカード同士を接続することで、PCI Expressよりも高速で広帯域なInfinity Fabricを利用することが可能になる。また、仮想化技術であるSR-IOVにも対応しており、AMDのEPYCと組み合わせると、VMWareなどにおいてGPUをパススルーで仮想マシンから利用することができる。
なお、PCI ExpressはGen 4に対応しており、メインメモリは64GBのHBM2eで、メモリ帯域は上位モデルの半分となる1.6TB/秒となっている。
ピーク時の性能は、倍精度の浮動小数点演算(FP64)と単精度の浮動小数点演算(FP32)が最大22.6TFLOPS、行列演算利用時にはそれぞれ最大45.3TFLOPSとなる。また、半精度の浮動小数点演算(FP16)とBfloat16は最大181TFLOPS、INT8は181TOPSとなる。
AMDによれば、MI210とNVIDIAのPCI Expressカード形状のA100(40GB)とベンチマークで比較した場合、MI210がAMGで2.1倍(Setup)と1.4倍(Solve)、HPLで1.8倍、NBODY-64で1.4倍、NBODY-32で1.3倍、Quicksilverで1.7倍となっているという。さらに実アプリケーションでの比較の場合、OpenMMで2.1倍、LAMMPSで1.8倍、Relionで1.7倍の性能が発揮できると説明している。
MI210はすでに出荷が開始されており、ASUS、Atos、Dell Technologies、GIGABYTE、HPE、Lenovo、SupermicroなどのOEM/ODMメーカーなどから提供される予定。これらのパートナー企業は以前よりも増えており、取り扱いのベンダーが増加傾向にあるとAMDは説明している。
コメント