Intelは3月30日(現地時間)にオンラインで記者会見を行ない、「Alchemist」(アルケミスト)のコードネームで開発してきたノートPC向け単体GPU「Intel Arc Aシリーズ」を正式発表した。4月から順次市場に投入していく。
Arc Aシリーズは、2020年10月にIntelが22年ぶりに発表した単体GPU「Iris Xe MAX」に次ぐノートPC向けの第2弾製品で、内蔵の実行ユニットなどを大幅に増やしているほか、新しい行列演算用の演算器となるXMXが追加され、さらにハードウェアレイトレーシング専用のエンジンも実装した。
グラフィックス描画時とGPUをAI推論に利用する場合にも大幅に性能が向上しているほか、メディアエンジンも強化されており、GPUとしては初めてAV1のハードウェアエンコーダの機能を搭載していることも特徴となっている。
第2世代Xeアーキテクチャ「Alchemist」、内部の演算器などが大きく強化
今回Intelが発表した「Arc Aシリーズ」は、元々はDG2という開発コードネームで呼ばれていた製品で、昨年コードネームが「Alchemist」に変更された。Intelの単体GPUとしては、2020年の10月に発表された開発コードネーム「DG1」を持つIris Xe MAXに次ぐ第2弾の製品となる。
Iris Xe MAXは、IntelがIntel 740以来22年ぶりに発表した単体GPU製品となり、主にノートPCと一部チャネル向けのアドオンカードとして投入された。
そのアーキテクチャは、第11世代Coreプロセッサ(Tiger Lake)と、第12世代Coreプロセッサ(Alder Lake)に内蔵されている統合型GPUとなる「Xe-LP」と同じ世代のもの。一般的に利用されるLPDDR4xというメモリである点も含めて、第11世代Core、第12世代CoreのGPU部分だけをそっくり抜き出した製品になっていた。
しかし、今回発表されたArc Aシリーズは元々DG2という開発コードネームだったことからも分かるように、DG1の延長線上にある製品だが、もともと単体GPUを意識した設計になっているため、メモリコントローラはGDDR6に対応しているなど、現代のGPUに必要な要素が含まれている。
アーキテクチャ開発コードネーム | Alchemist(DG2から改名) | Xe-LP(内蔵)/DG1(単体) |
---|---|---|
応用製品 | Intel Arc | Iris Xe(第11世代Coreの内蔵GPU)/Iris Xe MAX |
GPU全体のレンダースライス(LPはXeスライス)数 | 8 | 1 |
GPU全体のスライスあたりのXeコア(LPはサブライス)数 | 4 | 6 |
GPU全体のXeコア数 | 32 | 6 |
XVE(LPはEU) | 512 | 96 |
XMX | 512 | – |
ハードウェアレイトレーシングユニット | 32 | – |
Xeメディアエンジン | 2(AV1 HWエンコード対応) | 2 |
ディスプレイエンジン | 4出力(HDMI 2.0b/DP 1.4a/2.0 10G対応) | 4出力(HDMI 2/DP 1.4対応) |
Xeコア(LPはサブスライス)あたりのL1データキャッシュ | 192KB | 非公表 |
ラストレベルキャッシュ(AlchemistはL2/LPはL3) | 16MB | 16MB |
メモリ | GDDR6 | LPDDR4x |
バス幅 | 512bit | 128bit |
製造プロセスルール | TSMC 6N | Intel 10nm SuperFin |
※Intelの資料より筆者作成
最大の強化点は演算器が大幅に増やされていることだ。
IntelのGPUはGPUブロックの大きな方から、レンダースライス(Xe-LP/DG1時代はXeスライスと呼ばれていたが、以下レンダースライスに統一)、Xeコア(Xe-LP.DG1時代はサブスライス)、XVE(Xe Vector Unit、Xe-LP.DG1時代はExecution Unit=EUと呼ばれていた演算器の単位)と内部的に分割されており、Xe-LP/DG1の時代にはレンダースライスが1、Xeコアが6、XVEは96、という構成がGPUの最大スペックになっていた。
それに対してAlchemistでは、レンダースライスが8、Xeコアが32、XVEが512となっており、演算器が大幅に増やされていることが1つの特徴となっている。
新しい演算器やHWレイトレーシングなどを追加、メディアエンジンは初めてAV1のエンコードに対応
Arc Aシリーズでは、Xe-LP/DG1時代にはなかった新しい演算器として、FP16、BF16、INT8、INT4、INT2などのフォーマット・精度での行列演算を扱う1,024ビットのXMXが最大512、さらにはレイトレーシングの処理を行なうハードウェアレイトレーシングユニットが最大32、それぞれ追加されている。
XMXは従来のEU、Alchemist世代ではXVEと呼ばれるベクターエンジンに追加される行列演算器で、FP16/BF16で128Ops/クロック、INT8で256Ops/クロック、INT4/INT2で512Ops/クロックの処理が可能になる。
これはXVEで普通にINT8を処理した場合には16Ops/クロック(DP4A命令を使うと64Ops/クロック)であるのに対して、256Ops/クロックで処理可能。これにより、16倍高速にINT8を処理できるということだ。
最近のAI推論では、FP16やBF16をINT8に精度を落として演算しても正確性にはあまり違いがないことが分かっているため、INT8の演算が多用されており、このXMXの搭載によりAI処理時の性能が大きく高まることになる。
NVIDIAもGeForce RTXでTensorコアと呼ばれる、似たような行列演算用のエンジンを搭載しているが、XMXは機能こそ若干違うものの、目的は同じような演算器と考えると分かりやすいだろう。
ハードウェアレイトレーシングユニットは、DirectX 12 Ultimateでサポートされているレイトレーシングの処理をハードウェアで高速に行なうもので、こちらもAMDやNVIDIAが細心のGPUに搭載しているものと同じようなエンジンと考えると分かりやすいだろう。
また、ビデオエンコーダ/デコーダとなるXeメディアエンジンも強化されている。メディアエンジンはXe-LP/DG1世代と同じく2エンジン構成になっており、今回新たにAV1のハードウェアエンコーダ機能が追加されている(Xe-LP/DG1世代ではAV1はデコードのみが可能になっていた)。
また、ディスプレイエンジンも4パイプ(最大で4つのディスプレイに出力できる)ことは同じだが、内蔵トランスミッタは強化されており、HDMI 2.0bおよびDisplayPort 1.4aとDisplay Port 2.0 10Gに新たに対応している。
メモリも大きな強化点で、Xe-LP/DG1では128bit幅のLPDDR4xに対応していたが、Arc Aシリーズではクライアント向けGPUで一般的に利用されているGDDR6をサポートし、最大で512bit幅でメモリにアクセス可能になっている。
このほかにも、XeコアあたりのL1データキャッシュは192KBに増加され、GPU全体でL2キャッシュに関しては最大16MBという仕様になっている。
ACM-G10とACM-G11という2つのダイバリエーション、XeSSやArc Controlなどのソフトウェアも強化
今回、IntelはArc Aシリーズに向けて2つのダイを設計している。サイズが大きな方のダイがACM-G10、小さな方のダイがACM-G11となる。
ACM-G10はレンダースライスが8、Xeコアが32、XVE/XMXが512、ハードウェアレイトレーシングユニットが32というのが最大構成。
ACM-G11はレンダースライスが2、Xeコアが8、XVE/XMXが128、ハードウェアレイトレーシングユニットが8というのが最大構成になっている。
それぞれ最大構成から、いくつかのレンダーユニットなどを無効にすることで、バリエーション展開している。
ACM-G10 | ACM-G11 | |
---|---|---|
アーキテクチャの開発コードネーム | Alchemist(DG2) | Alchemist(DG2) |
レンダースライス | 8 | 2 |
Xeコア | 32 | 8 |
ダイ全体のXVE/XMX数 | 512 | 128 |
XeコアあたりのL1データキャッシュ | 192KB | 192KB |
ハードウェアレイトレーシングユニット | 32 | 8 |
L2キャッシュ | 16MB | 4MB |
メモリ | GDDR6(256bit) | GDDR6(96bit) |
PCI Express Gen 4 | 16レーン | 8レーン |
Xeメディアエンジン | 2 | 2 |
Xeディスプレイパイプ | 4 | 4 |
トランジスタ数 | 217億 | 72億 |
製造プロセスルール | 6N(TSMC) | 6N(TSMC) |
ダイサイズ | 406平方mm | 157平方mm |
※Intelの資料より筆者作成
いずれのダイもTSMCの6nm(6N)ノードで生産され、前者はダイサイズ/トランジスタ数が406平方mm/217億、後者は157平方mm/72億となっており、大きな方のダイとなるACM-G10は、競合GPUメーカーが製造するクライアント向けGPUのダイサイズと同じように巨大なダイとなっている。
ソフトウェア面でも強化が図られており、従来は「インテル・グラフィックス・コマンド・センター」として提供されてきたGPUの設定アプリは「Intel Arc Control」という名称に変更され、Intel Arcのドライバアップデートやゲームセッティング、解像度などの設定が行なえるようになる。ドライバアップデートは、全自動で行なったり、スケジューリングしたりと、ユーザーが自分の都合に合わせて設定できる。
Intelは、第10世代Coreプロセッサに内蔵されていたGen 11 GPU以降、GPUドライバのアップデートを、単体GPUのメーカーと同じような頻度でアップデートするようにしており(1カ月に1回ないしは、大きなゲームタイトルがリリースされた時など)、Arc Aシリーズでも同様だ。
なお、第11世代Core、第12世代Coreに内蔵されているXe-LPの内蔵GPUもIntel Arc Controlを利用できるようになる予定だ。
また、Arc Aシリーズでは、XeSS(Xe Super Sampling)という機能がサポートされる。これは簡単に言ってしまえば、1080p(フルHD、1,920×1,080ドット)などの解像度でレンダリングした後、アップスケーリングを1フレームごとに行なうことで、4K(UHD、3,840×2,160)の解像度でゲームをプレイできるという機能だ。
Arc Aシリーズに内蔵されている、XMXのAIによるサンプリング機能を利用することで、レンダリングエンジンには負荷をかけずにアップスケーリングできるため、GPUのレンダリングを行なう負荷はフルHD程度だが、ゲームプレイは4Kの品質でプレイできる。
なお、利用するにはゲーム側の対応が必要になり、すでに仕様などが公開されているため、Intelは今後対応タイトルが増えていく予定だと説明している。
さらに、VESAのAdaptive Syncをサポートしているほか、最新のフレームをできるだけ高速に表示するSpeedSync、2つのフレームをマージしてテアリングを軽減するSmoothSync機能などの独自のテアリング防止機能も用意されている。
Xe-LPやDG1でサポートされていたIntel Deep Linkにも対応している。これは、Intelの第11世代Coreおよび第12世代Coreに内蔵されている内蔵GPUのIris Xeと、Arc Aシリーズが連携して動作するモードだ。
これには、SoCと単体GPUの熱設計の枠を相互に融通し合う機能(Dynamic Power Share)、それぞれに内蔵しているメディアエンコーダの両方を利用してさらに高速でエンコードする機能(Hyper Encode)、またAIの推論を内蔵GPUと外付けGPUに分配して処理することで性能を引き上げる機能(Hyper Compute)などが用意されている(グラフィックスのレンダリングには単体GPUが利用される)。
Arc 7、Arc 5、Arc 3という大きく3つのブランドがありSKUは5つ、まずは下位モデルが4月から提供開始
こうしたArc Aシリーズには、5つのSKUが用意されており、Intelによればスペックは以下のようになっている。
ブランド | Arc 3 | Arc 5 | Arc 7 | ||
---|---|---|---|---|---|
型番 | A350M | A370M | A550M | A730M | A770M |
Xeコア | 6 | 8 | 16 | 24 | 32 |
ハードウェアレイトレーシングユニット | 6 | 8 | 16 | 24 | 32 |
グラフィックス周波数 | 1,150MHz | 1,550MHz | 900MHz | 1,100MHz | 1,650MHz |
メモリ容量 | 4GB | 4GB | 8GB | 12GB | 16GB |
メモリバス幅 | 64bit | 64bit | 128bit | 192bit | 256bit |
グラフィックスパワー | 25~35W | 35~50W | 60~80W | 80~120W | 120~150W |
提供時期 | 4月 | 今夏 |
※Intelの資料より筆者作成
具体的にはArc 7、Arc 5、Arc 3という3つのグレードが用意されており、Arc 7には2つのSKU(A770MとA730M)、Arc 3にも2つのSKU(A370MとA350M)が用意されている。
Xeコアの数やメモリのバス幅などから考えて、Arc 7とArc 5は大きい方のダイであるACM-G10ベースで、Arc 3は小さい方のダイであるACM-G11ベースと考えることができる。
なお、グラフィックス周波数というのは、レンジが広く取られているTDPのうち低い方のTDP時の動作周波数となる。ちなみにTDPとは熱設計消費電力のことで、熱設計時にこれだけの電力が流れている時に発生する熱を放熱できるようにと参照する指標であり、消費電力ではない。
A770Mであれば、TDPは120~150Wがレンジになっており、グラフィックス周波数の1,650MHzはTDP 120W時の動作周波数になる。
従って、OEMメーカーがより高い方のTDPに設定して、より高いクロック周波数で動かすことは可能。その選択はOEMメーカー側に委ねられている。
また、実際にはCPUと同じようにターボブースト機能が働くので、一時的により高いクロックおよび消費電力で動かすことも可能だが、その場合にはノートPCの熱設計(具体的には放熱機構)を強化する必要がある。
Intelが公表したベンチマークデータによれば、第12世代Core(Core i7-1280P)に内蔵されているIris Xeが30~60fps程度でプレイできるAAAタイトルを1080pで動作させると、Arc A370Mは60fpsを大きく超えてプレイできるという(ゲームの設定はMediumかHigh)。
また、Fornite(Medium)、GTA V(Medium)、Rocket League(High)、Valorant(High)の4つは90fpsを超えると説明している。
まず4月にArc 3が提供開始され、OEMメーカーのノートPCに採用される計画。そして今夏にArc 7とArc 5が提供開始される予定。すでに説明した通り、Arc 3はACM-G11ベースで、Arc 7/5はACM-G10ベースと推測されるので、2つのチップが提供開始になる時期の違いと考えることができるだろう。
Arc Aシリーズを搭載したノートPCは、Samsungが2月に発表した「Galaxy Book2 Pro」が、Arc 3搭載版として市場に登場する。その後、Acer、ASUS、Dell、HP、Lenovo、MSIなどの大手PCメーカー、Intel自身のブランドであるIntel NUC、さらには日本のNEC PCなどからも提供される予定という。一番廉価なノートPCは899ドルからとなるようだ。
コメント