トランジスタが70%増でも性能が最大4倍になったGeForce RTX 4090のカラクリ

Ada LovelaceことGeForce RTX 40シリーズの特徴

　米NVIDIAは20日(現地時間)、新世代アーキテクチャ「Ada Lovelace」(以下Ada)に基づくGPU「GeForce RTX 40」シリーズを発表した。最上位の「GeForce RTX 4090」は従来のAmpereアーキテクチャの最上位モデル「GeForce RTX 3090 Ti」より少なくとも2倍、最大で4倍も高速だとしており、1世代でこれだけの性能の飛躍が達成できたのに驚く人も少なくはずだ。

　確かにAdaは、製造プロセスが従来のSamsungの8nmプロセスから、TSMCの4nm(カスタム4N)プロセスに進化しており、集積できるトランジスタ数が多くなっている。また、動作クロックの向上に伴う高速化はある。しかしAdaでは新たに工夫を取り入れることで、半導体プロセスの進化に縛られない性能向上を果たしている。CPUにたとえるなら、新命令を実装して特定の処理を高速化するようなイメージである。

AmpereとAda Lovelaceの比較、およびAda Lovelaceの構成

SMレベルで2倍の電力効率を実現

レイトレーシングの進化に追いつかない半導体の進化
1. Shader Execution Reordering
2. Micro-Mesh
今日のゲームは2倍、将来のゲームは4倍以上の性能改善も
1. 共有:
2. 関連

レイトレーシングの進化に追いつかない半導体の進化

　グラフィックスにおける近年のトレンドは間違いなくリアルタイムレイトレーシングだ。2018年のGeForce RTX 20シリーズによるリアルタイムレイトレーシングの導入以来、対応ゲームが増加してきている。

　問題は、最新のゲームではピクセルあたりのレイトレーシング処理は爆発的に増えていることだ。2018年にリリースされた「Battlefield V」では、1ピクセルあたり39回のレイトレーシング処理をしていたのだが、最新の「Cyberpunk 2077」では635回と、処理数は実に16倍にも達する勢いだ。

　一方でトランジスタ数はこの4年間で“わずか”4倍にしかなっていない(Turing世代のGeForce RTX 2080は186億、4090は760億)。グラフィックスは並列処理が可能なのでトランジスタ数を増やせばほぼリニアに性能が向上するが、それでもグラフィックス自体の進化には追いつかないということになる。

1ピクセル出力にかかるレイトレーシングの処理数は4年で16倍に。一方でトランジスタ数はたった4倍にしかなっていない

　そこで、Adaではリアルタイムレイトレーシングを効率よく実行するための仕組みを取り入れることにした。ちなみにいずれもDirectX 12のリアルタイムレイトレーシングAPI「DXR」に準拠しているものの、“拡張”扱いとなっており、ゲーム開発者が対応する必要がある。このため既存のゲームがすぐさま恩恵を受けて高速化されるというわけではない。もっとも、配信でアップデートして対応させることは可能ではある。

Ada Lovelaceにおける新しい要素

Shader Execution Reordering

　Shader Execution Reordering(SER)はレイトレーシングによって並列処理不可能となってしまったシェーディング処理をオンザフライで並べ替えて、シェーダーが並列して効率よく実行できるようにするための拡張である。この機能はゲーム開発者向けに開放され、ゲーム開発者は必要に応じてSERを有効化できるとしている。

Shader Excution Reorderingにより、SMの処理を並列化しやすくする

　NVIDIAよれば、「Cyberpunk 2077」において「Overdrive Mode」と呼ばれるレイトレーシングモードが追加される予定なのだが、SERを使うことで性能が44%向上するという。また、RTX対応のリメイク版としてリリース予定の「Portal with RTX」では29%、全てがシミュレーションによって構築されたゲーム「Racer RTX」では20%の性能向上を実現できるとしている。

Micro-Mesh

　Micro-Meshは、具体的には「Displaced Micro-Mesh」と「Opacity Micro-Map」に分けられる。どちらも生き物や植物といった非常に細かいものの表現を行なう際に有効だ。それぞれ別のSDKとなっており、一方だけもしくは両方同時に利用できる。

　Displaced Micro-Meshは高精細なジオメトリに対して有効な機能。Ampereで高精細なジオメトリに対してレイトレーシングを行なおうとするとBVH(Bounding Volume Hierarchy:階層的バウンディングボリューム)が複雑化してしまい、メモリを消費する要因となっていた。Micro-MeshではシンプルなトライアングルデータをだけBVHに持ち、その1つトライアングルに対して変位マップデータをRTコア内で適用することで後から複雑なジオメトリを実現するものである。

Micro-Meshの概念。BVH内のトライアングルを最小限にし、変位データで後から細かくする

　一方Opacity Micro-Mapは、複雑なジオメトリをトランアングルやマイクロメッシュに効率よくマッピングする機能。たとえば、従来のアルファテクスチャを利用して植物の葉の詳細を再現しようとする場合、非透過である葉の部分までヒットシェーダーを呼び出す必要があったが、Opacity Micro-Mapを使えば葉のエッジ部分だけシェーダー処理すればよくなり、効率が高まる。フォグのような表現でも非常に有効だとしている。

従来のアルファテクスチャで植物の葉といった詳細を再現しようとすると全てに対してヒットシェーダーを呼び出す必要があったが、Opacity Micro-Mapを利用すれば境界部分だけ処理できる

フォグのようなエフェクトでは、極めて有効に作用する

今日のゲームは2倍、将来のゲームは4倍以上の性能改善も

　このようにリアルタイムレイトレーシングの改善と、DLSS 3という新技術により大きな性能向上を果たしたGeForce RTX 40シリーズ。プロセスルールの進化と集積トランジスタ数の増加の効果も合わさって、現行世代最新のGeForce RTX 3090 Tiと比較して、4090では最新タイトルで1.5～2倍程度の性能向上を果たしている(一部はアップデートによるDLSS 3対応を含んでの計算だと思われる)。

　その一方で、SERやMicro-Mesh、DLSS 3といった最新技術をふんだんに盛り込んだ次世代ゲームなら、4倍の性能向上も実現できる。これがNVIDIAが「最大4倍」とする根拠だろう。

GeForce RTX 4090は、将来のゲームで3090 Tiより4倍も高速

　なお、現時点でAda最下位の「GeForce RTX 4080 12GB」でも、3090 Tiと同等以上の性能を発揮できる。4080 12GBの電力は285Wと3090 Tiの450Wと比較しても大幅に低く、電力効率の大幅な改善も確認できる。

　また、ほとんどのeスポーツタイトルで、2,560×1,440ドットの解像度でも300fps超えを実現できるのもGeForce RTX 4090の強み。今後新たなeスポーツスタンダードを築くこととなる。

ほとんどのeスポーツタイトルで300fps超えを実現(1440p環境下)

Founders Editionでは電流も安定化したとしている

Source

レイトレーシングの進化に追いつかない半導体の進化

Shader Execution Reordering

Micro-Mesh

今日のゲームは2倍、将来のゲームは4倍以上の性能改善も

共有:

関連

コメント