IEEEがAIモデル開発に提言「2倍のパラメーターで性能も2倍になるとは限らない」 

INTERNET Watch

 IEEEは3月28日、AIモデルがどこまで巨大化するのかについての提言を発表した。注目を集めるChatGPTなどの大規模言語モデルの急速な発展を受け、AIモデルはどこまで巨大化するのか、という疑問について考察した内容となっている。

パラメーター数が増えるほど、トレーニングのコストは急激に上昇する

 提言ではまず、AIモデルのサイズの測り方について、「モデルのトレーニングに使用されるデータ量」と、「モデルに含まれるパラメーター数」の2通りがあるとする。

 例えば、ChatGPTの前身であるGPT-3は、約45TBのテキストデータでトレーニングされ、1750億以上のパラメーターを持つという。ほかのAIモデルはさらに巨大化し、大手企業が開発中のモデルの中には、1兆6000億を超えるパラメーターを持つものもあると言われているという。

 パラメーターの数は出力の種類の豊富さに影響を与え、トレーニングするデータが多いほど、多くの種類のモデルでパフォーマンスが向上する。パラメーターの数と、トレーニングデータのサイズの関係について、提言では「開発者は10冊の本で非常に大きなモデルを訓練しても、1000冊の本で小さなモデルを訓練しても、同様のパフォーマンスを得ることができるでしょう」と例えている。

 パフォーマンスを期待して大規模なモデルを開発するなら、相応にトレーニングするデータも求められ、そのためのコストが急激に上昇する。それだけでなく、バイアスなどの問題の監査することなどもはるかに困難になると、IEEEのシニアメンバーであるエレノア・ネル・ワトソン氏はコメントしている。また、トレーニングするデータは量が多ければいいというわけではない。例えば、無意味なツイート10TBよりも事実に基づく情報1TBの方が、役立つ可能性があるという。

動作環境と良質なデータに加え、躍進の価値となった要素は何か?

 研究者の指摘によると、AIモデルのパラメーター数を2倍にしても、性能が2倍になるとは限らない。しかし、コストや時間、およびコンピューティングリソースは何倍にも増加する可能性がある。トレーニングに使用するデータ量を増やすことで性能を上げられる可能性があるが、一定の性能を達成するために必要なデータの量は不明で、そもそも、定量が存在するのかも不明だとする。

 では、AIモデルがこの数カ月で大きく躍進した理由は何か? それに対し、先述のワトソン氏は、パラメーター数の増加、データのより効果的な利用、トレーニング技術の向上など、複数の要因が重なった結果だと見ているという。

 ChatGPTの開発に携わるエンジニアは、人間の評価者からのフィードバックに基づいてモデルを継続的に微調整し、改善する「ヒューマンインザループ(human-in-the -loop)」アプローチを重視しており、研究者はAIモデルの効率を改善するために、さまざまな手法に取り組んでいるという。具体的には、より優れたハードウェアやソフトウェアの開発に限らず、テキスト、画像、または映像を組み合わせたマルチモーダルトレーニングデータの使用も含まれるとしている。

 このような状況から、AIモデルのサイズが巨大化する傾向は留まる気配がないとしながらも、参入障壁がかなり高いため、このトレンドに乗っていけるのは少数の大手企業や資金の豊富な研究所だけだろうと、提言は締めくくられている。

Source