AIが予想外の能力を開花させることを「創発(emergent)」と言います。生物学の世界で「創発」とは、大量の物体が1つになって機能する自己組織化や集団行動を意味しますが、人工知能研究の世界では「突然これまで不可能だと思われていたタスクをこなせるようになること」を意味します。昨今の大規模言語モデルを研究する専門家の間で、大規模言語モデルの創発が話題となっています。
Characterizing Emergent Phenomena in Large Language Models – Google AI Blog
https://ai.googleblog.com/2022/11/characterizing-emergent-phenomena-in.html
The Unpredictable Abilities Emerging From Large AI Models | Quanta Magazine
https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/
大規模言語モデルは規模が大きくなるほど、必要な演算リソースは増えるものの、より複雑な推論をこなすことが可能になり、文章生成の精度が上がるとされています。これまでは規模が大きくなることで既知のタスクパフォーマンスが向上すると思われていましたが、それだけではなく「これまで不可能だと思われていたタスクも処理できることがある」ということが明らかになっています。ただし、こうしたAIの創発がなぜ起こっているのかは、AIの研究者や開発者にもまだわかっていません。
2017年、Googleの研究者はTransformerと呼ばれる新しいアーキテクチャを自然言語処理の分野に導入しました。それまで導入されていた回帰型ニューラルネットワーク(RNN)には長い文章を正しく処理するのが難しいという問題がありましたが、Transformerはすべての単語を同時に処理できるため、長い文章を並行して処理することが可能になります。
Transformerを導入すると、モデル内のパラメーター数などを増やすことで、言語モデルをより複雑で大規模なものにすることができました。モデルのパラメーター数が多いほど、単語と単語の接続をより正確に行うことが可能となり、人間に近い精度で自然な文章を生み出すことが可能になります。
大規模言語モデルのパラメーター数は日々の研究開発が進むことでどんどん大きくなっていき、Google PaLMはパラメーター数5400億、OpenAIのGPT-4は100兆に及びます。しかし、これだけ巨大なパラメーター数を誇る大規模言語モデルは、「より精度の高い文章を素早く生成できる」だけではなく、「これまで不可能だったタスクができるようになる」という創発を見せるようになってきたとのこと。
AI企業・DeepMindのエンジニアであるジョナス・ディグレイブ氏は自身のブログで、対話型AIのChatGPTを使ってLinuxの仮想マシンを構築し、その上で素数の最初の10個を計算させる簡単なプログラムを実行することに成功したと報告しています。ChatGPTは本来であれば会話形式で文章を生成するだけのAIであり、コンピューターをエミュレートするタスクをこなせたのはまさに「ChatGPTの創発」といえる出来事といえます。
2020年、Google Researchの研究員であるイーサン・ダイアー氏らは、大規模言語モデルが大きな変革をもたらすと予測し、「Beyond the Imitation Game Benchmark」というプロジェクトを開始しました。このプロジェクトはさまざまな大規模言語モデルに204種類の課題を与え、どのようにクリアするのかをチェックするというものでした。
例えば、課題の1つに「『👧 🐟 🐠 🐡』 これは何の映画か?」と、ある映画をイメージさせる4つの絵文字を与えて映画のタイトルを当てさせるというものがありました。この課題をクリアするためには、絵文字の意味を読み解いた上で、さらに無数にある映画の内容と組み合わせて推論を行う必要があります。最もシンプルなモデルは「この映画は人間である人間である人間についての映画です」と回答しましたが、最も複雑なモデルは一発で「ファインディング・ニモです」と言い当てたそうです。
また、パラメーター数が数百万程度と比較的小規模なモデルは、3桁の加算あるいは2桁の乗算の問題を正しくクリアできませんでしたが、パラメーター数数百億という大きいモデルでは応答精度が急上昇したとのこと。大規模言語モデルのパラメーター数が大きくなると解答の精度が急激に上昇する現象は、国際音声記号の解読やヒンディー語と英語を組み合わせた文章の解読、スワヒリ語のことわざの英訳など、他の複雑なタスクでも見られたそうです。
ダイアー氏らは、モデルの複雑さだけが創発の原因になっているわけではないと論じています。データの品質が高ければ、パラメーター数の少ない小さなモデルからも創発が認められるからです。また、クエリの表現方法もモデルの応答精度に影響がみられたとのこと。
ただし、AIの予測不可能性は、有害なコンテンツを生み出す可能性もはらんでいます。AI企業・Anthropicによる研究では、モデルのパラメーター数が大きくなると、社会的偏見が現れることが報告されています。ただし、ステレオタイプや社会的偏見を含まないようにモデルに指示すると、モデルの予測や反応から偏りがなくなったとのこと。これは創発的な特性が、モデルのバイアスを減らすために働いている可能性を示唆していると研究チームは見ています。Anthropicの研究チームは、この研究結果から大規模言語モデルに「道徳的自己修正モード」を搭載する試みに言及しています。
Anthropicのコンピューター科学者であるディープ・ガングリ氏は「私たちは、人々が実際にどのように大規模言語モデルを使っているかを研究しています。しかし、ユーザーは皆絶えず大規模言語モデルに手を加えているます。私たちは、多くの時間を大規模言語モデルとのおしゃべりに費やしているのです」とコメントしました。
この記事のタイトルとURLをコピーする