国立研究開発法人情報通信研究機構(NICT)は7月4日、日本語に特化した400億パラメーターの生成AI(LLM:大規模言語モデル)を開発したと発表した。これは試作であり、今回の開発で得た知見をもとに、さらに大規模な1790億パラメーターのLLMを開発中だという。
NICTのユニバーサルコミュニケーション研究所データ駆動知能システム研究センターが、独自に収集した日本語のウェブテキスト400億パラメーター(350GB)のLLMを開発したもの。
同機構ではこれまで、インターネット上の知識を有効活用する識別系(データの分類・整理を行う)言語モデルとして、GoogleのLLM「BERT」をもとにしたモデルの開発などに取り組み、200億パラメーターのモデルを構築するなどしてきた。一方、ChatGPTの登場以降に注目を集める生成系(長いテキストを生成する)言語モデルに関しても、国内における開発力強化を喫緊の課題として、開発に取り組み始めたという。
今回の開発で使用した400億のパラメーターは、識別系言語モデルの開発にも用いられており、ノイズに相当するテキストが少ない高品質なものだという。従来のノウハウも用いて事前学習・検証を行い、4カ月程度で開発を完了。ファインチューニングや強化学習はこれからであり、性能面ではChatGPTなどと比較できるレベルではないが、日本語でのやり取りが可能な水準に到達しているとしている。
できることの具体例としては、各種質問への回答、要約、論文要旨の生成、翻訳などが挙げられている。また、存在しない映画の簡単なあらすじを生成するような、一種の創作ができる可能性も示しているという。一方で、生成テキストの悪用の可能性を示唆する結果も得られており、今後、ポジティブ・ネガティブ両面において改善を図っていくとしている。
今後は、日本語を中心として学習用のテキストをさらに大規模化していくという。現在は、GPT-3と同程度の規模にあたる1790億パラメーターのモデルの事前学習に取り組んでおり、より大規模な事前学習用データや言語モデルの構築に際して、改善をはかり、アプリケーションやシステムの高度化などに取り組むとしている。
また、誰も考えておらず、ウェブなどにも書かれていない、具体的で「尖った」将来シナリオや仮説をテキストとして生成し、対話システムによるブレインストーミングなどで活用する研究を実施してきたが、このような研究においても今回開発したLLMを活用する予定だという。