rinna、36億パラメータの日本語特化GPT言語モデルを公開

PC Watch

 rinna株式会社は、36億パラメータを持つ日本語特化のGPT言語モデルをオープンソースで公開した。特定のドメイン特化ではない汎用GPT言語モデルと、汎用GPT言語モデルを対話形式にファインチューニングした対話GPT言語モデルの2種類を用意。どちらもHugging Face上で商用利用可能なMIT Licenseにて公開している。

 汎用言語モデルは、日本語のWikipediaやC4、CC-100といったオープンソースデータ、対話言語モデルはHH-RLHF、SHP、FLANの一部を日本語翻訳したデータをそれぞれ用いて学習。汎用言語モデルでは、次の単語を予測するときの候補数を意味するperplexityで8.68を達成したという。

 用途に応じてモデルを選べるほか、ファインチューニングなどを通じて特定の利用目的に向けた性能の最適化も可能。対話言語モデルのインターフェイスには対話形式を採用し、利用しやすい設計とした。

 同社は、これまでにも13億パラメータの日本語特化GPTなどを公開してきたが、今回新たに2つの言語モデルを公開し、さらに利用の幅が広がることで、日本語言語モデルを活用した研究開発が発展するだろうと期待を寄せている。

Source

コメント

タイトルとURLをコピーしました