オープンソースでGPTベースの大規模言語モデル「Cerebras-GPT」7種類が一気に誰でもダウンロード可能に

GIGAZINE



AI企業のCerebrasが、オープンソースでパラメータ数1億1100万~130億の大規模言語モデル「Cerebras-GPT」7種類を公開しました。Cerebras-GPTは、OpenAIのGPT-3をベースに、DeepMindが2022年3月にリリースしたChinchilla方式で学習したモデルで、これまでに公開されているどのモデルよりも学習時間が短く、学習コストが低く、消費電力が少ないのが特徴とのことです。

Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models – Cerebras
https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/


cerebras (Cerebras)
https://huggingface.co/cerebras

GitHub – Cerebras/modelzoo
https://github.com/Cerebras/modelzoo

主な大規模言語モデルのオープンアクセスとライセンスをまとめた表が以下。OpenAIのGPT-4はモデル構造を含めてオープンになっておらず、DeepMindのChinchillaもオープンアクセスが可能なのはモデル構造のみ。MetaのOPTはほぼオープンとなっていますが、モデルの重みは研究者のみだったり、ライセンスが非商用利用に限られていたりしています。一方、Cerebras-GPTはすべてのモデル、重み、チェックポイントは、Apache 2.0ライセンスのもと、Hugging FaceとGitHubで公開されています。


Cerebrasは「LLMがオープンでアクセスしやすい技術であるためには、研究および商用アプリケーションの両方において、オープン、再現可能、ロイヤリティフリーである最先端のモデルへのアクセスが重要であると私たちは考えています」と述べています。

Cerebras-GPTは、Cerebrasが抱えるAIスーパーコンピューターのAndromedaの一部であるCS-2システムで数週間で学習が行われているとのこと。Cerebrasは111M(パラメータ数1億1100万)、256M(パラメータ数2億5600万)、590M(パラメータ数5億9000万)、1.3B(パラメータ数13億)、2.7B(パラメータ数27億)、6.7B(パラメータ数67億)、13B(パラメータ数130億)の7モデルがあり、各モデルサイズに最適な学習トークンを使用したことで、すべてのモデルサイズで単位計算量あたりのデータ損失が最も小さくなっているとCerebrasは述べています。

以下は、Cerebras-GPT(オレンジ)とEleutherAIの大規模言語モデルであるPythia(緑)の計算効率を表わしたグラフ。縦が学習中に損失したデータ値、横が学習における計算量(対数表示)で、このグラフの傾きが小さいほど学習効率が高いことが示されます。


またCerebrasは、Cerebras-GPTが下流タスクで高い学習効率を維持するとアピールしました。以下のグラフは、さまざまなデータセットを用いてCerebras-GPT(オレンジ)・Pythia(緑)・OPT(茶)を学習させたときの下流タスクでの効率を示したグラフ。Cerebrasは、グラフには下流タスクにおいてもCerebras-GPTの学習効率が高いことが示されていると主張しています。


Cerebrasは「Cerebras-GPTが、最先端の学習効率を持つ初の公開大規模GPTモデル群として、効率的な学習のためのレシピとして、またさらなるコミュニティ研究のための参考資料として役立つことを期待しています。さらに、Cerebras AI Model Studioを通じて、インフラとモデルの両方をクラウド上で利用できるようにしています。私たちは、より良いトレーニングインフラとコミュニティの共有を通じて、大規模なジェネレーティブAI業界をさらに発展させることができると信じています」とコメントしました。

この記事のタイトルとURLをコピーする

Source