「人力で集めたデータを元にしたチャットAI」が人力言語モデルプロジェクト「Open Assistant」から登場したので使ってみた

GIGAZINE



画像生成AIの学習データに用いられる大規模データセット「LAION-5B」などの開発で知られるLAION-AIは、「人間が入力した高品質なサンプル」を集めた大規模言語処理モデル「Open Assistant」の開発に取り組んでいます。このOpen Assistantの成果物として新たにチャットAIが公開されたので、実際に使ってみました。

Open Assistant
https://open-assistant.io/ja

Open Assistantを用いたチャットAIを使うには、まず上記のリンク先にアクセスして「Try our assistant」をクリックします。


続いて、メールアドレスを入力してから「Continue with Email」をクリック。


以下の画面が表示されたら、入力したメールアドレスにサインイン用URLが届いているので受信箱をチェックします。


今回はGmailのメールアドレスを入力したのですが、サインイン用URLを記したメールが迷惑メールフォルダに入っていました。このままだとリンクをクリックできないので「問題ない」をクリックします。


メールが通常のフォルダに移動したら「Sign in」をクリック。


すると利用規約が表示されるので、最下部まで読み進めます。


規約を最後まで読んだら「Accept」をクリック。


すると、Open Assistantのダッシュボードが表示されます。


初期状態だと英語で表示されているので、画面上部の言語選択欄から「日本語」を選択。


日本語表示に切り替わったら、画面左側の「Chat」をクリックします。


チャット画面を開くと、画面上部に「1回だけ行う必要がある設定」に関する警告が表示されます。しかし、記事作成時点では新規アカウントでは設定不要になっていたので、この警告は「OK」をクリックして消しても問題ありません。


チャットを始めるには、「Create a new chat」をクリック。


チャット画面が表示されたら、画面右側の入力欄に文章を入力して「確定」をクリックします。今回は「日本語は使えますか?」と入力してみました。


AIの回答はこんな感じ。「はい!私は日本語も使えます」と英語で返答してくれました。


日本語で返事するように求めても、かたくなに英語を使い続けます。回答内容を見ると日本語の文章を理解することはできているようですが、記事作成時点では日本語での返答には対応していないようです。


AIに色んな質問をぶつけてみた結果が以下。「日本の総理大臣は誰ですか?」と聞いた結果、「私は2021年9月時点までの知識しか持っていません」と返答されました。


続いて神奈川県の県庁所在地を聞いたところ、「神奈川県の県庁所在地は東京です」という誤った回答が返ってきました。


「東京から大阪までのオススメ交通手段」を尋ねた結果が以下。「新幹線なら約2時間56分」「飛行機なら約1時間」というおおむね正しい回答を得られました。


なお、Open Assistantは人力での回答を収集することで高品質な言語モデルの構築を目指すプロジェクトです。プロジェクトへの参加方法は、以下の記事で詳しく解説しています。記事作成時点では日本語での回答も受付けているため、将来的には日本語で回答することも可能になるかもしれません。

誰でも参加できるオープンソースの大規模言語処理モデル「Open Assistant」開発プロジェクトをLAION AIがスタート – GIGAZINE


また、Open Assistantで収集されたデータセットは以下のリンク先で公開されています。

OpenAssistant/oasst1 · Datasets at Hugging Face
https://huggingface.co/datasets/OpenAssistant/oasst1


この記事のタイトルとURLをコピーする

Source