ドイツ航空宇宙センター(DLR、Deutsches Zentrum für Luft- und Raumfahrt)のSophie Jentzsch氏とKristian Kersting氏は7日、ChatGPT(GPT-3.5)のジョークに関する能力を検証した論文を発表した。これによると、ChatGPTが生成した1,008個のジョークのうち、約90%が25個のジョークのうちのどれかと同様なものだったという。
両氏は、異なる言葉を使った10種類の表現を使って、ジョークを提供するようにChatGPTに1,000回依頼した。その結果、1つの依頼で複数生成されたケースを含め、計1,008個のジョークが生成された。これらはすべて質問と回答の形式になっていたという。
1,008個のジョークから直接重複するものや細かい書式の違いなどを取り除き、表現が微妙に違うもの同士などをグループ化したところ、頻出する上位25種類のジョークが分かった。この25種類で1,008個のうち約90%をカバーしているほか、上位4種類はともに100回以上出現しており、これだけで全体の50%以上を占めているという。
この25種類はすべて既存のジョークで、ChatGPTがオリジナルで生成したものではなかった。ユニークな回答も一部得られたが、ChatGPTがすでに知っているジョークを混ぜ合わせて生成したものがほとんどだったという。
また、ChatGPTにジョークについて説明を求めると、言葉遊びやダブルミーニング、ダジャレなどを理解し、ほとんどの場合で適切な説明をした。一方で、上手く理解できないものや、意味の通らないジョークについても、それっぽい架空の説明をしてしまったという。
さらに、言葉遊び、文構造、トピックの3つの要素の有無を変えたサンプルをChatGPTに与え、ジョークかどうかを3段階で分類させたところ、ジョークかどうかを判断するにはこのうち少なくとも2つの要素が必要なことが分かったという。
両氏は、これまでの大規模言語モデルと比べることで、ユーモアに関する一般的な理解を大幅に深められるとしており、今後はGPT-4やそのほかのモデルでも同様の実験を行なっていくという。
コメント