AIの力を借りたら、ヒトはもっとイヌの気持ちを理解できるようになるでしょうか?
ミシガン大学とメキシコ国立天文光学電子工学研究所の研究者3名が、人間の音声データ(この場合は英語)と犬の音声データ両方によって訓練されたAIモデルに犬の鳴き声を聞かせたところ、甘えているか、怒っているかなどを62%の確率で正しく判別できたそうです。
AIモデルは犬の気持ちを理解するための道具として有用なこと、そしてそのようなAIモデルを構築するためには犬の鳴き声だけで訓練するよりも人間の音声データを併用したほうがうまくいくことが示唆されました。詳しい結果はプレプリントサーバーarXiv上で公開されています。
研究者のひとりで、ミシガン大学コンピューターサイエンス教授のラダ・ミハルセアさんは、「この世界で一緒に暮らしている動物たちについて、私たちはまだまだ知らないことがたくさんあります」と前置きしつつ、「AIの進展は、動物の言葉についての私たちの理解を飛躍的に深めてくれる可能性を持っています。今回の研究ではその作業をゼロから始めなくてもいいということがわかりました」とプレスリリースで語っています。
人間の音声データを活用
研究者たちが使用したのは「Wav2Vec2」という最先端のAI音声認識モデル。そのAIモデルに犬の鳴き声を聞かせて、声の主の気持ち、犬種、性別などを識別させました。
興味深いのは、AIモデルを訓練する段階でふたつの異なるデータセットが使われたことです。ひとつめには、犬の鳴き声だけを聞かせました。対するふたつめには、まず「LibriSpeech」という自動音声認識用の音声読み上げデータを1000時間聞かせた上で、犬の鳴き声を聞かせて微調整したそうです。
鳴き声から犬の気持ちを理解する
こうして別々の方法で訓練されたふたつのAIモデルに、計74頭の犬(チワワ42頭、プードル21頭、シュナウザー11頭)の鳴き声を聞かせたところ、人間の音声データを使って基礎訓練したAIモデルのほうが正答率が高い結果となりました。具体的には、声の主の気持ちを62%、犬種を62%、性別を69%、そして集団の中からの一頭を50%の確率で正しく識別しました。
対して犬の鳴き声だけで訓練されたAIモデルのほうは、声の主の気持ちを58%、犬種を60%、性別を70%、そして集団の中からの一頭を24%の確率で正しく識別しました。
この結果からは、ヒトのコミュケーションパターンを土台にすることで、より正確に動物のコミュニケーションを理解できるAIモデルを構築できる可能性が見えてきました。
犬の気持ちは状況によって変わる
そもそも、犬はどのように気持ちを表現しているのでしょうか?
犬の置かれている状況によって鳴き声はちがってくる、と研究者は推察していました。そこで、研究者たちはメキシコのテピク市とプエブラ市をマイク片手にかけずり回り、実際に犬が飼われているお宅にお邪魔してさまざまな状況下での犬の鳴き声を録音したそうです。
今回の研究に使われた犬の音声データは14種類に分けられ、
・知らない人に対する威嚇
・飼い主が襲われたときの鳴き声
・知らない人への否定的な唸り
・遊んでいる最中の鳴き声
・飼い主が帰宅したときの鳴き声
などを含んでいました。
もちろん生身の犬たちはたった14種類よりもはるかに複雑な感情パターンを持ち合わせているでしょうし、それを表現する方法もそれぞれちがうでしょう。それでも今回の研究は犬、そしてその他の動物の「言葉」を理解できるAIモデルをつくる上でのひとつの出発点となりそうです。
動物の鳴き声を判別するためのAIモデルに、人間の音声データが訓練用に使われたのは今回が初めてです。
「今回の研究では、人間の音声データで訓練された音声認識モデルを使うことにより、これまで積み上げられてきた人間の音声認識に関する知見を犬の鳴き声をもっとよく理解するためにも活用できる可能性が見えてきました」
ミハルセアさんはこのように説明しています。
今後はさらに多くの犬種、そして犬以外の動物をも対象に、いろいろな感情を探っていきたいとも話しています。
Source: arXiv (1), University of Michigan
Reference: arXiv (2), J-GLOBAL
Photo: 山田ちとら