Googleが「AudioPaLM」を発表しました。AudioPaLMはテキストベースの言語モデルである「PaLM 2」と音声ベースの言語モデルである「AudioLM」を統合したマルチモーダルアーキテクチャであり、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できるとのことです。
[2306.12925] AudioPaLM: A Large Language Model That Can Speak and Listen
https://doi.org/10.48550/arXiv.2306.12925
AudioPaLM
https://google-research.github.io/seanet/audiopalm/examples/
AudioPaLMは、AudioLMから話す速さ、声の強さ、高さ、沈黙、イントネーションなどのパラ言語情報を保持する機能と、PaLM 2が持つ言語知識から、テキストと音声を1つのモデルで処理・生成することが可能となっています。
以下のムービーでは、実際に入力した音声(Original)とAudioPaLMでさまざまな言語に翻訳した音声(Translation with AudioPaLM)を聞くことができます。
以下がAudioPaLMの概要図。「Audio & text tokenizers」で入力した音声から音声トークンとテキストトークンが同時に生成され、それぞれが音声用埋め込み行列(Audio Embeddings Matrix)とテキスト用埋め込み行列(Text Embeddings Matrix)に変換されます。そして、Decoder-only Transformerで変換された音声トークンは「AudioLM stages 2+3」で、テキストトークンは「Text detokenizer」で処理され、音声やテキストが出力されるという流れです。
Googleによると、PaLM 2の重みでAudioPaLMを初期化することで音声処理が改善されたとのこと。このことから、事前学習で使用される大量のテキスト学習データを活用することで音声処理のタスクをサポートできるようになり、結果として音声翻訳で既存のシステムを大幅に上回る性能がみられたそうです。特に、これまでの学習データにない未知の音声やテキストの翻訳が可能になったとGoogleは報告しています。
AudioPaLMのデモサイトでは、音声から音声への翻訳結果、音声からテキストへの翻訳結果、そして英語以外の音声の文字起こしが公開されています。言語によって音声データセットに含まれる音声データの量に差があるため、高い精度で変換できるのはフランス語・ドイツ語・カタルーニャ語・スペイン語で、ペルシア語・イタリア語・ロシア語・中国語・ポルトガル語の精度は中程度、オランダ語・トルコ語・エストニア語・モンゴル語・アラビア語・ラトビア語・スロベニア語・スウェーデン語・ウェールズ語・日本語・タミル語・インドネシア語の精度は低程度となっています。
なお、AudioPaLMでは、短い音声データから話者と同じ声で別言語に翻訳することも可能だとのこと。現状では海外の映画を日本語に吹き替え翻訳する場合、日本語話者の声優が吹き替えていますが、このAIモデルが進化すれば、セリフを俳優本人の声で日本語に吹き替えられることが期待できます。
この記事のタイトルとURLをコピーする
・関連記事
ついにYouTubeがAIによる「自動翻訳吹き替え」機能を搭載へ – GIGAZINE
Googleがムービーの自動吹替&リップシンクAIを開発中、声色を変えずに吹替可能で高性能すぎて悪用注意とのこと – GIGAZINE
AIが記事執筆・要約作成・リストやテーブル生成・翻訳・校正などを助けてくれるWordPress向けの「Jetpack AIアシスタント」が登場 – GIGAZINE
Windows 11の自動翻訳が雑すぎて「ZIPファイル」が「郵便番号ファイル」になっていると報告される – GIGAZINE
1100以上の言語で音声からの文字起こしや文章の読み上げが可能な音声認識モデル「Massively Multilingual Speech(MMS)」をMetaが発表 – GIGAZINE
ChatGPTは古代メソポタミア文明で使われていた言語を翻訳できるのか? – GIGAZINE
・関連コンテンツ