画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。
Introducing Whisper
https://openai.com/blog/whisper/
GitHub – openai/whisper
https://github.com/openai/whisper
Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセントの会話」といった音声のサンプルが用意されており、「REVEAL TRANSCRIPT」をクリックするとWhisperで文字起こした結果を確認できます。
Whisperは英語以外の音声を3分の1含む音声データでトレーニングされており、日本語やフランス語、韓国語など英語以外の言語の文字起こしにも対応しています。文字起こしの精度は言語ごとに異なりますが、言語ごとの単語誤り率を示した以下のグラフを確認すると日本語の単語誤り率は6.4%でWhisperが対応している言語の中でもかなり高い精度での文字起こしが可能なことが分かります。なお、以下の画像をクリックするとグラフの全体図を閲覧できます。
OpenAIは、Whisperのモデルデータやソースコードを公式GitHubリポジトリで公開しています。また、Google製のPython実行環境「Colaboratory」を用いたデモも公開されており、Googleアカウントさえあれば手軽にデモを実行できます。
LibriSpeech.ipynb – Colaboratory
https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
この記事のタイトルとURLをコピーする
・関連記事
面倒な文字起こし作業を一瞬で実行可能なLINE製AI音声認識アプリ「CLOVA Note」の使い方まとめ – GIGAZINE
無料で自動文字起こししてくれるMicrosoft製アプリ「Group Transcribe」を使ってみた – GIGAZINE
Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた – GIGAZINE
Google Chrome上でマイクから録音した声をリアルタイムで文字に書き起こしてくれる「The Recording Studio」 – GIGAZINE
マイクで録音するだけで誰でも「結月ゆかり」や「琴葉 茜・葵」の声になれるAI音声合成ソフト「Seiren Voice」を使ってみた – GIGAZINE
Googleの音声認識エンジンを使って音声ファイルから文字起こししてみた – GIGAZINE
・関連コンテンツ