文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

GIGAZINE



会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。

writeout.ai – Transcribe and translate any audio file
https://writeout.ai/

上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。


すると、GitHubアカウントでのサインインを求められます。GitHubアカウントを持っていない場合は「Create an account」をクリック。


アカウント作成画面が表示されたら「ユーザーネーム」「メールアドレス」「パスワード」を入力し、ロボットでないことを証明してから「Create account」をクリックします。


すると、以下のような8桁の認証コードを入力する画面が表示されます。


認証コードは、アカウント作成画面で入力したメールアドレスに届いています。


メールに記載されている8桁のコードを入力。


すると、以下の画面に移動するので「Authorize Beyondcode」をクリックします。


これで、writeout.aiを使えるようになりました。


writeout.aiの使用手順は以下の通り。まず、文字起こししたいファイルを選択するために「参照」をクリックします。


ファイル選択画面が表示されたら、目的のファイルを選択します。この時、選択可能なファイル形式は「mp3」「mp4」「mpeg」「mpga」「m4a」「wav」「webm」のいずれかで、最大ファイルサイズは25MBです。今回は、映画「犬王」舞台挨拶トークのムービーから音声を抜き出したmp3ファイルを選択しました。


ファイルを選択したら「Transcribe」をクリック。


すると、「文字起こし中。文字起こしが完了したら、自動的にページが更新されます」という内容の通知が表示されるので、しばらく待ちます。


今回は、約2分で文字起こしが完了し、ページが更新されました。ページが更新されたら、下方向にスクロールして文字起こし結果を確認します。


ページ下部には、文字起こし結果がズラリと表示されています。「アヴちゃん」を「アムちゃん」としていたり、「湯浅政明監督」を「ルアサン・マサーキ監督」としていたりと人名や固有名詞は苦手なようですが、全体的に高い精度で文字起こしできています。20分超え音声ファイルの文字起こしを約2分でこれだけの精度で行えるのは驚異的です。


文字起こし結果上部の再生ボタンをクリックすると、音声を聞きながら該当箇所の文字起こし結果を確認できます。


文字起こし結果をダウンロードしたい場合は、「Download transcript」をクリック。


すると、文字起こし結果をvtt形式でダウンロードできました。


ダウンロードしたvttファイルの中身はこんな感じ。文字起こし結果が時間情報とともに記録されているので、対応するソフトウェアを使えば字幕付きムービーなどを簡単に作成できます。


なお、writeout.aiのソースコードは以下のGitHubリポジトリで公開されています。また、自分でOpenAIのAPIを取得すれば、writeout.aiをローカル環境上に構築することもできます。

GitHub – beyondcode/writeout.ai: Transcribe and translate your audio files – for free
https://github.com/beyondcode/writeout.ai


この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました