自動文字起こしや自動音声読み上げモデルをオープンソースで開発する「Coqui」メンバーは元Mozillaエンジニア

GIGAZINE



収録した音声をそのままテキストに自動で文字起こしするSpeech to Text(STT、音声テキスト変換)モデルや、入力したテキストを自動音声で読み上げるText to Speech(TTS、テキスト音声変換)モデルをオープンソースで開発する企業が「Coqui」です。

Coqui
https://coqui.ai/


Coquiの創設者たちはもともとFirefoxやThunderbirdの開発で知られるMozillaに在籍していました。創設者たちは音声技術が大企業によって独占され、オープンソースで提供されなくなるかもしれないと考え、独立して企業を立ち上げ、オープンソースの音声認識エンジンを構築したとのこと。

CoquiのSTTモデル「Coqui STT」のリポジトリはGitHubにホストされています。Coqui SSTの特徴は、あらかじめ音声ライブラリが用意されているのではなく、あらかじめ録音した音声を読み込ませることで、その声で読み上げさせることができるという点です。

GitHub – coqui-ai/STT – The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.
https://github.com/coqui-ai/STT

Coqui STTは英語・ドイツ語・フランス語などの利用者が多い言語から、トトナック語ハカチン語フリジア語などの少数言語まで80種類以上の言語に最適化されており、以下からダウンロードが可能。なお、記事作成時点では日本語のモデルはありません。

Models / Coqui
https://coqui.ai/models>Models / Coqui
>https://coqui.ai/models


TTSモデル「Cqui TTS」のリポジトリは以下。Coqui TTSは将来的に公式サイトからダウンロード可能になる予定です。

GitHub – coqui-ai/TTS – a deep learning toolkit for Text-to-Speech, battle-tested in research and production
https://github.com/coqui-ai/TTS

なお、「Coqui」というのはプエルトリコ原産のコキーコヤスガエルで、アメリカ南部やハワイ諸島、南米各地でも観測できるとのこと。このカエルは体長3~4cmでありながら、名前の通り「コキー」と大音量で鳴くことで知られています。以下のムービーでコキーコヤスガエルの鳴き声を聞くことができます。

El Coquí de Puerto Rico. – YouTube
[embedded content]

この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました