商用利用も可能な音声合成によるテキスト読み上げソフト「VOICEVOX(ボイスボックス)」が登場した。ヒホ(ヒロシバ)(@hiho_karuta)氏が8月1日に公開し、オープンソースで開発を進めている。
入力したテキストをもとに音声合成を生成し、再生/出力できるソフト。“そこそこ品質がよい”点や、無料で利用できる点に加え、文字単位での細かなイントネーションの調整が可能な点が特徴となっている。話す速度や音程、アクセント、単語の区切り方などの設定を操ることで、多彩な表現が行なえるという。
内部エンジンはCPUまたはGPUで動作。後者の方が高速かつ快適に動作するとしているが、動作環境として3GB以上のVRAMを持つNVIDIA製GPUを推奨している。なお現在のバージョンでは、本体のファイルパスに日本語が含まれるとエンジンエラーが発生してしまうため、注意が必要。
現時点では、「四国めたん」と「ずんだもん」の2種類の音声ライブラリを収録。生成した音声はwav形式で出力でき、使用したライブラリに応じてクレジットを記載することで、商用/非商用を問わず利用できる。今後はライブラリの拡張なども検討しているという。
🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉
無料で使える中品質なテキスト音声合成ソフトウェア、#VOICEVOXをリリースしました
🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉ぜひダウンロードして遊んでみてください!https://t.co/6MMth631mf
— ヒホ(ヒロシバ)🗑️ (@hiho_karuta)July 31, 2021
[embedded content]
コメント