広告
会議や電話の音声を文字起こししたり、音声認識で機械を操作したり、音声入力でレポートを作成したりとさまざまな場面で「音声認識サービス」が必要とされています。そうした需要に応えて世の中には多数の音声認識サービスが登場していますが、そのうちの一つ「AmiVoice」は「えー」「えっと」などの言いよどみを自動削除してくれたり、単語登録で固有名詞も楽々対応だったり、医療や金融などの専門分野に強い特化型エンジンが用意されていたりする日本シェアNo1の音声認識サービスとのことなので、実際に使って確かめてみました。
AI音声認識のAPI・SDKなら-AmiVoice Cloud Platform(アミボイス)
https://acp.amivoice.com/
AmiVoice API-開発者向け音声認識エンジン(アミボイス)
https://acp.amivoice.com/amivoice_api/
AmiVoice API 利用申し込み
https://acp.amivoice.com/amivoice_api/regist/
・目次
◆1:ウェブ上でお手軽に試してみた
◆2:ユーザー登録&合計260時間分無料クーポンを適用してみた
◆3:サンプルプログラムをセットアップしてみた
◆4:音声認識の実力を確かめてみた
◆5:専用エンジンで専門分野もバッチリ
◆6:料金は発話区間だけなので見た目以上に安価
◆1:ウェブ上でお手軽に試してみた
AmiVoiceのサイトにアクセスすると、「認識精度を試してみる」というボタンがあるのでクリックします。
AmiVoiceの認識精度を試せるページが表示されました。いくつか例文が記載されているので「音声認識スタート」をクリックして読み上げてみます。
ウェブサイトのデモでサクッとAmiVoiceの実力を確かめてみた – YouTube
[embedded content]
1例目は句読点も含めてパーフェクト。
2例目も末尾が「。」から「?」に変化した以外は完璧です。
3例目でも、途中の読点以外の部分は例文と完全に一致しました。
しかし、これだけだとAmiVoiceが苦手なところを省いた例文を用意することで精度を高めに保っている可能性があるため、ビジネスシーンで出てきそうな文章を自分でいくつか作成し、読み上げてみました。
例文以外の言葉でもAmiVoiceはちゃんと認識できるのかをチェック – YouTube
[embedded content]
最初に読み上げたのは「本日はご多忙の中、長時間お時間を割いていただき大変ありがとうございました」です。AmiVoiceの認識結果は下記の通り。パーフェクトな内容と言えそうです。
続いて「弊社のサービスについて、追加の疑問点・要望などございましたら、お気軽にご相談ください」という文章を読み上げました。「疑問点要望」と2つの単語がくっついてしまった以外、完璧と言っていい文字起こしです。
最後に「本日はありがとうございました。引き続き、こちらの件よろしくお願いいたします」を認識させてみると下図の通りとなりました。
もっと長い文章ならどうなるのか気になるところですが、ウェブサイトで試せるデモには30秒までという制限があります。これ以上は、公式のサンプルプログラムで本番と同じAPIを使って試していくことになります。
◆2:ユーザー登録&合計260時間分無料クーポンを適用してみた
APIを利用するにはユーザー登録が必要です。AmiVoiceのトップページへ行き、「APIを無料で利用開始」をクリックします。
メールアドレスを入力し、「利用規約とSLAに同意する」にチェックを入れて「送信」をクリック。
メールを確認するように指示されます。
メールをチェックするとユーザー登録用のURLが届いていました。URLをブラウザで開きます。
希望するユーザーIDやパスワード、氏名、会社名などの情報を入力していきます。
個人情報の取り扱いについて「同意する」にチェックを入れて「確認」をクリック。
入力した内容を確認します。
確認できたら最下部の「登録する」をクリック。
登録に成功しました。「ログインページ」をクリックして移動します。
登録したIDとパスワードを入力し、「ログイン」をクリック。
マイページの左にあるメニューから「プラン申込」をクリックします。無料でも多数の認識エンジンをそれぞれ60分まで利用することが可能ですが、利用にあたってクレジットカードの登録が必要なので、「登録はこちら」と書かれたリンクをクリック。
クレジットカード情報の取り扱いはGMOペイメントゲートウェイが行うため、いったんAmiVoiceのサイトを離れます。「移動する」をクリック。
クレジットカードの情報を入力して「この内容を保存」をクリック。
内容を確認して「保存する」をクリックします。
これで登録完了です。「マイページに戻る」をクリック。
再び「プラン申込」のタブに移動すると、今度は下図のような画面になっています。今回、GIGAZINE読者向けに特別なクーポンが発行されているので、「クーポンを適用」をクリック。
クーポンコード欄に「F88VxcyM4B」と入力して「適用する」をクリックします。AmiVoiceにはエンジンが13種類あって、それぞれ、品質向上用にデータを保存する「ログ保存あり」版、データをサーバーに残さない「ログ保存なし」版が存在します。今回のクーポンは、各エンジンをそれぞれ10時間無料で利用できるようになるものなので、全エンジンのログ保存あり・なし版を合わせると合計で260時間利用できることになります。なお、クーポンは適用した月のみ有効で、入力期限は2023年10月末です。
クーポンを適用するとそれぞれのエンジンの欄に「クーポン適用済み」と表示されました。
◆3:サンプルプログラムをセットアップしてみた
AmiVoiceではHTTPで音声ファイルを送信して解析する形式のAPIと、WebSocketを使用してリアルタイムに音声認識を行うAPIが用意されており、さまざまなアプリに組み込んで使用することが可能です。マニュアルで実装方法が解説されているのですが、今回は認識精度の確認ということで、公式で用意されているサンプルプログラムを利用します。クライアントライブラリのリポジトリにアクセスし、「Code」のメニューから「Download ZIP」をクリック。
ダウンロードしたZIPファイルを選択し、右上にある「すべて展開」をクリック。
「展開」をクリックします。
展開先のフォルダにある「Wrp」フォルダの「javascript」フォルダにある「wrp.html」が今回使用するファイルです。
そのままブラウザで開くと下図の通り。一見そのまま使えそうですが、注意事項を見てみると「サーバーに配置する必要がある」と書かれていました。
今回はNode.jsを利用してサーバーを立ち上げます。Node.jsのダウンロードページへ行き、適切なインストーラーを選択。今回はWindowsのPCを利用するので、Windows Installerをダウンロードしました。
ダウンロードしたmsiファイルをダブルクリックして実行します。
Node.jsのセットアップウィザードが起動するので「Next」をクリック。
ライセンスに同意して「Next」をクリックします。
インストール先のフォルダを確認して「Next」をクリック。
何をインストールするのかを設定できますが、今回は特に何も変更せず「Next」をクリックすればOK。
「Next」をクリック。
「Install」をクリックします。
インストールが完了したら「Finish」をクリックしてインストーラーを閉じます。
Node.jsをインストールできたらスタートメニューに「cmd」と入力し、検索結果に出てくるコマンドプロンプトをクリックして起動。
AmiVoiceのサンプルアプリの「wrp.html」があるフォルダのアドレスをコマンドで使うので、コピーしておきます。
コマンドプロンプトで「cd [コピーしたアドレスを貼り付け]」というコマンドを実行し、続いて「npx http-server」と入力してエンターキーで実行。サーバーが起動してアドレスが表示されます。
上で表示されたアドレスをブラウザに入力し、末尾に「/wrp.html」と入力するとサーバー経由でサンプルプログラムを表示することができました。
ワンタイムAppKeyの発行に使うサービスIDとサービスパスワードはAmiVoiceのマイページの「接続情報」のタブで確認できます。AmiVoiceのアカウントのID・パスワードとは異なるため注意が必要です。
サービスIDとサービスパスワードを入力してから「サービス認証キーの取得」をクリックすると「APPKEY」欄に認証キーが挿入されます。この状態で「録音の開始」をクリックするとリアルタイムで音声を認識してくれるというわけです。
◆4:音声認識の実力を確かめてみた
準備が整ったので早速実力を検証していきます。まずはサンプルプログラムで初期設定となっている「汎用」モデルを試すことに。ビジネス関連の文章が得意なのはウェブサイトのデモで確かめられたので、以下の通り、カジュアルな口語と小説の文章を「えー」や「えっと」などの言いよどみを多数含めながら読んでみました。
今回はですね、AmiVoiceのレビューということで、えー、まず夏目漱石の「我輩は猫である」の音読をしていこうと思います。えーっと、まあでは最初から読んでいきます。
吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うということである。
えーということでですね、夏目漱石の冒頭の方を読んでいきました。
AmiVoiceの、えー音声認識の精度がね、えー、かなり発揮できているのではないかと思います。
AmiVoiceの文字起こし能力検証1:言い淀みを自動削除してくれてそのまま資料に使える文章が作成可能 – YouTube
[embedded content]
AmiVoiceでの認識結果は下記の通り。
今回はですね、AmiVoiceのレビューということで、まず夏目漱石の我輩は猫であるの音読をしていこうと思います。
では最初から読んでいきます。
我輩は猫である。名前はまだない。
どこで生まれたかとんと見当がつかない。
何でも薄暗いジメジメしたところでニヤニヤない聞いたことだけは記憶している。
我輩はここで初めて人間というものを見た。
しかも後で聞くとそれは書生という人間中で一番道悪な種族やったそうだ。
この書生というのは時々我々を捕まえて逃げくるということである。ということですね。夏目漱石のボートの方を読んでいきました。
AmiVoiceの音声認識の精度がね、かなり
発揮できているのではないかと思います。
ビジネスの文章ほどの精度は出ませんでしたが、一般的な文字起こしアプリとは違い、言いよどみがすっきり削除されていたり、句読点を自動で挿入してくれたりする機能のおかげで、人間が修正せずともかなり「読める」文章が生成されました。
続いて、GIGAZINEの試食記事の一部を音読してみます。下記のとおり発音しました。
えー、次はGIGAZINEの試食記事を読んでみます。インドやネパールなどの国々で愛用されている「チャツネ」という調味料についての記事です。
チャツネはシンプルな材料でできているため、カレーなどのインド風料理だけでなく、から揚げなどの肉料理とも相性バツグン。赤いチャツネはニンニクとから揚げが合わないはずもなく、肉の味をグイグイ引き出してくれます。
AmiVoiceの文字起こし能力検証2:あまり使われない固有名詞が入っている場合 – YouTube
[embedded content]
AmiVoiceの認識結果は下記の通り。「GIGAZINE」が「議会人」になってしまっています。「チャツネ」は1回目は正常に認識されているものの、「達也」や「鉄何」などの単語になってしまう部分もありました。
次は議会人の試食記事を読んでみます。インドやネパールなどの国々に愛用されているチャツネという調味料についての記事です。
達也シンプルな材料でできているため、仮などのインフルだけでなく、唐揚げなど肉料理とも相性抜群。赤い鉄何に行くと唐揚げが合わないはずもなく、肉の味をグイグイ引き出してくれます。
このように固有名詞が認識されない場合は「単語登録」すればOK。単語の登録方法はAPIを使う方法のほかにウェブ上で行う方法があるので、今回はウェブからの登録を行います。AmiVoiceのマイページの「単語登録」タブをクリックし、単語を登録するエンジンを選択して「決定」をクリック。
また、ウェブからの登録方法にはファイルをアップロードする方法と直接入力する方法が存在しています。今回は直接入力を行うため、「直接入力で新規登録」をクリックし、「GIGAZINE」と「チャツネ」を表記欄に記入しました。それぞれ「ぎがじん」「ちゃつね」と読みを入力して「固有名詞」とクラスを指定して「追加登録実行」をクリックします。
クラスの一覧はこんな感じ。さまざまな単語に対応できるようになっています。なお、クラスは「クラス指定無し」を選択したままでもOKとのこと。
登録した単語はファイルに書き出したり、変更・削除を行ったりすることが可能です。
登録した単語を認識に含めるには「プロファイルID」欄でプロファイルを指定する必要があります。ウェブ上で登録した単語はサービスIDの先頭に「:」を付けたプロファイルに登録されるので、例えばサービスIDが「gigazine」だった場合はプロファイルID欄に「:gigazine」と入力すればOK。この状態で先ほどと同じ文章を読み上げてみます。
AmiVoiceの文字起こし能力検証3:単語登録でどれくらい認識精度が上がったのか – YouTube
[embedded content]
AmiVoiceの認識結果は下記の通り。「GIGAZINE」がきちんと認識されたほか、チャツネの認識回数も増加しました。
次はGIGAZINEの試薬記事を読んでみます。
インドやネパールなどの国々で愛用されているチャツネという調味料についての記事です。
撮影はシンプルな材料でできているため、カレーなどのインフレよりだけでなく、
唐揚げなど肉料理とも相性抜群。
赤いチャツネはニンニクと唐揚げが合わないはずもなく、肉の味をクイクイ引き出してくれます。
◆5:専用エンジンで専門分野もバッチリ
AmiVoiceには下記の通り、さまざまな領域に特化したエンジンが用意されています。
エンジン | 利用シーン |
---|---|
会話_汎用 | 幅広い場面での会話・会議の文字起こしなど |
会話_医療 | 医療会議や診察等、医療業界の会話・会議の文字起こしなど |
会話_製薬 | 文字起こしや対面営業時の会話の文字起こしなど |
会話_金融 | 文字起こしや対面営業時の会話の文字起こしなど |
会話_保険 | 文字起こしや対面営業時の会話の文字起こしなど |
音声入力_汎用 | 日報入力、メール作成、音声操作、音声検索など |
音声入力_医療 | 介護記録や医療関連の音声入力など |
音声入力_製薬 | 薬剤師の服薬指導文の作成、MRの営業日報の音声入力など |
音声入力_電子カルテ | 電子カルテの所見、診断書、診療情報提供書、紹介状等、各種医療文書の作成など |
音声入力_保険 | 日報、メール作成の音声入力など |
音声入力_金融 | 日報、メール作成の音声入力など |
英語_汎用 | |
中国語_汎用 |
今回は「音声入力_医療」エンジンの「ログ保存なし」版を使ってみます。ログがサーバーに保存されないのでプライバシーに関わる内容でも安心です。サンプルプログラムでエンジンを切り替えるには、マイページの「接続情報」タブでエンジン名と接続先のURLをコピーします。
コピーした内容をサンプルプログラムの「サーバ URL」欄と「接続エンジン名」に入力すればOK。
読み上げるのは下記の文章で、専門外の人間にとって音声を聞いて内容を正しく認識するのはかなり難しい内容となっています。
体(たい)上部後壁側(じょうぶこうへきそく)に胃潰瘍(いかいよう)瘢痕(はんこん)をみとめます。胃体部前壁側(いたいぶぜんへきそく)に広範な術後(じゅつご)瘢痕(はんこん)あり。胃体(いたい)中部(ちゅうぶ)から体上部の後壁(こうへき)側大弯(そくだいわん)よりに白色(はくしょく)瘢痕(はんこん)、既知の胃潰瘍瘢痕を認めます。前回見られた幽門前部小弯側(ゆうもんぜんぶしょうわんそく)に発赤(ほっせき)を伴う陷(かん)凹(おう)は認められません。
AmiVoiceの文字起こし能力検証4:領域特化エンジンで医療の専門用語だらけの文章を文字起こししてみた – YouTube
[embedded content]
AmiVoiceの文字起こし結果は下記の通り。なかなかの精度です。
体上部後壁側に潰瘍瘢痕を認めます。胃体部前壁側に広範な術後瘢痕あり。
胃体中部から体上部の後壁側大弯より2白色瘢痕。
吉野胃潰瘍瘢痕を認めます。
前回みられた幽門前部小弯側に発赤を伴う陥凹は認められません。
◆6:料金は発話区間だけなので見た目以上に安価
2023年7月時点でのAmiVoiceの料金設定は下記の通り。全て税込みでの表記となっています。課金は1秒単位で行われますが、料金の感覚をつかみやすいよう1時間分の値段が合わせて書かれています。今回のサンプルプログラムでは登場しませんでしたが、声を分析して感情の起伏を把握できる「感情解析オプション」を全てのモデルに付け加えて利用することが可能で、感情解析オプションを利用した場合はモデルの料金と感情解析オプションの料金の両方が発生します。
言語モデル | ログあり料金 | ログなし料金 | ||
---|---|---|---|---|
1秒 | 1時間 | 1秒 | 1時間 | |
汎用 | 0.0275円 | 99.0円 | 0.0440円 | 158.4円 |
医療 | 0.0825円 | 297.0円 | 0.1320円 | 475.2円 |
電子カルテ | ||||
製薬 | ||||
金融 | 0.04125円 | 148.5円 | 0.0660円 | 237.6円 |
保険 | ||||
感情解析オプション | 0.0440円 | 158.4円 | 0.0440円 | 158.4円 |
「ログあり」の場合は入力した音声をサービスの品質向上に利用されるため、低価格での提供となっています。一方「ログなし」の場合は音声データが一切サーバーに残りません。
さらに、一般的なサービスでは入力した音声データの長さ全てに課金されることが多いのですが、AmiVoiceでは実際の発話区間だけに課金されます。少々無音時間が長い音声データでも気にせず丸々AmiVoiceに解析を任せられるのはかなり便利。
毎月それぞれのエンジンを60分まで無料で利用できるため、基本的な検証や開発はコストをかけずに行えますが、2023年10月末までの期間限定Gigazineキャンペーンクーポンを使えばさらに無料期間を延ばすことが可能です。マイページの「プラン申込」タブの「クーポンを適用」にてクーポンコード「F88VxcyM4B」を入力することで、全てのエンジンを10倍の10時間分まで無料で利用でき、思う存分検証することが可能です。
日本の企業ということで、日本語の認識が得意なだけでなく、日本語による手厚いサポートを受けられるのもポイントです。さまざまな企業がすでに導入しており、音声認識エンジンとして国内シェアNo1のサービスなので、気になった人はぜひ実際に触って確かめてみてください。
AI音声認識のAPI・SDKなら-AmiVoice Cloud Platform(アミボイス)
https://acp.amivoice.com/
AmiVoice API-開発者向け音声認識エンジン(アミボイス)
https://acp.amivoice.com/amivoice_api/
AmiVoice API 利用申し込み
https://acp.amivoice.com/amivoice_api/regist/
この記事のタイトルとURLをコピーする