日本電信電話株式会社(NTT)は5月30日、複数の話者や話題などが混じった音源の内容を分析し、ユーザーの興味がある話だけを取り出す技術「ConceptBeam」を発表した。
ConceptBeamは、話者が話している意味的な内容を手がかりに、目的の音声を取り出す音源分離技術。画像や音声で興味の対象を指定しておくと、入力された音からそれに応じた信号のみを抽出できる。従来は、音の聞こえる方向や音の高さ(基本周波数)、音源の特徴、信号の独立性など、信号自体の物理的特性を使って音源を分離してきたが、ConceptBeamではデータから意味を取り出す「概念獲得」によって音声を取り出すのが特徴となっている。
研究チームでは、関連の有無があらかじめ分かっている画像と音声のデータを使用し、それぞれの特徴抽出を行なう際に、関連性の強さをニューラルネットワークで訓練。元データの種類に依存せず、類似度を表わす情報(特徴ベクトル)に変換できるという。
目的の音声抽出では、指定した興味と混合音声との類似性を計算し、混合音声からその概念が出現したと思われるタイミングを検出。さらに、その中でどの話者が発話しているかを検出した上で、混合音声から目的の音声を取り出す。実験では、混合音声に対して音声認識を行なう手法と、混合音声を音源分離する手法と比べて、高い精度で目的の音声を抽出できたという。なお、話者や話題が複数ある場合でも処理が可能だという。
同社では、さまざまな情報があふれる現代において、有益な情報の抽出/選択は重要性を増しており、本技術のような意味処理を導入することで、興味のある情報を高速かつ的確に取り出し、活用できる社会の実現を目指すとしている。
コメント