適用製品
統計的処理に基づく音声処理、特に、各音素の音響特徴量の統計量を音響モデルとして処理を行なう音響処理装置およびそのプログラム
目的
字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、高い認識率によって音響モデルの学習データを自動生成し、多様な発話スタイルに対応できる音響モデルを作成できる音響モデル学習装置を提供する。
効果
字幕が付与されている様々な番組音声から、大量の音響モデルの学習データを効率的に得ることができる。また、字幕と実際の音声との一致率が低い番組音声からも、より効率的に、音響モデルの学習データを得ることが可能となる。特に、字幕と音声の一致しない区間の一部からも学習データを得ることができる。また、これまで認識できなかった番組や話者の認識が可能になったり、音声認識の認識精度の向上が可能になったりする。
技術概要
音響処理装置が、音声の認識処理を行い、認識仮説および前記認識仮説に付随する信頼度データを含んだ認識結果データを出力する認識処理部と、前記音声に対応するテキストデータと前記認識処理部が出力した認識結果データとに基づきこれら両データの一致区間を選択するとともに、前記一致区間の時間を含み且つ前記テキストデータとは一致しない前記認識仮説を枝刈りし、枝刈り後の認識仮説および付随する信頼度データを基に信頼区間を選択し、前記一致区間および前記信頼区間のデータを出力する選択処理部とを具備する。