適用製品
音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置及びそのプログラム
目的
高精度な学習データをより多く生成できる学習データ生成装置及びそのプログラムを提供する。
効果
音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。
技術概要
テキストコーパスから予め生成した第1言語モデルと、字幕テキストから予め生成した第2言語モデルとを線形補間することで、第3言語モデルを生成する第3言語モデル生成手段と、
第3言語モデル及び予め生成した音響モデルを用いて、音声データを音声認識する音声認識手段と、
音声データの音声認識結果を表す音声認識テキストと字幕テキストとの単語を、時刻順で対応付けるアライメントを行うアライメント手段と、
音声認識テキストと字幕テキストとの間で対応付けられた単語毎に、当該単語が異なり、かつ、当該単語の前後で予め設定された単語数の単語連鎖が一致するか否かにより当該単語が置換対象であるか否かを判定し、当該単語が置換対象の場合、音声認識テキストの単語を字幕テキストの単語に置換する置換手段と、
音声データの発話区間毎に、置換手段で置換された音声認識テキストと字幕テキストとが一致するか否かを判定し、一致すると判定された発話区間の音声データに、当該発話区間に対応した字幕テキストの単語をラベルとして付与することで、学習データを生成する学習データ生成手段と、
を備えることを特徴とする学習データ生成装置。