学習データ生成装置及びそのプログラム
基本情報
出願番号 | 特願2018-173443 |
---|---|
出願日 | 2014/10/16 |
出願人 | 日本放送協会 |
公開番号 | |
公開日 | 2019/1/17 |
登録番号 | |
特許権者 | 日本放送協会 |
発明の名称 | 学習データ生成装置及びそのプログラム |
技術分野 | 情報・通信 |
機能 | 機械・部品の製造 |
適用製品 | 音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置及びそのプログラム |
目的 | 高精度な学習データをより多く生成できる学習データ生成装置及びそのプログラムを提供する。 |
効果 | 音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。 |
技術概要 |
テキストコーパスから予め生成した第1言語モデルと、字幕テキストから予め生成した第2言語モデルとを線形補間することで、第3言語モデルを生成する第3言語モデル生成手段と、
第3言語モデル及び予め生成した音響モデルを用いて、音声データを音声認識する音声認識手段と、 音声データの音声認識結果を表す音声認識テキストと字幕テキストとの単語を、時刻順で対応付けるアライメントを行うアライメント手段と、 音声認識テキストと字幕テキストとの間で対応付けられた単語毎に、当該単語が異なり、かつ、当該単語の前後で予め設定された単語数の単語連鎖が一致するか否かにより当該単語が置換対象であるか否かを判定し、当該単語が置換対象の場合、音声認識テキストの単語を字幕テキストの単語に置換する置換手段と、 音声データの発話区間毎に、置換手段で置換された音声認識テキストと字幕テキストとが一致するか否かを判定し、一致すると判定された発話区間の音声データに、当該発話区間に対応した字幕テキストの単語をラベルとして付与することで、学習データを生成する学習データ生成手段と、 を備えることを特徴とする学習データ生成装置。 |
実施実績 | 【有】 |
許諾実績 | 【有】 |
特許権譲渡 | 【否】 |
特許権実施許諾 | 【可】 |
登録者情報
登録者名称 | |
---|---|
その他の情報
関連特許 |
|
---|