出願番号 |
特願2009-200144 |
出願日 |
2009/8/31 |
出願人 |
日本放送協会 |
公開番号 |
特開2011-053312 |
公開日 |
2011/3/17 |
登録番号 |
特許第5184467号 |
特許権者 |
日本放送協会 |
発明の名称 |
適応化音響モデル生成装置及びプログラム |
技術分野 |
情報・通信 |
機能 |
機械・部品の製造、制御・ソフトウェア |
適用製品 |
適応化音響モデル生成装置及びプログラム |
目的 |
音響モデルの元々の学習音声とは異なる言い回しが多く含まれる認識対象(タスク)において、タスクに特有の発話スタイルに依存した言い回しに起こりやすい発声変形の部分の認識精度の向上を図る適応化音響モデル生成装置及びプログラムを提供する。 |
効果 |
比較的小規模なタスク適応化音声から、発声変形が起こりやすい単語を特定することができ、予めタスク適応化音声とは異なるタスクの音声で学習された音響モデルに、発声変形の単語専用の新たな音素(発声変形単語専用音素)を与え、他の音素とは別に識別学習することで、効率よく新たなタスクに適応化した音響モデルを得ることができる。従って、既存の音素と異なる特徴量分布を有する発声変形を特定し、この発声変形の音素の音響特徴量の統計量を識別学習するため、既存の音響モデルを改善して異なるタスクを音声認識することができるようになる。 |
技術概要
|
第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置であって、
前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段と、
前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段と、
前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するタスク適応化音響モデル生成手段と、を備えることを特徴とする適応化音響モデル生成装置。 |
実施実績 |
【無】 |
許諾実績 |
【無】 |
特許権譲渡 |
【否】
|
特許権実施許諾 |
【可】
|