出願番号 |
特願2009-094212 |
出願日 |
2009/4/8 |
出願人 |
国立大学法人京都大学 |
公開番号 |
特開2010-243914 |
公開日 |
2010/10/28 |
登録番号 |
特許第5366050号 |
特許権者 |
国立大学法人京都大学 |
発明の名称 |
音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム |
技術分野 |
電気・電子、情報・通信 |
機能 |
機械・部品の製造、制御・ソフトウェア |
適用製品 |
講演、会議、話し言葉の音声、音声認識の精度、コーパスの構築、字幕 |
目的 |
近年、国会、地方議会などにおいて、音声認識を用いて会議録を作成しようとする試みがされていることに鑑み、整形済のテキストデータが存在している話し言葉音声データのテキスト化のための音響モデルを、効果的に作成することが可能な音響モデル学習装置の提供。 |
効果 |
文書スタイルテキストにより学習した言語モデルから、話し言葉スタイル書き起こしのための言語モデルが推定される。この言語モデルを用いることにより、発話スタイルテキストのもとになった音声データベースに書き起こしと音素ラベルとが付されるため、音声データベースの発話内容に、話し言葉特有の現象(言い淀み、繰返し、フィラーの挿入など)があったとしても、精度高く、発話音声に忠実に音声認識を行なうことができる。 |
技術概要
|
この技術では、音響モデル学習装置は、音声データベースを人間が書き起こし、整形して得られた文書スタイルテキストにより学習した言語モデルから、実際の発言内容に忠実な話し言葉スタイル書き起こしのための言語モデルを推定するための言語モデル推定手段と、予め準備された初期音響モデルと、言語モデル推定手段により推定された話し言葉スタイル書き起こしの言語モデルとを用いた音声認識により、音声データベースに書き起こしとその音素ラベルとを付すための音素ラベリング手段と、音素ラベリング手段により音素ラベルが付された音声データベースを学習データとして、音声認識用音響モデルの学習又は更新を行なうための音響モデル学習手段とを含む。好ましくは、言語モデル推定手段は、音声データベースの発話のターンごとに対応した文書スタイルテキストから、ターンごとのN−グラム言語モデルを作成するためのN−グラム作成手段と、N−グラム作成手段により作成されたターンごとのN−グラム言語モデルの各々から、話し言葉スタイル書き起こしの話し言葉用N−グラム言語モデルを推定するための手段とを含む。 |
実施実績 |
【無】 |
許諾実績 |
【無】 |
特許権譲渡 |
【可】
|
特許権実施許諾 |
【可】
|