出願番号 |
特願2005-371362 |
出願日 |
2005/12/26 |
出願人 |
日本放送協会 |
公開番号 |
特開2007-171724 |
公開日 |
2007/7/5 |
登録番号 |
特許第4758758号 |
特許権者 |
日本放送協会 |
発明の名称 |
辞書作成装置および辞書作成プログラム |
技術分野 |
情報・通信、生活・文化 |
機能 |
機械・部品の製造、制御・ソフトウェア |
適用製品 |
発明は、音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた学習テキストに基づいて、辞書を更新して作成する辞書作成装置および辞書作成プログラム。 |
目的 |
音声認識における単語認識率を向上させることができる辞書を作成する辞書作成装置を提供する。 |
効果 |
予め作成されたテキストデータにおいて出現が期待され、かつ、このテキストデータにおけるエントロピーを下げるような単語列を複合語として選択して辞書を作成することができる。複数の複合語を辞書に追加する場合に、最適な複合語を1つずつ順番に辞書に登録し、漏れのないように辞書を更新することができる。文節の境界を含まない単語列を複合語として選択して辞書を作成するので、発話に伴う小休止によって生じる雑音の影響を排除できる。
以上の結果、作成された辞書によって、音声認識における単語認識率を向上させることが可能になる。 |
技術概要
 |
辞書30に属する単語を用いた文章に対して単語区切りと文節区切りとが予め付与された学習テキストを記憶した学習テキストDB10に基づいて、辞書30を更新して作成する辞書作成装置20であって、学習テキストに出現する単語ペアの出現頻度をそれぞれ計算する出現頻度計算手段21と、出現頻度の高いN個の単語ペアについて、学習テキストにおいて、単語ペアを複数の単語とみなしたときのエントロピーと、単語ペアを1つの単語とみなしたときのエントロピーとの差分をそれぞれ計算し、この差分が最大となる単語ペアを抽出するエントロピー計算手段22と、抽出された単語ペアを1つの単語とみなした複合語として辞書30に追加する語彙更新手段23とを備える。 |
実施実績 |
【無】 |
許諾実績 |
【無】 |
特許権譲渡 |
【否】
|
特許権実施許諾 |
【可】
|