話者認識システム

開放特許情報番号
L2009004884
開放特許情報登録日
2009/8/14
最新更新日
2009/8/14

基本情報

出願番号 特願2007-061123
出願日 2007/3/10
出願人 国立大学法人豊橋技術科学大学
公開番号 特開2008-224911
公開日 2008/9/25
発明の名称 話者認識システム
技術分野 電気・電子、情報・通信
機能 機械・部品の製造、制御・ソフトウェア、検査・検出
適用製品 話者同定、話者照合、セキュリティ、音声中に含まれている個人の特徴、建物の入室管理、パソコンのパスワードに変わる個人管理、グループ内での個人同定、発言者の自動付与
目的 パワースペクトルだけでなく、位相情報にも話者情報が存在することを見出し、この位相情報は、パワースペクトルと比べれば、話者情報は少ないため、パワースペクトルと併用することによって、位相情報がパワースペクトルの補間作用があることを見出したことに鑑み、パワースペクトル情報だけでなく、従来から利用されてこなかった位相情報を話者認識に適用することの実現。
効果 話者認識評価用音声データベースを用いて、有効性を検証すると、世界的な標準的特徴パラメータであるMFCCを用いた場合の同定率は95.7%であり、一方、最初の12個の位相パラメータを用いる場合は、41.0%、この両者の尤度を併用した尤度を用いて話者同定を行うと、97.6%に向上することができる。
技術概要
この技術は、従来の話者認識システムの特徴抽出部に位相情報の特徴パラメータを抽出する機能を追加する。それに応じて、話者モデル作成、尤度計算、話者判定部を改良して実現する。すなわち、特徴抽出部では、音声分析結果をもとに、特徴パラメータを抽出する。代表的な特徴パラメータであるMFCCなどのほかに、位相特徴パラメータを抽出する。位相情報を求めるために、実数部と虚数部の比から角度を求める(位相)。この位相は切り出し位置によって変動するので、ある基準周波数ωがπ/4になるように、他の周波数の位相を相対的な値に正規化する。この128個の値のうち、トレーニングデータ量と認識精度のトレードオフを考慮して、適切な12個程度を使用する。どの12個程度を用いるかはいろんな方法が考えられる。例えば、最初の12個を用いる。これは、60ヘルツから720ヘルツの周波数帯域に相当する。これらの特徴パラメータは、フレーム周期ごとに算出され、時系列パラメータとなる。
実施実績 【無】   
許諾実績 【無】   
特許権譲渡 【否】
特許権実施許諾 【可】

登録者情報

その他の情報

関連特許
国内 【無】
国外 【無】   
Copyright © 2018 INPIT