技術概要
|
複数話者のシングルチャンネルの混合音声から特定話者による特定発話を分離し、特定発話が分離された主音声を認識する音声認識装置であって、
予め収録された特定話者による特定発話の音声信号を周波数分析して特徴量を計算し、特定発話の音声信号の特徴量に基づいて発話モデルを学習するモデル学習部と、
混合音声の信号を周波数分析して特徴量を計算し、混合音声の信号の特徴量と発話モデルにおける特定発話の音声信号の特徴量とに基づいて、混合音声の信号と特定発話の音声信号とのマッチングを行い、混合音声から、特定発話の音声信号を含む特定発話区間を検出する特定発話区間検出部と、
発話モデルを用いて、特定発話区間検出部により検出された特定発話区間における特定発話の音声信号の推定スペクトルを生成すると共に、混合音声の信号を周波数分析してスペクトルを生成し、特定発話区間における特定発話の音声信号の推定スペクトルと、混合音声のうち特定発話区間の音声信号のスペクトルとに基づいて、混合音声の信号から特定発話の音声信号を周波数領域において分離し、特定発話が分離された主音声信号のスペクトルを生成する話者分離計算部と、を備える音声認識装置。 |