目的
音素の弾性率を考慮しつつ、安定で高精度な話速変換が可能な音声合成処理を行う音声合成処理装置を実現する。
効果
音素の弾性率を考慮しつつ、安定で高精度な話速変換が可能な音声合成処理を行う音声合成処理装置を実現することができる。
技術概要
音素系列データを入力し、エンコード処理を実行し、データを出力するエンコーダと、
第1データを取得し、音素系列データに含まれる各音素の継続長を推定する処理を行う継続長推定処理部で、継続長推定処理部と、
音響特徴量を取得するデコーダと、
音声波形を生成するボコーダと、
を備え、
継続長推定処理部は、
継続長の推定平均値と推定分散値に相当するデータを取得する写像変換層と、
処理後のデータを範囲規制分散データとして取得する範囲規制処理部と、
処理後のデータを推定平均データとして取得する活性化処理部と、
推定音素継続長を取得する継続長取得部と、
を有し、
それぞれ、パラメータを更新することで学習可能である学習モデル、あるいは、学習モデルの学習済みモデルを搭載することが可能であり、
各音素の継続長の正解データにガウスノイズを付加したデータと、範囲規制分散データと、推定平均データとに基づいて、音素継続長についての損失を算出し、算出した損失に基づいて、エンコーダ、継続長推定処理部、および、デコーダのパラメータを更新することで、学習処理が実行され、学習処理により取得された学習済みモデルを搭載できる、
音声合成処理装置。