音声合成方法、音声合成装置および音声合成プログラム

開放特許情報番号
L2010006396
開放特許情報登録日
2010/12/17
最新更新日
2010/12/17

基本情報

出願番号 特願2003-296584
出願日 2003/8/20
出願人 日本放送協会
公開番号 特開2004-139033
公開日 2004/5/13
登録番号 特許第4532862号
特許権者 日本放送協会
発明の名称 音声合成方法、音声合成装置および音声合成プログラム
技術分野 情報・通信
機能 制御・ソフトウェア
適用製品 音声合成装置
目的 この発明は、音声合成処理を高速にすると共に、音声合成した音声合成データを高品質に維持することができる音声合成方法の提供を目的とする。
効果 複数音素分割候補が音素分割候補の前後の調音結合に従ったものであるので、単純に音素を探索単位とした場合および単語を探索単位とした場合よりも音声合成処理を高速にすることができ、この複数音素分割候補を探索単位としているので、連結コストおよび音韻韻律コストを計算する計算候補を削減でき、音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。
技術概要
音声合成方法は、音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する方法である。 まず、入力されたテキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする。 音韻韻律情報が付加された音素分割候補の中から、音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を組み合わせた音声データ列として、音声合成用データベースからビタービサーチする。 ビタービサーチされた音声データ列の各音素分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、予測韻律を基準とする一定範囲に補正を行う。 補正を行った結果を音声合成データとして出力する。 なお、連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。
イメージ図
実施実績 【無】   
許諾実績 【無】   
特許権譲渡 【否】
特許権実施許諾 【可】

登録者情報

その他の情報

関連特許
国内 【無】
国外 【無】   
Copyright © 2018 INPIT