出願番号 |
特願2018-147162 |
出願日 |
2018/8/3 |
出願人 |
国立研究開発法人情報通信研究機構 |
公開番号 |
特開2019-032529 |
公開日 |
2019/2/28 |
登録番号 |
特許第7112075号 |
特許権者 |
国立研究開発法人情報通信研究機構 |
発明の名称 |
音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法 |
技術分野 |
情報・通信 |
機能 |
制御・ソフトウェア |
適用製品 |
音声合成 |
目的 |
リソースが限られている言語であっても効率よく学習が行える、深層学習を用いる音声合成のためのフロントエンドの学習方法、そのためのコンピュータプログラム、及び音声合成システム並びに音声合成のフロントエンド処理方法を提供する。
複数種類の言語のテキストから効率よく学習が行える、深層学習を用いる音声合成のためのフロントエンドの学習方法、そのためのコンピュータプログラム、及び音声合成システム並びに音声合成のフロントエンド処理方法を提供する。 |
効果 |
教師なし学習と教師あり学習とを組合わせることにより、DBRNN学習部120によるDBRNN132の学習に用いるデータが比較的少量でも、DBRNN132の学習を最適化できる。また、シラブルベクトルとしてワンホットベクトルではなく、GloVeベクトルを用いるため、DBRNN132への入力により多くの情報が表現でき、DBRNN132によるラベル列の推定の精度を高めることができる。 |
技術概要
 |
コンピュータが、ディープ双方向リカレントニューラルネットワーク(DBRNN)を生成する基本となる、予め設計されたリカレントニューラルネットワーク(RNN)からなる基本ユニットを定義する情報及び当該基本ユニットにより表される関数を定義するパラメータの初期値を記憶するステップと、コンピュータが、DBRNNの学習のため、各々が、音声合成に必要な言語学的特徴を表す複数種類のラベルのいずれかによりアノテートされた複数のアノテート済文字列を記憶したデータベースに接続するステップと、コンピュータが、複数のアノテート済文字列に含まれる各文字を、文字の共起関係に基づいて生成された意味的ベクトル空間内の固定長の文字ベクトルにマッピングすることにより文字ベクトル列を生成するステップと、コンピュータが、複数のアノテート済文字列から生成された文字ベクトル列と、当該文字ベクトル列に対応するラベル列との組み合わせを用いて、入力される文字列に対して、複数種類のラベルのうちで正しい確率が高いラベルをDBRNNが出力可能となるように、基本ユニットのパラメータを教師あり学習により学習するステップとを含む、音声合成のためのフロントエンドの学習方法。 |
実施実績 |
【無】 |
許諾実績 |
【無】 |
特許権譲渡 |
【否】
|
特許権実施許諾 |
【可】
|