疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法

開放特許情報番号
L2022000626
開放特許情報登録日
2022/4/26
最新更新日
2022/4/26

基本情報

出願番号 特願2020-137323
出願日 2020/8/17
出願人 国立研究開発法人情報通信研究機構
公開番号 特開2022-033437
公開日 2022/3/2
発明の名称 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法
技術分野 情報・通信
機能 制御・ソフトウェア
適用製品 ニューラル機械翻訳の技術
目的 適応先分野(機械翻訳の対象とする分野)の対訳データが一切ない場合であっても、当該適応先分野における機械翻訳を精度良く実行するための疑似対訳データを生成する疑似対訳データ生成装置、および、当該疑似対訳データ生成装置で生成された疑似対訳データを用いて適応先分野における機械翻訳を精度良く実行する機械翻訳システム、および、当該機械翻訳システムで用いられる疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法を実現する。
効果 適応先分野(機械翻訳の対象とする分野)の対訳データが一切ない場合であっても、当該適応先分野における機械翻訳を精度良く実行するための疑似対訳データを生成する疑似対訳データ生成装置、および、当該疑似対訳データ生成装置で生成された疑似対訳データを用いて適応先分野における機械翻訳を精度良く実行する機械翻訳システム、および、当該機械翻訳システムで用いられる疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法を実現することができる。
技術概要
疑似対訳データ生成用機械翻訳モデルの学習方法であって、
他分野第1言語データと、他分野第2言語データとからなる対訳データを複数含む他分野対訳データ集合Dsetp(L1−L2)と、
他分野単言語データ集合Dsetm(L1)と、
他分野単言語データ集合Dsetm(L2)と、
適応先分野単言語データ集合Dsetm(R1)と、
適応先分野単言語データ集合Dsetm(R2)と、
を用いて、疑似対訳データ生成用機械翻訳モデルの学習処理を行い、学習処理を実行した後の疑似対訳データ生成用機械翻訳モデルに設定されているパラメータを初期パラメータに設定する初期化ステップと、
初期パラメータが設定されている状態の疑似対訳データ生成用機械翻訳モデルに対して、
(1)自己符号化処理、
(2)ゼロショット折り返し機械翻訳処理、
(3)教師あり機械翻訳処理、
の少なくとも1つを用いて、学習処理を行うことで、疑似対訳データ生成用機械翻訳モデルの最適パラメータを取得する最適化ステップと、
を備える疑似対訳データ生成用機械翻訳モデルの学習方法。
実施実績 【無】   
許諾実績 【無】   
特許権譲渡 【否】
特許権実施許諾 【可】

登録者情報

その他の情報

関連特許
国内 【無】
国外 【無】   
Copyright © 2022 INPIT