バイリンガルコーパスを同時セグメント化するための装置及びそのコンピュータプログラム

開放特許情報番号
L2012002092
開放特許情報登録日
2012/7/24
最新更新日
2015/10/22

基本情報

出願番号 特願2010-238098
出願日 2010/10/25
出願人 独立行政法人情報通信研究機構
公開番号 特開2012-093808
公開日 2012/5/17
登録番号 特許第5550074号
特許権者 国立研究開発法人情報通信研究機構
発明の名称 バイリンガルコーパスを同時セグメント化するための装置及びそのコンピュータプログラム
技術分野 情報・通信
機能 機械・部品の製造、制御・ソフトウェア
適用製品 トークンのソースシーケンス及びターゲットシーケンスを同時にセグメント化するための装置
目的 過学習の問題なくトークンのソース及びターゲットシーケンスを同時セグメント化する装置を提供する。
効果 フレーズの同じ組のまとまりから構築されたフレーズテーブルを用いると、約100,000のかなり大きなフレーズテーブルを結果として得ることができ、フレーズのサイズは約5文字であって、ベースラインのそれと匹敵するものであった。音訳課題では、このフレーズテーブルは、約30%小さいサイズのフレーズテーブルから、ベースラインに比べ約7%の改善が得られた。さらに、フレーズは3372個の構成要素フレーズ対の連結であるため、このモデルは必要であれば非常にコンパクトに記憶することができる。
技術概要
装置は、第1及び第2の文字シーケンスを記憶する記憶部と、第1及び第2のシーケンスのブロック対を同時セグメント化する同時セグメント装置と、各フレーズ対の発生を計数するカウンタ74と、ブロック対をランダムにサンプルするサンプル抽出器88と、サンプルされたブロック対中のフレーズ対の数から1を引く減算器100と、サンプルされたブロック対に対する可能な全同時セグメント化の確率を計算する計算器102と、計算された確率に従って、可能な同時セグメント化の1つをサンプルするサンプル抽出器106と、フレーズ対の計数を更新する更新部108と、サンプル抽出器88から更新部108までを、終了条件が満たされるまで繰返し動作させる繰返し制御部90とを含む。
実施実績 【無】   
許諾実績 【無】   
特許権譲渡 【否】
特許権実施許諾 【可】

登録者情報

その他の情報

関連特許
国内 【無】
国外 【無】   
Copyright © 2017 INPIT