出願番号 |
特願2006-064508 |
出願日 |
2006/3/9 |
出願人 |
日本放送協会 |
公開番号 |
特開2007-241739 |
公開日 |
2007/9/20 |
登録番号 |
特許第4933118号 |
特許権者 |
日本放送協会 |
発明の名称 |
文章区間抽出装置及びプログラム |
技術分野 |
情報・通信 |
機能 |
制御・ソフトウェア、機械・部品の製造 |
適用製品 |
情報抽出及び自然言語処理 |
目的 |
複数文から構成されるテキストデータから、定型的な表現を含む文章区間を自動抽出することが可能な文章区間抽出装置及びプログラムを提供する。 |
効果 |
複数文から構成されるテキストデータから、定型表現を含む文章区間を自動抽出することが可能となる。また、キーとなる単語の情報に加えて、定型表現を含む文章区間を抽出するようにしたから、単語の出現に偏りがなくても文章区間の抽出が可能となり、前述した非特許文献1による問題を解決することができる。また、ノードの飛び越えを許した部分木も対象とし、かつ複数文から成る木構造も対象として、類似度を算出し関数を生成しているから、複数文を対象とした文章区間の抽出が可能となり、前述した非特許文献2による問題を解決することができる。 |
技術概要
|
学習部10は、学習データから木構造及び部分木を抽出し、部分木について弱学習器を生成し、この生成した弱学習器を用いて重み付き係数を学習する。そして、重み付き係数及び弱学習器による最終仮説情報を生成する。抽出部20は、複数文から構成されたテキストデータからキーとなる単語及び文章を抽出し、その文章区間について、最終仮説情報に基づき定型的な表現が含まれるか否かを判定して、文章区間を特定する。 |
実施実績 |
【無】 |
許諾実績 |
【無】 |
特許権譲渡 |
【否】
|
特許権実施許諾 |
【可】
|