出願番号 |
特願2004-103862 |
出願日 |
2004/3/31 |
出願人 |
独立行政法人情報通信研究機構 |
公開番号 |
特開2005-292958 |
公開日 |
2005/10/20 |
登録番号 |
特許第3899414号 |
特許権者 |
国立研究開発法人情報通信研究機構 |
発明の名称 |
教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム |
技術分野 |
情報・通信 |
機能 |
制御・ソフトウェア |
適用製品 |
教師データ作成装置、言語解析処理装置、ならびに要約処理装置 |
目的 |
機械学習法を用いた言語データの解析処理において使用する教師データをコーパスから作成する場合に、解析処理の結果となる言語情報、言語情報を付与する文字、文節、単語などの箇所を、ユーザがインタラクティブなインタフェースにより自由かつ簡単に指定でき、大量なデータで構成されるコーパスの一部にのみ言語情報の付与を行った場合でも、言語情報の付与作業が確認された範囲を特定して教師データを作成できるような教師データ作成装置を提供する。 |
効果 |
ユーザは任意に定義した言語情報をコーパスのような多量なテキストデータの任意な箇所に付与して教師データを作成することができ、あるコーパスを用いて徐々に教師データを増加させていくような作業を可能とするため、過度の作業負担を軽減することができる。また、機械学習法を用いた言語データの解析処理を行う場合に、言語情報が一部のデータにのみ付与されているようなコーパスから、ユーザによる言語情報の付与が確認された範囲のデータのみを教師データとして使用し、学習精度を低下させずに機械学習を行うことができる。 |
技術概要
|
教師データ作成装置1は、CPUおよびメモリを備えて、機械学習法を用いた言語解析処理で使用する教師データを作成する装置であって、コーパス入力手段11、タグ登録手段12、タグ記憶手段13、タグ付与手段14、コーパス記憶手段15、ユーザ範囲抽出手段16、教師データ変換手段17、規則登録手段18、規則記憶手段19、素性抽出手段110、表示装置21、および入力装置22を備える。言語解析処理装置4は、教師データ作成装置1により作成された教師データを入力して機械学習法を用いた所定の言語解析処理を行う装置である。言語解析処理装置4は、機械学習手段42、学習結果記憶手段43、データ入力手段44、素性抽出手段45、解推定手段46、タグ付与手段47、解析結果表示処理手段48、および表示装置49を備える。要約処理装置6は、機械学習法により、文章の内容を示す重要文を抽出してその文章の要約を生成する処理装置である。図1は機械学習法を用いた言語解析処理を行う場合の構成例を示す図、図2は教師データ作成処理の処理フローを示す図である。 |
イメージ図 |
|
実施実績 |
【無】 |
許諾実績 |
【無】 |
特許権譲渡 |
【否】
|
特許権実施許諾 |
【可】
|