文書処理装置およびプログラム

開放特許情報番号
L2019000779
開放特許情報登録日
2019/6/7
最新更新日
2019/6/7

基本情報

出願番号 特願2014-237693
出願日 2014/11/25
出願人 日本放送協会
公開番号 特開2016-099868
公開日 2016/5/30
登録番号 特許第6414967号
特許権者 日本放送協会
発明の名称 文書処理装置およびプログラム
技術分野 情報・通信
機能 制御・ソフトウェア
適用製品 文書処理装置およびプログラム
目的 トピックによる出現数に極端な偏りがある場合であって、且つ、頻出するトピックに出現する単語の候補が無数にある場合にも、実践的な情報の抽出(文書の分類)を行うことのできる、文書処理装置およびプログラムを提供するものである。
効果 トピックにより極端に出現数の偏りがあるような文書群を対象とした場合にも、有効な文書分類を行うことができ、その文書群から有用な情報を抽出することが可能となる。
技術概要
複数のテキスト文書からなるデータを取得する文書データ取得部と、
取得した前記テキスト文書の各々に含まれる係り受け関係のうち、係り元が名詞であり係り先が形容詞と形容動詞と動詞とサ変接続名詞とのいずれかである特定の係り受けを抽出する係り受け抽出部と、
前記係り受けの各々について係り先に応じて付与されるラベルの組み合わせを、パターンとして、前記テキスト文書ごとに求めるパターン照応部と、
前記パターン照応部によって求められた前記パターンに基づき、
(1)パターンが1種類の前記ラベルのみを有する場合に当該パターンを有するテキスト文書と、
(2)パターンが複数種類の前記ラベルを有する場合であって、且つ、前記パターンに含まれる前記ラベル間の相関分析による信頼度が所定値より高いパターンについて、当該パターンに対応するラベルが付与された係り受けと、同じ係り元を有するテキスト文書と、
を少数派クラスタとして出力する少数派クラスタ抽出部と、
を具備することを特徴とする文書処理装置。
実施実績 【無】   
許諾実績 【無】   
特許権譲渡 【否】
特許権実施許諾 【可】

登録者情報

その他の情報

関連特許
国内 【無】
国外 【無】   
Copyright © 2019 INPIT