ジャンル別テキスト収集装置およびそのプログラム
- 開放特許情報番号
- L2025000467
- 開放特許情報登録日
- 2025/5/1
- 最新更新日
- 2025/5/1
基本情報
出願番号 | 特願2020-204235 |
---|---|
出願日 | 2020/12/9 |
出願人 | 日本放送協会 |
公開番号 | |
公開日 | 2022/6/21 |
登録番号 | |
特許権者 | 日本放送協会 |
発明の名称 | ジャンル別テキスト収集装置およびそのプログラム |
技術分野 | 情報・通信 |
機能 | 制御・ソフトウェア |
適用製品 | ジャンル別テキスト収集装置およびそのプログラム |
目的 | ジャンルを特定するための文書形式、テンプレート等への依存をなくし、ジャンル別のテキストデータを精度よく大量に収集することが可能なジャンル別テキスト収集装置およびそのプログラムを提供する。 |
効果 | EPG情報に設定されている放送番組のジャンルおよび時間情報に基づいて、ジャンル別に字幕のテキストを大量に収集することができる。
これによって、音声認識、自然言語処理等で必要となるジャンルに分類された精度の高いテキストコーパスを、人手による手間を省いて取得することができる。 |
技術概要![]() |
デジタル放送に多重化されている字幕テキストからジャンル別のテキストを収集するジャンル別テキスト収集装置であって、
デジタル放送を受信し、復調する放送受信手段と、 放送受信手段で復調された信号から、字幕テキストと字幕テキストを提示する時間情報とを含む字幕情報を抽出する字幕情報抽出手段と、 復調された信号から、放送番組のEPG情報を抽出するEPG情報抽出手段と、 EPG情報から、放送番組の時間情報およびジャンルを特定する番組情報特定手段と、 字幕情報から、放送番組の時間情報で特定される時間区間の字幕テキストを抽出し、放送番組のジャンルと対応付けてジャンル別テキストとするテキスト抽出手段と、を備え、 ジャンルは、上位の項目で分類した上位分類と上位分類を細分化した下位分類とで構成され、EPG情報には、放送番組ごとにジャンルが1または複数設定され、 番組情報特定手段は、上位分類のみをジャンルとして特定し、EPG情報にジャンルが複数設定されている場合、放送番組に設定されている最も多い上位分類をジャンルとして特定することを特徴とするジャンル別テキスト収集装置。 |
実施実績 | 【無】 |
許諾実績 | 【無】 |
特許権譲渡 | 【否】 |
特許権実施許諾 | 【可】 |
登録者情報
登録者名称 | |
---|---|
その他の情報
関連特許 |
|
---|