自然言語処理タスクを概観する(5) 言語モデル, 情報抽出, 意味, 知識など
NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。
ついにここまでやって来ました。言語の意味などを扱う,より高度なタスクを概観していきます。
7. 言語モデル Language Modeling
- 概要
- データセット例
- 英語
- 単語単位
- PTB (Penn Treebank)
- WikiText-2
- Wikipedia英語版の記事から構成したもので, 約200万語彙からなる.
- WikiText-103
- Wikipedia英語版の記事から構成したもので, 約26.8万語彙からなる.
- 全単語が3回以上登場するように構成されている.
- 1B Words / Google Billion Word benchmark
- ニュース解説サイトから構成したもので, 約8.3億トークン, 約80万語彙からなる.
- 文脈の影響を排除するために文は意図的に並べ替えてある.
- 文字単位
- 単語単位
- 日本語
- BCCWJ (日本語書き言葉均衡コーパス)
- Google 日本語 n-gram コーパス
- 言語資源協会 (GSK) 経由で配布されている.
- 新聞コーパス
- 英語
- 上位モデル例
- Transformer系: Transformer XL etc.
8. 意味解析 Semantic Parsing
8-1. 抽象的意味表現 AMR (Abstract Meaning Representation)
概要
- 意味を, 有向グラフの集合として表現する.
データセット例
上位モデル例:
- 複数のモデルの組み合わせが用いられる.
8-2. SQL parsing
- 概要
- 入力された質問文から, それに正しく応答するためのSQL文を自動生成する.
- こちらは生成するのが文であるため, seq2seqなアプローチが利用可能.
- データセット例
- 英語
- ATIS
- Advising
- GeoQuery
- Scholar
- Spider
- cross-domainなデータセット.
- WikiSQL
- 英語
- 上位モデル例
- RNN系: Seq2Seq + Copying etc.
9. 知識獲得など
9-1. Taxonomy Learning
- 概要
- データセット例
- 英語
- SemEval 2018 Task 9
- general domain
- medical domain
- MEDLINE (Medical Literature Analysis and Retrieval System) に収載の医学書や医学論文abstractから構成したデータセット.
- music domain
- SemEval 2018 Task 9
- 英語
- 上位モデル例
9-2. Common Sense
- 概要
- 単なるパターン認識を超え, 常識を利用した推論をめざすタスク.
- データセット例
- 英語
- Event2Mind
- 複数の人物が登場する, 日常生活の出来事を描写した文が与えられる.
- 登場人物の行動について, その意図や受け手の反応を推定する.
- SWAG (Situations with Adversarial Generations)
- 動画キャプション生成用データセットの, キャプション文のみから作成したもの.
- LSMDC (Large Scale Movie Description Challenge)
- Activity Net
- キャプションの前半部分が与えられ, その続きとして整合性のあるものを4つの選択肢から (動画情報は使わずに) 正しく選ぶ.
- 動画キャプション生成用データセットの, キャプション文のみから作成したもの.
- Winograd Schema Challenge
- WNLI (Winograd Schema Challenge NLI)
- VCR (Visual Commonsense Reasnoning)
- 視覚情報の理解をめざしたデータセット.
- 画像とその内容についての質問文が与えられ, 質問への正答を選択肢からえらぶ.
- さらに, なぜその選択肢を選んだのかという根拠もあわせて択一式で答えさせる.
- ReCoRD (Reading Comprehension with Commonsense Reasnoning Dataset)
- CNN / Daily News の記事から構成したデータセット.
- 問題設定は機械読解のタスクと似ているが, 質問文の作成を自動化してある.
- Event2Mind
- 英語
- 上位モデル例
- Transformer系: RoBERTa, XLNet, BERT etc.
9-3. 情報抽出 IE (Information Extraction)
9-3-1. Open Knowledge Graph Canonicalization
- 概要
- ウェブ上の情報から知識データベースを構成するための標準化作業を行う.
- 例えば, {Barack Obama, was born in, Honolulu} と {Obama, took birth in, Honolulu} が同一であることを正しく認識する.
- データセット例
- ReVerb, NELLなどの既存の OpenIE (Open Information Extraction) が抽出した情報を利用して構成している.
- Base, Ambiguous, ReVerb45Kなどの種類がある.
- ReVerb, NELLなどの既存の OpenIE (Open Information Extraction) が抽出した情報を利用して構成している.
- 上位モデル例
まとめ
ここまで来るとタスクが高度かつ複雑になるため,単一のできあいのモデルをそのまま使うだけでは太刀打ちできません(問題設定やデータセットにもよりますが)。
次回がこのシリーズの最後となる予定です。