自然言語処理タスクを概観する(2) トークン単位の分類問題とその変形
NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。
2. 質問応答 QA (Question Answering)
- 概要
- 質問に正しく応答するタスク.
- さまざまな問題設定が存在し, それぞれに対してアプローチも異なるため, ここで独立した項として扱う.
2-1. 択一式問題への回答
- 概要
- 問題文と選択肢が与えられ, 正解を選択肢から一つ選ぶ.
- データセット例
- 英語
- ARC (AI2 Reasoning Challenge) Dataset
- Easy Set: 小学校〜高校レベルの知識を想定した択一式問題.
- Challenge Set: 単純な検索ベースや共起ベースでは正答できない問題だけを抜粋したもの.
- Cosmos QA
- MultiRC (2018)
- ソース文も別途与えられているもの. 機械読解としての要素もある.
- SWAG (Situations With Adversarial Generations) (2018)
- 文の前半が与えられ, その続きとして整合性のあるものを正しく選ぶ. 機械読解としての要素もある.
- CODAH (Commonsense Dataset Adversarially-authored by Humans) (2019)
- 文の前半が与えられ, その続きとして整合性のあるものを正しく選ぶ. 機械読解としての要素もある.
- ARC (AI2 Reasoning Challenge) Dataset
- 英語
- 上位モデル例 (Leaderboard)
- Transformer系: RoBERTa, BERT etc.
2-2. 機械読解 Reading Comprehension
- 概要
- ソース文と問題文が与えられ, 問題文に対する回答をソース文から正しく抜粋する.
データセット例
- 英語
Open-domain
- SQuAD (Stanford Question Answering Dataset) (2016)
- RACE (Reading Comprehension Dataset) (2017)
- NarrativeQA (2017)
- Quasar (2017)
- SearchQA (2017)
- MS MARCO (Microsoft Machine Reading Comprehension)
- QAngaroo (2018)
- HotpotQA (2018)
- ソース文は2つ与えられており, 両方を使用して回答する.
- DROP (2019)
Domain-specific
- CliCR (NAACL 2018)
- 医療言語処理の機械読解データセット. ソース文は症例報告.
- 問題文の1単語が空白となっており, 当てはまる単語をソース文をもとに正しく推定する.
- CNN / Daily Mail
- ソース文はニュース記事.
- 問題文の1固有表現が空白となっており, 当てはまる固有表現をソース文中の固有表現のなかから正しく選ぶ.
- NewsQA (2017)
- ソース文はCNNのニュース記事. 問題設定はSQuADなどと同様.
- Recipe QA
- レシピ文を対象としたもの.
- DuoRC
- 映画のあらすじを対象としたもの.
- CliCR (NAACL 2018)
- 中国語
- Open-domain
- DuReader
- Open-domain
- 英語
上位モデル例
- Transformer系: ALBERT, XLNet, RoBERTa, SpanBERT, SemBERT, BERT etc.
- Attention-based: BiDAF (Bidirectional attention flow) etc.
- RNN系: Stanford Attentive Reader
2-3. 対話形式の質問応答
- 概要
- ソース文が与えられた状況下で, 質問の入力と回答の出力を交互に繰り返す形式のもの.
- データセット例
- 英語
- CoQA (Conversational Question Answering)
- 2つ目以降の質問文が疑問詞のみであったり ("Who?" "Where?"), 代名詞を使用していたりする.
- これまでのやりとりを理解していないと, そもそも何を質問されているかが分からない.
- QuAC (Question Answering in Context) (2018)
- ソース文はある単一のWikipediaの記事.
- ソース文を知らない生徒からの質問に対し, 教師役としてソース文を利用して正しく回答する.
- CoQA (Conversational Question Answering)
- 英語
- 上位モデル例
- Transformer系: RoBERTa, XLNet, ConvBERT etc.
- Attention-based: BiDAF (Bidirectional attention flow) etc.
- RNN系: Stanford Attentive Reader
2-4. Knowledge Base Question Answering
- 概要
- DBpedia, Wikidataなどの知識グラフなどを利用した質問応答タスク.
- データセット例
- 多言語
- QALD-9 (Question Answering over Linked Data)
- 多言語
3. トークンに対する分類問題とその変形
3-1. Missing Elements
3-1-1. Numeric Fused-Head
- 概要
- 文中の数詞で, 何の個数かが省略されているものに対し, それを復元する.
- 例: I've got two months left, three__ at the most. (monthsが正解)
- データセット例
- 英語
- Fused-Head Dataset
- 英語
- 上位モデル例
- BiLSTM + ELMo + Scoring
3-2. 語義曖昧性解消 WSD (Word Sense Disambiguation)
3-2-1. 語義曖昧性解消 WSD (Word Sense Disambiguation)
- 概要
- 文中の関心語について, その語義を事前に与えられた候補の中から正しく選ぶ.
- 語義は WordNet に収載されているものを候補とするのが一般的.
- データセット例
- 英語
- 日本語
- 知識ベースアプローチ
- 情報通信研究機構 (NICT) が開発した日本語WordNetが無償で利用可能.
- 公式のPythonラッパー(2009年最終更新)はPython 2にしか対応していない.
- katryo氏によって Python 3 対応版日本語Wordnetラッパーが公開されている.
- 情報通信研究機構 (NICT) が開発した日本語WordNetが無償で利用可能.
- 知識ベースアプローチ
- 上位モデル例
- 教師ありアプローチ
- Transformer系: GlossBERT etc.
- RNN系: ELMo, BiLSTM+Attention etc.
- 知識ベースアプローチ
- トピックモデルなどの非ニューラル手法が用いられる.
- 教師ありアプローチ
3-2-2. 語義推定 WSI (Word Sense Induction)
- 概要
- データセット例
- 英語
- SemEval 2013
- SemEval 2010
- 英語
- 上位モデル例
- Transformer系: BERT+DP etc.
まとめ
これらのタスクも分類問題の一種であるため, やはり2019年のLeaderboardはほぼBERT族が独占しています。
まだまだ続きます。順次更新していきます。