自然言語処理タスクを概観する(2) トークン単位の分類問題とその変形

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。

2. 質問応答 QA (Question Answering)

  • 概要
    • 質問に正しく応答するタスク.
    • さまざまな問題設定が存在し, それぞれに対してアプローチも異なるため, ここで独立した項として扱う.

2-1. 択一式問題への回答

  • 概要
    • 問題文と選択肢が与えられ, 正解を選択肢から一つ選ぶ.
  • データセット
    • 英語
      • ARC (AI2 Reasoning Challenge) Dataset
        • Easy Set: 小学校〜高校レベルの知識を想定した択一式問題.
        • Challenge Set: 単純な検索ベースや共起ベースでは正答できない問題だけを抜粋したもの.
      • Cosmos QA
      • MultiRC (2018)
        • ソース文も別途与えられているもの. 機械読解としての要素もある.
      • SWAG (Situations With Adversarial Generations) (2018)
        • 文の前半が与えられ, その続きとして整合性のあるものを正しく選ぶ. 機械読解としての要素もある.
      • CODAH (Commonsense Dataset Adversarially-authored by Humans) (2019)
        • 文の前半が与えられ, その続きとして整合性のあるものを正しく選ぶ. 機械読解としての要素もある.
  • 上位モデル例 (Leaderboard)
    • Transformer系: RoBERTa, BERT etc.

2-2. 機械読解 Reading Comprehension

  • 概要
    • ソース文と問題文が与えられ, 問題文に対する回答をソース文から正しく抜粋する.
  • データセット

    • 英語
      • Open-domain

        • SQuAD (Stanford Question Answering Dataset) (2016)
          • ソース文のうち回答となる箇所の開始トークンと終了トークンを正しく推定する.
          • SQuAD 1.1: 正答は必ずソース文のどこかに存在する.
          • SQuAD 2.0: 正答がソース文に存在するとは限らない (その場合はNo Answerと答えなければならない).
        • RACE (Reading Comprehension Dataset) (2017)
          • 中国の中学生〜高校生を対象とした英語の試験問題から作成されたデータセット.
          • RACE: データセット全体.
          • RACE-m: 中学生向けの問題のみ抜粋したもの.
          • RACE-h: 高校生向けの問題のみ抜粋したもの.
        • NarrativeQA (2017)
        • Quasar (2017)
        • SearchQA (2017)
        • MS MARCO (Microsoft Machine Reading Comprehension)
        • QAngaroo (2018)
        • HotpotQA (2018)
          • ソース文は2つ与えられており, 両方を使用して回答する.
        • DROP (2019)
      • Domain-specific

        • CliCR (NAACL 2018)
          • 医療言語処理の機械読解データセット. ソース文は症例報告.
          • 問題文の1単語が空白となっており, 当てはまる単語をソース文をもとに正しく推定する.
        • CNN / Daily Mail
          • ソース文はニュース記事.
          • 問題文の1固有表現が空白となっており, 当てはまる固有表現をソース文中の固有表現のなかから正しく選ぶ.
        • NewsQA (2017)
          • ソース文はCNNのニュース記事. 問題設定はSQuADなどと同様.
        • Recipe QA
          • レシピ文を対象としたもの.
        • DuoRC
          • 映画のあらすじを対象としたもの.
    • 中国語
      • Open-domain
        • DuReader
  • 上位モデル例

    • Transformer系: ALBERT, XLNet, RoBERTa, SpanBERT, SemBERT, BERT etc.
    • Attention-based: BiDAF (Bidirectional attention flow) etc.
    • RNN系: Stanford Attentive Reader

2-3. 対話形式の質問応答

  • 概要
    • ソース文が与えられた状況下で, 質問の入力と回答の出力を交互に繰り返す形式のもの.
  • データセット
    • 英語
      • CoQA (Conversational Question Answering)
        • 2つ目以降の質問文が疑問詞のみであったり ("Who?" "Where?"), 代名詞を使用していたりする.
        • これまでのやりとりを理解していないと, そもそも何を質問されているかが分からない.
      • QuAC (Question Answering in Context) (2018)
        • ソース文はある単一のWikipediaの記事.
        • ソース文を知らない生徒からの質問に対し, 教師役としてソース文を利用して正しく回答する.
  • 上位モデル例
    • Transformer系: RoBERTa, XLNet, ConvBERT etc.
    • Attention-based: BiDAF (Bidirectional attention flow) etc.
    • RNN系: Stanford Attentive Reader

2-4. Knowledge Base Question Answering

  • 概要
    • DBpedia, Wikidataなどの知識グラフなどを利用した質問応答タスク.
  • データセット
    • 多言語
      • QALD-9 (Question Answering over Linked Data)

3. トークンに対する分類問題とその変形

3-1. Missing Elements

3-1-1. Numeric Fused-Head
  • 概要
    • 文中の数詞で, 何の個数かが省略されているものに対し, それを復元する.
    • 例: I've got two months left, three__ at the most. (monthsが正解)
  • データセット
    • 英語
      • Fused-Head Dataset
  • 上位モデル例
    • BiLSTM + ELMo + Scoring

3-2. 語義曖昧性解消 WSD (Word Sense Disambiguation)

3-2-1. 語義曖昧性解消 WSD (Word Sense Disambiguation)
  • 概要
    • 文中の関心語について, その語義を事前に与えられた候補の中から正しく選ぶ.
    • 語義は WordNet に収載されているものを候補とするのが一般的.
  • データセット
  • 上位モデル例
    • 教師ありアプローチ
      • Transformer系: GlossBERT etc.
      • RNN系: ELMo, BiLSTM+Attention etc.
    • 知識ベースアプローチ
      • トピックモデルなどの非ニューラル手法が用いられる.
3-2-2. 語義推定 WSI (Word Sense Induction)
  • 概要
    • 語義曖昧性解消の教師なし版.
    • 入力語が与えられると, その語をふくむ文例を入力語の意味によってクラスタリングする.
      • 例: 入力語 cold に対し, "I caught a cold." と "The weather is cold." を異なるクラスタに分類
    • 具体的にどのような意味であるのかの検出は行わない.
  • データセット
    • 英語
      • SemEval 2013
      • SemEval 2010
  • 上位モデル例
    • Transformer系: BERT+DP etc.

まとめ

これらのタスクも分類問題の一種であるため, やはり2019年のLeaderboardはほぼBERT族が独占しています。
まだまだ続きます。順次更新していきます。