自然言語処理タスクを概観する(1) 文書分類とその変形

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。

1. 文書分類タスクとその変形

1-1. 文書分類 Text Classification

  • 概要
    • 文書に対してNクラス分類を行う.
    • 1.の他のタスクも文書分類の亜種だが, 特に文書のドメインなどを扱うタスクがこう呼ばれる印象がある.
  • データセット
  • 上位モデル例
    • Transformer系全般: BERT, XLnet etc.
    • CNN系: Char-level CNN, DPCNN, LSTM+CNN etc.
    • 非ニューラル: SVM etc.

1-2. 感情分析(評判解析) Sentiment Analysis

  • 概要
    • 文書に対して感情極性判定を行う.
  • データセット
    • 英語
      • IMDb (Internet Movie Database)
      • SST (Stanford Sentiment Treebank)
        • Rotten Tomatoes の映画レビューから構成した構文解析木. ツリーの各ノードに negative(1) 〜 positive(25) までの25段階評価が振ってある.
        • SST-5: 5段階評価に単純化したもの.
        • SST-2: 2段階評価に単純化したもの.
      • Yelp 2013, Yelp 2014
        • Fine-grained: 5段階評価
        • Binary: 2段階評価
        • 余談ですが, yelpは画像分類のデータセットを公開していたりもします.
      • SemEval-2017 Task4
        • Subtask A: 入力=ツイート, Class=Positive, Negative, Neutral
        • Subtask B: 入力=ツイートとトピックの対, Class=Positive, Negative
        • Subtask C: 入力=ツイートとトピックの対, Class=5段階評価
        • Subtask D: Subtask B でトピックの入力を与えない(隠した)もの
        • Subtask E: Subtask C でトピックの入力を与えない(隠した)もの
  • 上位モデル例
    • Transformer系: BERT, XLnet etc.
    • CNN系: Char-level CNN, DPCNN, LSTM+CNN etc.
    • ちなみにニューラル以前は構文解析の技術が応用されていたようです.
1-2-1. ABSA (Aspect-Based Sentiment Analysis)
  • 概要
    • 感情極性判定を, 文書単位ではなく, 文書に含まれる観点それぞれに対して行う.
  • データセット
    • 英語
      • Sentihood
      • SemEval-2014 Task4
        • Subtask 1: Aspect term extraction
          • 与えられた文に含まれる aspect term をすべて同定する.
        • Subtask 2: Aspect term polarity
          • Subtask 1の解答が与えられた状態で, 各 aspect term に positive/negative/conflict/neutral を正しく付与する.
        • Subtask 3: Aspect category detection
          • 与えられた文の aspect category を事前に与えられた候補の中から正しく選ぶ.
        • Subtask 4: Aspect category polarity
          • Subtask 3の解答が与えられた状態で, 各 aspect category に positive/negative/conflict/neutral を正しく付与する.
  • 上位モデル例
    • Transformer系: BERTの各種fine-tuning etc.
1-2-2. Subjectivity Analysis
  • 概要
    • 意見が主観的/客観的のどちらであるかを判定する.
  • データセット
    • 英語
      • SUBJ (Subjectivity Dataset)
  • 上位モデル例
    • Self-Adaptive Hierarchial Sentence Model
    • CNN + MCFA (attention-based multiple context fixing attachment)
    • Byte mLSTM

1-3. Stance Detection

  • 概要
    • ソース文と応答文の組が与えられ, 応答文のソース文に対する立場(肯定的/否定的)を判定する.
  • データセット
    • 英語
      • RumourEval2017
  • 上位モデル例
    • RNN系
    • 非ニューラル

1-4. 自然言語理解 GLUE (General Language Understanding Evaluation)

1-4-1. 自然言語推論 NLI (Natural Language Inference) (含意関係認識 RTE (Recognizing Textual Entailment) とも)
  • 概要
    • 前提文Tが仮説文Hを含意するか否かを判定する. つまり,
      • Tが正しければHも正しいと推論できるなら, true (entailment)
      • Tが正しければHは誤っていると推論できるなら, false (contradiction)
      • どちらともいえないのならば undetermined (neutral)
  • データセット

    • 英語
      • SNLI (Stanford Natural Language Inference)
      • MNLI (MultiNLI, Multi-Genre Natural Language Inference)
  • 上位モデル例

    • Transformer系: RoBERTa, XLNet etc.
    • RNN系: Multi-task BiLSTM + Attention etc.
    • ニューラル以前は述語項構造解析の手法が応用されていたようです.
1-4-2. 意味的類似度評価 STS (Semantic Textual Similarity)
  • 概要
    • 与えられた2文が意味的にどのくらい類似しているかをN段階評価する.
  • データセット
    • 英語
      • SentEval
        • STS 12, STS 13, STS 14, STS 15, STS 16, STS-B
        • SICK (Sentences Involving Compositional Knowledge)
          • SICK-R (SICK-Relatedness)
          • SICK-E
        • MRPC (Microsoft Research Paraphrase Corpus)
  • 上位モデル例
    • Transformer系: XLnet
    • ほか: Snorkel MeTal, GenSen etc.
1-4-3. 言い換え認識 Paraphrase Identification
  • 概要
    • 文Yが文Xの言い換えであるか否かを評価する.
  • データセット
  • 上位モデル例
    • Transformer系: XLnet
    • ほか: Snorkel MeTal, GenSen etc.

まとめ

当然というべきか, これらのタスクは2019年ではすっかりBERT族の独壇場となりました。
他のタスクについても順次まとめていきます。