自然言語処理タスクを概観する(4) 系列変換, 生成, 対話

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。

対話システムについては私はほとんど知識がなく, ごく簡素にしか書いていません。

5. 系列変換・生成タスクとその変形

5-1. 文法誤り訂正 GEC(Grammatical Error Correction)

  • 概要
    • 入力文の文法誤りを検出する. または, 訂正した結果を出力する.
  • データセット
    • 英語
      • CoNLL-2014
        • 英語の文法誤り訂正タスクでもっとも一般的に使用される.
        • CoNLL-2014 shared task test set: 2名の専門家がアノテーションしたもの.
        • CoNLL-2014 10 Annotations: 10名の専門家がアノテーションしたもの.
      • JFLEG (2017)
      • BEA Shared Task 2019
    • 日本語
  • 上位モデル例
    • Transformer系: Transformer+Pretrain with Pseudo Data, Copy-Augmented Transformer etc.
    • CNN系: CNN + Seq2Seq etc.
    • ほか: SMT + BiGRU

5-2. 語彙正規化 Lexical Normalization

  • 概要
    • 標準的でない語彙を標準的な語彙に変換する.
    • ソーシャルメディアの文書などが対象となることが多い.
    • 標準化に伴って文章の単語長が変化することもありうるが, そのような変換はこのタスクでは考慮しない.
      • つまり, 単語ごとの逐次的な変換のみを行い, 単語の挿入/削除/順序入れ替えを伴うような変換は行わない.
      • 例: new pix comming tomoroe -> new pictures coming tomorrow
  • データセット
  • 上位モデル例
    • 非ニューラルな手法が用いられている.

5-3. 機械翻訳 Machine Translation

  • 概要
    • Source Language の入力文を Target Language に翻訳して出力する.
    • 評価指標には BLEU, METEOR などがあるが, 一長一短ある.
  • データセット
    • 英語-ドイツ語
      • WMT 2014 EN-DE
    • 英語-フランス語
      • WMT 2014 EN-FR
  • 上位モデル例
    • Transformer系: Transformer Big + Back-Translation etc.
    • CNN系: ConvS2S

5-4. 平易化 Simplification

  • 概要
    • 入力文の意味を変えずに, 初学者などにとってより可読性の高い文に変換する.
    • 具体例:
      • Unusual concept を説明する.
        • 例: small mammals -> small mammals (such as mice or rats)
      • Unusual word を Familiar term/phrase に置き換える.
        • 例: comprising -> there are about
      • 重文や複文をいくつかの単文に分離する.
      • 重要でない情報を省略する.
    • 系列ラベリング, 文書要約, 機械翻訳, 情報抽出などの前処理としても用いられる.
  • データセット
    • 英語
      • Main-Simple English Wikipedia
      • PWKP/WikiSmall
      • Turk Corpus
      • Newsela
      • Splits
  • 上位モデル例
    • 汎用的なモデルはあまり用いられていない印象がある.

5-5. 文書要約 Summarization

  • 概要
    • 1つまたは複数の文書の内容を要約した新たな短い文書を出力する.
    • 評価指標には METEOR, ROUGE などを用いるが, 限界も多い.
  • データセット
    • 英語
      • CNN / Daily Mail
        • ニュース記事からその要約を生成するためのデータセット.
      • Gigaword
        • 短文のニュースからその見出しを生成するためのデータセット.
        • CNN / Daily Mail よりもコーパスの文長が短い.
      • DUC 2004 Task 1
        • 要約前の文書 (平均35.6トークン長) と要約後の文書 (平均10.4トークン長) の500組からなる.
        • データセットが小さいためtestにのみ使用されることが多い.
      • Webis-TLDR-17 Corpus
  • 上位モデル例

5-6. 圧縮 Sentence Compression

  • 概要
    • 入力文から, 文法的な正しさと重要な情報は保持したまま冗長な部分だけを削除する.
    • つまり出力文は入力文のsubsetとなる.
    • 評価指標は F1 score, Compression Rateなど.
  • データセット
    • 英語
  • 上位モデル例
    • RNN系: BiRNNLM, BiLSTM etc.

6. 対話 Dialogue

6-1. Dialogue Act Classification

6-2. Dialogue State Tracking

  • 概要
    • 対話の各場面で刻々と変化するユーザーの要求を正しく推定する.
  • データセット
    • 英語
      • DSTC2 (The Second Dialogue Systems Technology Challenges)
      • WoZ 2.0 (Wizard-of-Oz)
      • MultiWOZ
  • 上位モデル例
    • 単純な汎用モデルをそのまま適用している事例は少ない.

6-3. Retrieal-based Chatbots

6-4. Generative-based Chatbots

  • 概要
    • 対話システムのうち, 最適な応答文を生成して出力するもの.
  • データセット
    • 英語
      • ConvAI2 (The COnversational Intelligence Challenge 2)
  • 上位モデル例
    • Transformer系: Transformerの転移学習モデルetc.
    • RNN系: Seq2Seq2+Attention etc.

6-5. Disentanglement

  • 概要
    • 同一のチャンネル上で同時進行している複数の対話をそれぞれの対話に正しく分離する.
  • データセット
  • 上位モデル例
    • Transformer系: Transformerの転移学習モデルetc.
    • RNN系: Seq2Seq2+Attention etc.

まとめ

系列変換タスクでもBERT族は強さを発揮しています。
一方, 対話システムは対話履歴などを利用しなければならないため複数のモデルを組み合わせる傾向にあるようです。