NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており，NLP論文を読むうえで大きな助けとなってくれるでしょう。

対話システムについては私はほとんど知識がなく, ごく簡素にしか書いていません。

5. 系列変換・生成タスクとその変形

概要
- 入力文の文法誤りを検出する. または, 訂正した結果を出力する.
データセット例
- 英語
  - CoNLL-2014
    - 英語の文法誤り訂正タスクでもっとも一般的に使用される.
    - CoNLL-2014 shared task test set: 2名の専門家がアノテーションしたもの.
    - CoNLL-2014 10 Annotations: 10名の専門家がアノテーションしたもの.
  - JFLEG (2017)
  - BEA Shared Task 2019
    - Unrestricted Track: どんなデータセットを用いてもよい.
    - Restricted Track: 以下の4つのデータセットのみ使用可.
      - W&I+LOCNESS (1998)
      - FEC (2011)
      - NAIST Lang-8 Corpus of Learner English (2011)
      - NUCLE (2013)
    - Low Resource Track: W&I+LOCNESSのみ使用可.
- 日本語
  - NAIST Lang-8 Learner Corpora
    - NAIST松本研究室が提供しているコーパス. 80ヶ国語に対応している.
    - 日本語については, 初学者の書いた文例を約18.6万文収載している.
上位モデル例
- Transformer系: Transformer+Pretrain with Pseudo Data, Copy-Augmented Transformer etc.
- CNN系: CNN + Seq2Seq etc.
- ほか: SMT + BiGRU

概要
- Source Language の入力文を Target Language に翻訳して出力する.
- 評価指標には BLEU, METEOR などがあるが, 一長一短ある.
データセット例
- 英語-ドイツ語
  - WMT 2014 EN-DE
- 英語-フランス語
  - WMT 2014 EN-FR
上位モデル例
- Transformer系: Transformer Big + Back-Translation etc.
- CNN系: ConvS2S

概要
- 入力文から, 文法的な正しさと重要な情報は保持したまま冗長な部分だけを削除する.
- つまり出力文は入力文のsubsetとなる.
- 評価指標は F1 score, Compression Rateなど.
データセット例
- 英語
  - Google Dataset (2013)
上位モデル例
- RNN系: BiRNNLM, BiLSTM etc.

6. 対話 Dialogue

概要
- 対話中における各発言の役割 (act) を正しく推定する.
- 役割は Speech Act Theory に詳しい.
データセット例
- 英語
上位モデル例
- Attention-based: CRF+Attentive Structure Network etc.
- RNN系: BiLSTM+CRF etc.

概要
- 対話の各場面で刻々と変化するユーザーの要求を正しく推定する.
データセット例
- 英語
  - DSTC2 (The Second Dialogue Systems Technology Challenges)
  - WoZ 2.0 (Wizard-of-Oz)
  - MultiWOZ
上位モデル例
- 単純な汎用モデルをそのまま適用している事例は少ない.

系列変換タスクでもBERT族は強さを発揮しています。
一方, 対話システムは対話履歴などを利用しなければならないため複数のモデルを組み合わせる傾向にあるようです。