NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており，NLP論文を読むうえで大きな助けとなってくれるでしょう。

4. 系列ラベリングとその変形

4-1. 品詞タグ付け POS(Part-of-speech) Tagging

概要
- 入力文の各トークンの品詞を正しく推定する.
- 形態素解析 (Morphological Analysis) の一部.
データセット例
- 英語
  - PTB (Penn Treebank)
    - Penn Treebankの収載コーパスのうちWall Street Journalの記事にアノテーションを施したもの.
    - 品詞タグの候補は全部で48種類ある (The Penn Treebank POS tagset).
  - Ritter et al. の Dataset
    - ツイートが対象.
    - ソーシャルメディアに対する品詞タグ付けのベンチマーク.
- 多言語
  - UD (Universal Dependencies)
    - 2019年11月現在は90ヶ国語が利用可能.
上位モデル例
- Transformer系: Multilingual BERT etc.
- RNN系: Meta BiLSTM, Char BiLSTM, BiLSTM+CRF etc.
- CNN系: CNN+CRF etc.
- ニューラル以前の手法としてはHMM, 最大エントロピーモデル, MEMM, CRF, ビーム探索などがある.
補足: 日本語形態素解析器の手法
- Juman: ルールベースによるコスト最小法
- MeCab: CRFによるコスト最小法¹
- Juman++: RNNLM

4-2. 浅い構文解析 Shallow Syntax²

概要
- 入力文から特定の種類の句 (名詞句, 動詞句など) を正しく同定する.
- 具体的には, 各トークンにBIOラベルを付与する.
  - 句に属さないトークンはO, それぞれの句の先頭のトークンはB, それ以外はI.
- もっとも簡単な構文解析処理で, 句の階層構造や単語の係り受けを考慮する必要がない.
データセット例
- 英語
  - PTB (Penn Treebank)
上位モデル例
- RNN系: Flair embeddings + BiLSTM + CRF

4-3. 構文解析 Parsing (Syntactic Analysis)

4-3-1. 句構造解析 Constituency Parsing (Phrase Structure Analysis)

概要
- 入力文から構文木を作成する.
- 近年のアプローチでは構文木を系列として表現し, seq2seqタスクに帰着するのが一般的.
- 例: John sees Bill. -> (S (N) (VP V N))
データセット例
- 英語
  - PTB (Penn Treebank)
上位モデル例
- Transformer系: Label Attention Layer + HPSG + XLNet etc.
- RNN系: Flair embeddings + BiLSTM + CRF

4-3-2. 依存構造解析(係り受け解析) Dependency Parsing³

概要
- 入力文から係り受け木を作成する.
- 単に木構造の構築のみをめざす場合と, さらに個々の枝に依存関係ラベルの付与までを行う場合がある.
  - 日本語の依存構造解析では木構造の構築のみを行うのが一般的.
データセット例
- 英語
  - PTB (Penn Treebank)
    - 元のデータは句構造ツリーであるため, Stanford typed dependencies manual に基づいて係り受け木に構成しなおしたものが用いられる.
    - 依存関係ラベルはおよそ50種類定義されている.
- 多言語
  - UD (Universal Dependencies)
上位モデル例
- Transformer系: Label Attention Layer + HPSG + XLNet etc.
補足 - 日本語係り受け解析器の手法
- KNP: 大規模格フレームに基づく確率モデル⁴
- CaboCha: SVM
- GiNZA⁵: 短単位品詞の用法曖昧性解決と依存構造解析の同時学習⁶

4-3-2a. Cross-Lingual Zero-Shot Dependency Parsing

概要
- Source Languageで教師あり学習した依存構造解析器を, 新たな教師データなしでTarget Languageに使用する.
上位モデル例
- RNN系: Cross-Lingual ELMo

4-3-2b. 教師なし依存構造解析 Unsupervised Dependency Parsing

概要
- ラベル付き教師データを使用することなく依存構造解析を行う.
上位モデル例
- 非ニューラルアプローチが用いられる.

4-4. 深い構文解析

概要
- 通常の文脈自由文法 (CFG (Context Free Grammar)) による構文解析では扱い切れない曖昧性を扱う手法.

4-4-1. 組み合わせ範疇文法 CCG (Combinatory Categorical Grammar)

概要
- 品詞ラベルの発展形であるカテゴリラベルを利用して導出 Derivation を作成する.
- 導出とは CCG における独特の用語で, 意味は構文木と同様.

4-4-1a. 組み合わせ範疇文法による構文解析

概要
- 入力文から導出を作成する.
データセット例
- 英語
  - CCGBank
  - Wikipedia
  - BioInfer
上位モデル例
- RNN系: LSTM

4-4-1b. 組み合わせ範疇文法によるsupertagging

概要
- 処理の高速化を狙ってカテゴリラベルの付与だけを先に行ってしまう.
データセット例
- CCGBank
上位モデル例
- RNN系: BiLSTM + Cross View Training etc.

4-4-1c. 構文木への変換 Conversion to PTB

概要
- CCGによる導出を文脈自由文法による構文木に変換する.
データセット例
- CCGBank
上位モデル例
- 非ニューラル手法が用いられる.

4-5. 意味役割付与(述語項構造解析) Semantic Role Labeling

概要
- 入力文から形容詞や動詞を同定し, さらにそれらが掛かる箇所について, 正しい格に対応したBIOラベルを付与する.
- 用意するラベルは表層格にもとづく場合と深層格にもとづく場合がある.
  - 英語などでは表層格を対象とすることは少ない (語順の情報が利用できるため)
データセット例
- 英語
  - 深層格にもとづくもの
    - FrameNet
    - PropBank
    - OntoNotes
- 日本語
  - 表層格にもとづくもの
    - 京都大学テキストコーパス
    - NAISTテキストコーパス
  - 深層格にもとづくもの
- 他言語
  - Universal Propbank: 中国語, フランス語, ドイツ語, イタリア語, スペイン語, ポルトガル語, フィンランド語.
上位モデル例
- LSTM系: BiLSTM+ELMo etc.

4-6. 共参照解析 Coreference Resolution

概要
- 文中のトークンのうち同一の実体 (Entity) を指すものの組を正しく同定する.
- 共参照 coreference と照応 anaphora は共通する部分もあるが, 基本的には別の概念.
データセット例
- 英語
  - CoNLL 2012
上位モデル例
- ELMo+α.

4-7. 固有表現抽出 NER (Named Entity Recognition)

概要
- 入力文から固有表現 (人名, 地名など) を正しく同定する.
- 具体的には, 各トークンに固有表現の種類に応じたBIOラベルを付与する.
データセット例
- 英語
  - CoNLL 2003
  - WNUT 2017
  - OntoNotes v5
上位モデル例
- Transformer系: LSTM+CRF+ELMo+BERT+Flair etc.
- CNN系: CNN Large etc.
- LSTM系: BiLSTM+CRF+ELMo etc.

4-8. エンティティリンキング Entity Linking

概要
- 固有表現抽出と語義曖昧性解消がセットになったようなタスク.
- 文中の語にWikipediaなどへのリンクを適切に付与する.
  - End-to-End approach: 固有表現抽出とリンクの付与を同時に行う
  - Disambiguation-Only approach: 抽出済みの固有表現にリンクの付与を行う
データセット例
- 英語
  - AIDA CoNLL-YAGO Dataset
上位モデル例
- RNN系: DeepType

まとめ

ここまで来ると, トークンごとの多クラス分類問題もしくは系列変換としての性格が強くなってきますが, やはりBERT族が圧倒的な強さを発揮します。
個人的には教師なし学習がどのように進化していくのかが気になります。さらに続きます。

radiology-nlp’s blog

自然言語処理タスクを概観する(3) 系列ラベリングとその変形

4. 系列ラベリングとその変形

4-1. 品詞タグ付け POS(Part-of-speech) Tagging

4-2. 浅い構文解析 Shallow Syntax²

4-3. 構文解析 Parsing (Syntactic Analysis)

4-3-1. 句構造解析 Constituency Parsing (Phrase Structure Analysis)

4-3-2. 依存構造解析(係り受け解析) Dependency Parsing³

4-3-2a. Cross-Lingual Zero-Shot Dependency Parsing

4-3-2b. 教師なし依存構造解析 Unsupervised Dependency Parsing

4-4. 深い構文解析

4-4-1. 組み合わせ範疇文法 CCG (Combinatory Categorical Grammar)

4-4-1a. 組み合わせ範疇文法による構文解析

4-4-1b. 組み合わせ範疇文法によるsupertagging

4-4-1c. 構文木への変換 Conversion to PTB

4-5. 意味役割付与(述語項構造解析) Semantic Role Labeling

4-6. 共参照解析 Coreference Resolution

4-7. 固有表現抽出 NER (Named Entity Recognition)

4-8. エンティティリンキング Entity Linking

まとめ

4. 系列ラベリングとその変形

4-1. 品詞タグ付け POS(Part-of-speech) Tagging

4-2. 浅い構文解析 Shallow Syntax2

4-3. 構文解析 Parsing (Syntactic Analysis)

4-3-1. 句構造解析 Constituency Parsing (Phrase Structure Analysis)

4-3-2. 依存構造解析(係り受け解析) Dependency Parsing3

4-3-2a. Cross-Lingual Zero-Shot Dependency Parsing

4-3-2b. 教師なし依存構造解析 Unsupervised Dependency Parsing

4-4. 深い構文解析

4-4-1. 組み合わせ範疇文法 CCG (Combinatory Categorical Grammar)

4-4-1a. 組み合わせ範疇文法による構文解析

4-4-1b. 組み合わせ範疇文法によるsupertagging

4-4-1c. 構文木への変換 Conversion to PTB

4-5. 意味役割付与(述語項構造解析) Semantic Role Labeling

4-6. 共参照解析 Coreference Resolution

4-7. 固有表現抽出 NER (Named Entity Recognition)

4-8. エンティティリンキング Entity Linking

まとめ

4-2. 浅い構文解析 Shallow Syntax²

4-3-2. 依存構造解析(係り受け解析) Dependency Parsing³