自然言語処理タスクを概観する(3) 系列ラベリングとその変形

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。

4. 系列ラベリングとその変形

4-1. 品詞タグ付け POS(Part-of-speech) Tagging

4-2. 浅い構文解析 Shallow Syntax2

  • 概要
    • 入力文から特定の種類の句 (名詞句, 動詞句など) を正しく同定する.
    • 具体的には, 各トークンにBIOラベルを付与する.
      • 句に属さないトークンはO, それぞれの句の先頭のトークンはB, それ以外はI.
    • もっとも簡単な構文解析処理で, 句の階層構造や単語の係り受けを考慮する必要がない.
  • データセット
    • 英語
      • PTB (Penn Treebank)
  • 上位モデル例
    • RNN系: Flair embeddings + BiLSTM + CRF

4-3. 構文解析 Parsing (Syntactic Analysis)

4-3-1. 句構造解析 Constituency Parsing (Phrase Structure Analysis)
  • 概要
    • 入力文から構文木を作成する.
    • 近年のアプローチでは構文木を系列として表現し, seq2seqタスクに帰着するのが一般的.
    • 例: John sees Bill. -> (S (N) (VP V N))
  • データセット
    • 英語
      • PTB (Penn Treebank)
  • 上位モデル例
4-3-2. 依存構造解析(係り受け解析) Dependency Parsing3
4-3-2a. Cross-Lingual Zero-Shot Dependency Parsing
  • 概要
    • Source Languageで教師あり学習した依存構造解析器を, 新たな教師データなしでTarget Languageに使用する.
  • 上位モデル例
    • RNN系: Cross-Lingual ELMo
4-3-2b. 教師なし依存構造解析 Unsupervised Dependency Parsing
  • 概要
    • ラベル付き教師データを使用することなく依存構造解析を行う.
  • 上位モデル例
    • 非ニューラルアプローチが用いられる.

4-4. 深い構文解析

  • 概要
    • 通常の文脈自由文法 (CFG (Context Free Grammar)) による構文解析では扱い切れない曖昧性を扱う手法.
4-4-1. 組み合わせ範疇文法 CCG (Combinatory Categorical Grammar)
  • 概要
    • 品詞ラベルの発展形であるカテゴリラベルを利用して導出 Derivation を作成する.
    • 導出とは CCG における独特の用語で, 意味は構文木と同様.
4-4-1a. 組み合わせ範疇文法による構文解析
  • 概要
    • 入力文から導出を作成する.
  • データセット
  • 上位モデル例
    • RNN系: LSTM
4-4-1b. 組み合わせ範疇文法によるsupertagging
  • 概要
    • 処理の高速化を狙ってカテゴリラベルの付与だけを先に行ってしまう.
  • データセット
    • CCGBank
  • 上位モデル例
    • RNN系: BiLSTM + Cross View Training etc.
4-4-1c. 構文木への変換 Conversion to PTB
  • 概要
    • CCGによる導出を文脈自由文法による構文木に変換する.
  • データセット
    • CCGBank
  • 上位モデル例
    • 非ニューラル手法が用いられる.

4-5. 意味役割付与(述語項構造解析) Semantic Role Labeling

  • 概要
    • 入力文から形容詞や動詞を同定し, さらにそれらが掛かる箇所について, 正しい格に対応したBIOラベルを付与する.
    • 用意するラベルは表層格にもとづく場合と深層格にもとづく場合がある.
      • 英語などでは表層格を対象とすることは少ない (語順の情報が利用できるため)
  • データセット
  • 上位モデル例
    • LSTM系: BiLSTM+ELMo etc.

4-6. 共参照解析 Coreference Resolution

  • 概要
    • 文中のトークンのうち同一の実体 (Entity) を指すものの組を正しく同定する.
    • 共参照 coreference と照応 anaphora は共通する部分もあるが, 基本的には別の概念.
  • データセット
    • 英語
      • CoNLL 2012
  • 上位モデル例
    • ELMo+α.

4-7. 固有表現抽出 NER (Named Entity Recognition)

  • 概要
    • 入力文から固有表現 (人名, 地名など) を正しく同定する.
    • 具体的には, 各トークンに固有表現の種類に応じたBIOラベルを付与する.
  • データセット
    • 英語
      • CoNLL 2003
      • WNUT 2017
      • OntoNotes v5
  • 上位モデル例
    • Transformer系: LSTM+CRF+ELMo+BERT+Flair etc.
    • CNN系: CNN Large etc.
    • LSTM系: BiLSTM+CRF+ELMo etc.

4-8. エンティティリンキング Entity Linking

  • 概要
    • 固有表現抽出と語義曖昧性解消がセットになったようなタスク.
    • 文中の語にWikipediaなどへのリンクを適切に付与する.
      • End-to-End approach: 固有表現抽出とリンクの付与を同時に行う
      • Disambiguation-Only approach: 抽出済みの固有表現にリンクの付与を行う
  • データセット
    • 英語
      • AIDA CoNLL-YAGO Dataset
  • 上位モデル例
    • RNN系: DeepType

まとめ

ここまで来ると, トークンごとの多クラス分類問題もしくは系列変換としての性格が強くなってきますが, やはりBERT族が圧倒的な強さを発揮します。
個人的には教師なし学習がどのように進化していくのかが気になります。 さらに続きます。