自然言語処理タスクを概観する(3) 系列ラベリングとその変形
NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。
4. 系列ラベリングとその変形
4-1. 品詞タグ付け POS(Part-of-speech) Tagging
- 概要
- データセット例
- 英語
- PTB (Penn Treebank)
- Penn Treebankの収載コーパスのうちWall Street Journalの記事にアノテーションを施したもの.
- 品詞タグの候補は全部で48種類ある (The Penn Treebank POS tagset).
- Ritter et al. の Dataset
- PTB (Penn Treebank)
- 多言語
- UD (Universal Dependencies)
- 2019年11月現在は90ヶ国語が利用可能.
- UD (Universal Dependencies)
- 英語
- 上位モデル例
- Transformer系: Multilingual BERT etc.
- RNN系: Meta BiLSTM, Char BiLSTM, BiLSTM+CRF etc.
- CNN系: CNN+CRF etc.
- ニューラル以前の手法としてはHMM, 最大エントロピーモデル, MEMM, CRF, ビーム探索などがある.
- 補足: 日本語形態素解析器の手法
4-2. 浅い構文解析 Shallow Syntax2
- 概要
- データセット例
- 英語
- PTB (Penn Treebank)
- 英語
- 上位モデル例
- RNN系: Flair embeddings + BiLSTM + CRF
4-3. 構文解析 Parsing (Syntactic Analysis)
4-3-1. 句構造解析 Constituency Parsing (Phrase Structure Analysis)
- 概要
- データセット例
- 英語
- PTB (Penn Treebank)
- 英語
- 上位モデル例
- Transformer系: Label Attention Layer + HPSG + XLNet etc.
- RNN系: Flair embeddings + BiLSTM + CRF
4-3-2. 依存構造解析(係り受け解析) Dependency Parsing3
- 概要
- データセット例
- 英語
- PTB (Penn Treebank)
- 元のデータは句構造ツリーであるため, Stanford typed dependencies manual に基づいて係り受け木に構成しなおしたものが用いられる.
- 依存関係ラベルはおよそ50種類定義されている.
- PTB (Penn Treebank)
- 多言語
- 英語
- 上位モデル例
- Transformer系: Label Attention Layer + HPSG + XLNet etc.
- 補足 - 日本語係り受け解析器の手法
4-3-2a. Cross-Lingual Zero-Shot Dependency Parsing
- 概要
- Source Languageで教師あり学習した依存構造解析器を, 新たな教師データなしでTarget Languageに使用する.
- 上位モデル例
- RNN系: Cross-Lingual ELMo
4-3-2b. 教師なし依存構造解析 Unsupervised Dependency Parsing
- 概要
- ラベル付き教師データを使用することなく依存構造解析を行う.
- 上位モデル例
- 非ニューラルアプローチが用いられる.
4-4. 深い構文解析
- 概要
- 通常の文脈自由文法 (CFG (Context Free Grammar)) による構文解析では扱い切れない曖昧性を扱う手法.
4-4-1. 組み合わせ範疇文法 CCG (Combinatory Categorical Grammar)
- 概要
- 品詞ラベルの発展形であるカテゴリラベルを利用して導出 Derivation を作成する.
- 導出とは CCG における独特の用語で, 意味は構文木と同様.
4-4-1a. 組み合わせ範疇文法による構文解析
4-4-1b. 組み合わせ範疇文法によるsupertagging
- 概要
- 処理の高速化を狙ってカテゴリラベルの付与だけを先に行ってしまう.
- データセット例
- CCGBank
- 上位モデル例
- RNN系: BiLSTM + Cross View Training etc.
4-4-1c. 構文木への変換 Conversion to PTB
4-5. 意味役割付与(述語項構造解析) Semantic Role Labeling
- 概要
- 入力文から形容詞や動詞を同定し, さらにそれらが掛かる箇所について, 正しい格に対応したBIOラベルを付与する.
- 用意するラベルは表層格にもとづく場合と深層格にもとづく場合がある.
- 英語などでは表層格を対象とすることは少ない (語順の情報が利用できるため)
- データセット例
- 英語
- 深層格にもとづくもの
- FrameNet
- PropBank
- OntoNotes
- 深層格にもとづくもの
- 日本語
- 表層格にもとづくもの
- 深層格にもとづくもの
- 他言語
- Universal Propbank: 中国語, フランス語, ドイツ語, イタリア語, スペイン語, ポルトガル語, フィンランド語.
- 英語
- 上位モデル例
- LSTM系: BiLSTM+ELMo etc.
4-6. 共参照解析 Coreference Resolution
- 概要
- 文中のトークンのうち同一の実体 (Entity) を指すものの組を正しく同定する.
- 共参照 coreference と照応 anaphora は共通する部分もあるが, 基本的には別の概念.
- データセット例
- 英語
- CoNLL 2012
- 英語
- 上位モデル例
- ELMo+α.
4-7. 固有表現抽出 NER (Named Entity Recognition)
- 概要
- 入力文から固有表現 (人名, 地名など) を正しく同定する.
- 具体的には, 各トークンに固有表現の種類に応じたBIOラベルを付与する.
- データセット例
- 英語
- CoNLL 2003
- WNUT 2017
- OntoNotes v5
- 英語
- 上位モデル例
- Transformer系: LSTM+CRF+ELMo+BERT+Flair etc.
- CNN系: CNN Large etc.
- LSTM系: BiLSTM+CRF+ELMo etc.
4-8. エンティティリンキング Entity Linking
- 概要
- 固有表現抽出と語義曖昧性解消がセットになったようなタスク.
- 文中の語にWikipediaなどへのリンクを適切に付与する.
- End-to-End approach: 固有表現抽出とリンクの付与を同時に行う
- Disambiguation-Only approach: 抽出済みの固有表現にリンクの付与を行う
- データセット例
- 英語
- AIDA CoNLL-YAGO Dataset
- 英語
- 上位モデル例
- RNN系: DeepType
まとめ
ここまで来ると, トークンごとの多クラス分類問題もしくは系列変換としての性格が強くなってきますが, やはりBERT族が圧倒的な強さを発揮します。
個人的には教師なし学習がどのように進化していくのかが気になります。
さらに続きます。