NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており，NLP論文を読むうえで大きな助けとなってくれるでしょう。

ついにここまでやって来ました。言語の意味などを扱う，より高度なタスクを概観していきます。

7. 言語モデル Language Modeling

概要
- トークン列の文としての確からしさを評価する.
  - 古典的には, マルコフ仮定にもとづき, 最後のk単語から次の単語を予測するという問題設定だった.¹
  - ニューラル言語処理の発展以降はマルコフ仮定を用いない言語モデルに移行している.
- 評価指標はパープレキシティ preplexity.
  - 性能がよいほど小さくなる.
  - パープレキシティはコーパスから計算するため, 異なるコーパスに対しては比較できない.
データセット例
- 英語
  - 単語単位
    - PTB (Penn Treebank)
    - WikiText-2
      - Wikipedia英語版の記事から構成したもので, 約200万語彙からなる.
    - WikiText-103
      - Wikipedia英語版の記事から構成したもので, 約26.8万語彙からなる.
      - 全単語が3回以上登場するように構成されている.
    - 1B Words / Google Billion Word benchmark
      - ニュース解説サイトから構成したもので, 約8.3億トークン, 約80万語彙からなる.
      - 文脈の影響を排除するために文は意図的に並べ替えてある.
  - 文字単位
    - Hutter Prize (enwiki8)
      - Wikipedia英語版のXML dumpから構成したデータセット.
    - Text8
      - enwiki8を整形してその中身だけを抜き出したもの.
- 日本語
  - BCCWJ (日本語書き言葉均衡コーパス)
    - 「日本語について現在入手可能な唯一の均衡コーパス」で, 「書籍, 雑誌, 新聞, 白書, ブログ, ネット掲示板, 教科書, 法律などのジャンルにまたがって1億430万語のデータを格納」².
  - Google 日本語 n-gram コーパス
    - 言語資源協会 (GSK) 経由で配布されている.
  - 新聞コーパス
    - 日外アソシエーツが種々の新聞社が提供する新聞記事コーパスを販売している.
上位モデル例
- Transformer系: Transformer XL etc.

8. 意味解析 Semantic Parsing

概要
- 自然言語を, 計算機が扱えるような意味表現へと変換するタスク.
- 出力形式は以下に示すSQLまたはAMRが一般的.

8-1. 抽象的意味表現 AMR (Abstract Meaning Representation)

概要
- 意味を, 有向グラフの集合として表現する.
データセット例
- 英語
  - AMR Annotation Release 2.0
  - SemEval-2019
- 中国語
  - CAMR (Chinese Abstract Meaning Representation) Bank
上位モデル例:
- 複数のモデルの組み合わせが用いられる.

8-2. SQL parsing

概要
- 入力された質問文から, それに正しく応答するためのSQL文を自動生成する.
- こちらは生成するのが文であるため, seq2seqなアプローチが利用可能.
データセット例
- 英語
  - ATIS
    - 飛行機のフライト予約に関する質問を受け, それに答えるためのSQL文を生成するためのデータセット.
  - Advising
    - 大学の履修に関する質問を受け, それに答えるためのSQL文を生成するためのデータセット.
  - GeoQuery
    - 地理に関する質問を受け, それに答えるためのSQL文を生成するためのデータセット.
  - Scholar
    - 学術論文のデータベースに関する質問を受け, それに答えるためのSQL文を生成するためのデータセット.
  - Spider
    - cross-domainなデータセット.
  - WikiSQL
    - 質問に対し, Wikipediaの記事を利用して答えるためのSQL文を生成するためのデータセット.
上位モデル例
- RNN系: Seq2Seq + Copying etc.

9. 知識獲得など

9-1. Taxonomy Learning

概要
- コーパス中に現れる概念同士の包含関係を自動で獲得する.
- 主に2つのステップからなる:
  - (1) Hypternym Discovery: 関心語の上位概念に相当する語をコーパスから自動で抽出する.
    - 例: dog -> canine, mammal, animal
  - (2) 獲得した概念の関係全体をtaxonomyにまとめあげる.
データセット例
- 英語
  - SemEval 2018 Task 9
    - general domain
    - medical domain
      - MEDLINE (Medical Literature Analysis and Retrieval System) に収載の医学書や医学論文abstractから構成したデータセット.
    - music domain
上位モデル例
- CRIM etc.
- 既存の単一の言語モデルをそのまま適用している例は少ない.

9-2. Common Sense

概要
- 単なるパターン認識を超え, 常識を利用した推論をめざすタスク.
データセット例
- 英語
  - Event2Mind
    - 複数の人物が登場する, 日常生活の出来事を描写した文が与えられる.
    - 登場人物の行動について, その意図や受け手の反応を推定する.
  - SWAG (Situations with Adversarial Generations)
    - 動画キャプション生成用データセットの, キャプション文のみから作成したもの.
      - LSMDC (Large Scale Movie Description Challenge)
      - Activity Net
    - キャプションの前半部分が与えられ, その続きとして整合性のあるものを4つの選択肢から (動画情報は使わずに) 正しく選ぶ.
  - Winograd Schema Challenge
  - WNLI (Winograd Schema Challenge NLI)
  - VCR (Visual Commonsense Reasnoning)
    - 視覚情報の理解をめざしたデータセット.
    - 画像とその内容についての質問文が与えられ, 質問への正答を選択肢からえらぶ.
    - さらに, なぜその選択肢を選んだのかという根拠もあわせて択一式で答えさせる.
  - ReCoRD (Reading Comprehension with Commonsense Reasnoning Dataset)
    - CNN / Daily News の記事から構成したデータセット.
    - 問題設定は機械読解のタスクと似ているが, 質問文の作成を自動化してある.
上位モデル例
- Transformer系: RoBERTa, XLNet, BERT etc.

9-3. 情報抽出 IE (Information Extraction)

9-3-1. Open Knowledge Graph Canonicalization

概要
- ウェブ上の情報から知識データベースを構成するための標準化作業を行う.
- 例えば, {Barack Obama, was born in, Honolulu} と {Obama, took birth in, Honolulu} が同一であることを正しく認識する.
データセット例
- ReVerb, NELLなどの既存の OpenIE (Open Information Extraction) が抽出した情報を利用して構成している.
  - Base, Ambiguous, ReVerb45Kなどの種類がある.
上位モデル例
- CESI (Canonicalizing Open Knowledge Bases using Embeddings and Side Information) etc.

まとめ

ここまで来るとタスクが高度かつ複雑になるため，単一のできあいのモデルをそのまま使うだけでは太刀打ちできません(問題設定やデータセットにもよりますが)。
次回がこのシリーズの最後となる予定です。

『自然言語処理のための深層学習』共立出版.↩
『現在日本語書き言葉均衡コーパス概要』国立国語研究所HP.↩

radiology-nlp’s blog

自然言語処理タスクを概観する(5) 言語モデル, 情報抽出, 意味, 知識など