NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており，NLP論文を読むうえで大きな助けとなってくれるでしょう。

ここまで6本の記事でNLPタスクを概観してきましたが, これでいよいよ最後です。
マルチモーダルタスクを概観していきます。
近年可能となってきた, 文体を扱うタスクもここで見ていきます。
そろそろ NLP Progress のみでは内容が不足気味となってきました。ここでは Papers With Code の内容も織り交ぜていきます。

10. Text Style

10-1. 文体変換 Text Style Transfer

概要
- 入力文の内容を変えずに文体のみを変えたものを出力する.
- タスク設定によって, 変換後の文体のparallel corpusが存在する場合としない場合がある.
- 何をもって評価するか自体も議論の対象になっている. (例: Remi et al., NAACL 2019)
データセット例
- 英語
  - GYAFC (Grammarly's Yahoo Answers Formality Corpus) Dataset (2018) (PAPER)
  - あまり大規模なShared Taskは行われていない印象がある.
上位モデル例
- 近年はEncoder-Decoderベースの手法がよくとられている. Encode後の潜在空間でどのような写像を構成するかが鍵?
- Variational Autoencoder Based: Hu et al., 2017 etc.
- Encoder-Decoder + Cross Projection in Latent Space: Mingyune et al. 2019 etc.
- こちらのリポジトリに最新論文がよくまとまっています.

11. Multi-modal Task

11-1. 言語×画像

11-1-1. 画像のキャプション生成 (Image Captioning)

概要
- 与えられた画像に対するキャプションを自動生成する.
- 何をもって良いキャプションとするかは難しく, 人間による評価や, BLEU, METEOR, ROUGE, CIDERなどの種々の指標が用いられる.
データセット例
- 英語
  - Pascal VOC 2008
    - 1000画像に5文ずつキャプションが付与されたデータセット. サイズが小さいためtestにのみ用いられる.
  - Flickr8k, Flickr30k
    - それぞれ8000, 3万画像に5文ずつキャプションが付与されたデータセット.
  - MSCOCO (Microsoft Common Objects in Context)
    - 本来は物体認識などのためのデータセットだが, 約16万画像に5文ずつキャプションが付与されてもいる.
  - SBU
    - Flickrの画像と, その画像がアップロードされる際に入力されたdescriptionの組からなるデータセット. 約100万対ある.
上位モデル例
- Attention-based: BUTD (Bottom-up and Top-down attention)
- Encoder-Decoder: Vision Deep CNN + Language Generating RNN

11-1-2. VQA (Visual Question Answering)

概要
- 画像とそれに関する質問文が与えられ, 正しい解答を出力する. タスクによって択一式解答か短文による解答かは異なる.
- キャプション生成よりも定量的評価がしやすいためか, shared taskの対象となりやすい.
データセット例
- 英語
  - NLVR (Natural Language and Vision Readoning) (2017) (PAPER)
    - 丸や三角などの図形が多数配置された画像と, テキストが与えられ, テキストが画像の正しい描写になっているかどうかを True/False の二択で答えるデータセット.
  - VQA (Visual Question Answering) Dataset (2015) (PAPER)
    - MS COCO Dataset (主に物体認識などに特化) の約20万画像に, Abstract Scenes Datasetとして約5万画像を加えて構成している.
    - 解答形式は択一式と短文の両方に対応している.
  - VQA v2.0 Dataset (2017) (PAPER)
    - VQAの偏りを改善したデータセット.
    - 具体的には, 似たような画像群に対する正答の分布に生じていたバラつきを解消させるようなデータを追加している.
  - VG (Visual Genome) Dataset (2016) (PAPER)
    - 画像と言語のさまざまなデータ対が与えられたデータセット.
    - 画像全体に対し, scene graphが付与されている.
    - 画像中の各instanceに対し, bounding box・描写文・region graphが付与されている.
    - さらに, 質問応答のためのデータとして,
      - Region-Based QA: あるinstanceに関する質問文とそれに対する正答(正しい対象instanceと解答文)が付与されている.
      - Free-Form QA: 特にinstanceを限定しない質問文とそれに対する正答(解答文)が付与されている.
  - GQA Dataset (CVPR 2019) (PAPER)
    - VQAの問題点を改善させたデータセット.
      - VQAには事前知識が利用できてしまう場面があり (例: VQAに登場するトマトはだいたい赤い), 画像認識や質問応答の能力を正しく測れない可能性があった.
      - VQAの成績に対する, 画像認識と質問応答のそれぞれの寄与が分析しにくかった.
    - Visual Genomeの画像とScene Graphからデータセットを構成することで, 質問に含まれる情報をきちんと整えており, 回答の各プロセスを分離して評価しやすくなっている.
上位モデル例
- Transformer系: LXMERT, ViLBERT, Visual-BERT etc.
- Attention-based: BUTD (Bottom-up and Top-down Attention) etc.

11-1-3. Visual Entailment

概要
- 含意関係認識のマルチモーダルバージョン.
- 前提 (premise) と仮説 (hypothesis) が両方テキストで用意されるのではなく，前提 (premise) が画像で仮説 (hypothesis) がテキストになっている.
- つまり，画像とテキストが矛盾していないかどうかを Entailment, Neutral, Contradiction の3択で答えるタスク.
データセット例
- 英語
  - SNLI-VE Dataset (NeurIPS 2018 Visually Grounded Interaction and Language (ViGIL) Workshop) (PAPER)
    - Stanford Natural Language Inference (SNLI) データセットの前提文を Flickr30k データセットの画像で置き換えて機械的に作成したデータセット.
    - これが可能なのは，SNLI 自体も Flickr30k を用いて作られているため.
    - SNLI では前提文が Flickr30k のキャプション，仮説文がクラウドワーカーに前提文をもとに書かせた文になっている.
上位モデル例
- Transformer系: UNITER (ECCV 2020)

11-2. 言語×データ

11-2-1. Data-to-Text Generation

概要
- 表形式のデータベースなどから, そのデータを過不足なく含んだ自然な文章を生成する.
- このタスクでは変換元のデータは MRs (Meaning Representations) と呼ばれる.
データセット例
- 英語
  - E2E NLG Challenge (End-to-end Natural Language Generation) (INLG 2018)
上位モデル例
- Seq2seq+Attention+CNN+Ensembling: Juraska et al., 2018 etc.
- E2E NLG Challengeの結果はこの論文(INLG 2018)やこのページ(Papers With Code)に掲載されています.

まとめ

Cross-modalなタスクに対しても, CNN+RNN → Attention → Transformerという進化の流れは同様に起きています.
今まさにホットな分野であるためか, 進歩が速く, NLP ProgressやPapers With Codeなどへの掲載が追いついていない最新の成果も多くみられます.
ここまで, 全6記事でNLPの各種タスクを概観してきました.
以前よりもNLPの全体像がよりよく描けるようになった気がしています.

radiology-nlp’s blog

自然言語処理タスクを概観する(6) Multi-modal task