自然言語処理タスクを概観する(6) Multi-modal task

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。

ここまで6本の記事でNLPタスクを概観してきましたが, これでいよいよ最後です。
マルチモーダルタスクを概観していきます。
近年可能となってきた, 文体を扱うタスクもここで見ていきます。
そろそろ NLP Progress のみでは内容が不足気味となってきました。ここでは Papers With Code の内容も織り交ぜていきます。

10. Text Style

10-1. 文体変換 Text Style Transfer

  • 概要
    • 入力文の内容を変えずに文体のみを変えたものを出力する.
    • タスク設定によって, 変換後の文体のparallel corpusが存在する場合としない場合がある.
    • 何をもって評価するか自体も議論の対象になっている. (例: Remi et al., NAACL 2019)
  • データセット
    • 英語
      • GYAFC (Grammarly's Yahoo Answers Formality Corpus) Dataset (2018) (PAPER)
      • あまり大規模なShared Taskは行われていない印象がある.
  • 上位モデル例

11. Multi-modal Task

11-1. 言語×画像

11-1-1. 画像のキャプション生成 (Image Captioning)
11-1-2. VQA (Visual Question Answering)
  • 概要
    • 画像とそれに関する質問文が与えられ, 正しい解答を出力する. タスクによって択一式解答か短文による解答かは異なる.
    • キャプション生成よりも定量的評価がしやすいためか, shared taskの対象となりやすい.
  • データセット

    • 英語
      • NLVR (Natural Language and Vision Readoning) (2017) (PAPER)
        • 丸や三角などの図形が多数配置された画像と, テキストが与えられ, テキストが画像の正しい描写になっているかどうかを True/False の二択で答えるデータセット.
      • VQA (Visual Question Answering) Dataset (2015) (PAPER)
        • MS COCO Dataset (主に物体認識などに特化) の約20万画像に, Abstract Scenes Datasetとして約5万画像を加えて構成している.
        • 解答形式は択一式と短文の両方に対応している.
      • VQA v2.0 Dataset (2017) (PAPER)
        • VQAの偏りを改善したデータセット.
        • 具体的には, 似たような画像群に対する正答の分布に生じていたバラつきを解消させるようなデータを追加している.
      • VG (Visual Genome) Dataset (2016) (PAPER)
        • 画像と言語のさまざまなデータ対が与えられたデータセット.
        • 画像全体に対し, scene graphが付与されている.
        • 画像中の各instanceに対し, bounding box・描写文・region graphが付与されている.
        • さらに, 質問応答のためのデータとして,
          • Region-Based QA: あるinstanceに関する質問文とそれに対する正答(正しい対象instanceと解答文)が付与されている.
          • Free-Form QA: 特にinstanceを限定しない質問文とそれに対する正答(解答文)が付与されている.
      • GQA Dataset (CVPR 2019) (PAPER)
        • VQAの問題点を改善させたデータセット.
          • VQAには事前知識が利用できてしまう場面があり (例: VQAに登場するトマトはだいたい赤い), 画像認識や質問応答の能力を正しく測れない可能性があった.
          • VQAの成績に対する, 画像認識と質問応答のそれぞれの寄与が分析しにくかった.
        • Visual Genomeの画像とScene Graphからデータセットを構成することで, 質問に含まれる情報をきちんと整えており, 回答の各プロセスを分離して評価しやすくなっている.
  • 上位モデル例

11-1-3. Visual Entailment
  • 概要
    • 含意関係認識 のマルチモーダルバージョン.
    • 前提 (premise) と仮説 (hypothesis) が両方テキストで用意されるのではなく,前提 (premise) が画像で仮説 (hypothesis) がテキストになっている.
    • つまり,画像とテキストが矛盾していないかどうかを Entailment, Neutral, Contradiction の3択で答えるタスク.
  • データセット

    • 英語
      • SNLI-VE Dataset (NeurIPS 2018 Visually Grounded Interaction and Language (ViGIL) Workshop) (PAPER)
        • Stanford Natural Language Inference (SNLI) データセットの前提文を Flickr30k データセットの画像で置き換えて機械的に作成したデータセット.
        • これが可能なのは,SNLI 自体も Flickr30k を用いて作られているため.
        • SNLI では前提文が Flickr30k のキャプション,仮説文がクラウドワーカーに前提文をもとに書かせた文になっている.
  • 上位モデル例

11-2. 言語×データ

11-2-1. Data-to-Text Generation

まとめ

Cross-modalなタスクに対しても, CNN+RNN → Attention → Transformerという進化の流れは同様に起きています.
今まさにホットな分野であるためか, 進歩が速く, NLP ProgressやPapers With Codeなどへの掲載が追いついていない最新の成果も多くみられます.
ここまで, 全6記事でNLPの各種タスクを概観してきました.
以前よりもNLPの全体像がよりよく描けるようになった気がしています.