自然言語処理タスクを概観する(6) Multi-modal task
NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。
ここまで6本の記事でNLPタスクを概観してきましたが, これでいよいよ最後です。
マルチモーダルタスクを概観していきます。
近年可能となってきた, 文体を扱うタスクもここで見ていきます。
そろそろ NLP Progress のみでは内容が不足気味となってきました。ここでは Papers With Code の内容も織り交ぜていきます。
10. Text Style
10-1. 文体変換 Text Style Transfer
- 概要
- 入力文の内容を変えずに文体のみを変えたものを出力する.
- タスク設定によって, 変換後の文体のparallel corpusが存在する場合としない場合がある.
- 何をもって評価するか自体も議論の対象になっている. (例: Remi et al., NAACL 2019)
- データセット例
- 英語
- GYAFC (Grammarly's Yahoo Answers Formality Corpus) Dataset (2018) (PAPER)
- あまり大規模なShared Taskは行われていない印象がある.
- 英語
- 上位モデル例
- 近年はEncoder-Decoderベースの手法がよくとられている. Encode後の潜在空間でどのような写像を構成するかが鍵?
- Variational Autoencoder Based: Hu et al., 2017 etc.
- Encoder-Decoder + Cross Projection in Latent Space: Mingyune et al. 2019 etc.
- こちらのリポジトリに最新論文がよくまとまっています.
11. Multi-modal Task
11-1. 言語×画像
11-1-1. 画像のキャプション生成 (Image Captioning)
- 概要
- 与えられた画像に対するキャプションを自動生成する.
- 何をもって良いキャプションとするかは難しく, 人間による評価や, BLEU, METEOR, ROUGE, CIDERなどの種々の指標が用いられる.
- データセット例
- 英語
- Pascal VOC 2008
- 1000画像に5文ずつキャプションが付与されたデータセット. サイズが小さいためtestにのみ用いられる.
- Flickr8k, Flickr30k
- それぞれ8000, 3万画像に5文ずつキャプションが付与されたデータセット.
- MSCOCO (Microsoft Common Objects in Context)
- 本来は物体認識などのためのデータセットだが, 約16万画像に5文ずつキャプションが付与されてもいる.
- SBU
- Pascal VOC 2008
- 英語
- 上位モデル例
- Attention-based: BUTD (Bottom-up and Top-down attention)
- Encoder-Decoder: Vision Deep CNN + Language Generating RNN
11-1-2. VQA (Visual Question Answering)
- 概要
- 画像とそれに関する質問文が与えられ, 正しい解答を出力する. タスクによって択一式解答か短文による解答かは異なる.
- キャプション生成よりも定量的評価がしやすいためか, shared taskの対象となりやすい.
データセット例
- 英語
- NLVR (Natural Language and Vision Readoning) (2017) (PAPER)
- 丸や三角などの図形が多数配置された画像と, テキストが与えられ, テキストが画像の正しい描写になっているかどうかを True/False の二択で答えるデータセット.
- VQA (Visual Question Answering) Dataset (2015) (PAPER)
- MS COCO Dataset (主に物体認識などに特化) の約20万画像に, Abstract Scenes Datasetとして約5万画像を加えて構成している.
- 解答形式は択一式と短文の両方に対応している.
- VQA v2.0 Dataset (2017) (PAPER)
- VQAの偏りを改善したデータセット.
- 具体的には, 似たような画像群に対する正答の分布に生じていたバラつきを解消させるようなデータを追加している.
- VG (Visual Genome) Dataset (2016) (PAPER)
- 画像と言語のさまざまなデータ対が与えられたデータセット.
- 画像全体に対し, scene graphが付与されている.
- 画像中の各instanceに対し, bounding box・描写文・region graphが付与されている.
- さらに, 質問応答のためのデータとして,
- Region-Based QA: あるinstanceに関する質問文とそれに対する正答(正しい対象instanceと解答文)が付与されている.
- Free-Form QA: 特にinstanceを限定しない質問文とそれに対する正答(解答文)が付与されている.
- GQA Dataset (CVPR 2019) (PAPER)
- NLVR (Natural Language and Vision Readoning) (2017) (PAPER)
- 英語
上位モデル例
- Transformer系: LXMERT, ViLBERT, Visual-BERT etc.
- Attention-based: BUTD (Bottom-up and Top-down Attention) etc.
11-1-3. Visual Entailment
- 概要
- 含意関係認識 のマルチモーダルバージョン.
- 前提 (premise) と仮説 (hypothesis) が両方テキストで用意されるのではなく,前提 (premise) が画像で仮説 (hypothesis) がテキストになっている.
- つまり,画像とテキストが矛盾していないかどうかを Entailment, Neutral, Contradiction の3択で答えるタスク.
データセット例
- 英語
上位モデル例
- Transformer系: UNITER (ECCV 2020)
11-2. 言語×データ
11-2-1. Data-to-Text Generation
- 概要
- 表形式のデータベースなどから, そのデータを過不足なく含んだ自然な文章を生成する.
- このタスクでは変換元のデータは MRs (Meaning Representations) と呼ばれる.
- データセット例
- 上位モデル例
- Seq2seq+Attention+CNN+Ensembling: Juraska et al., 2018 etc.
- E2E NLG Challengeの結果はこの論文(INLG 2018)やこのページ(Papers With Code)に掲載されています.
まとめ
Cross-modalなタスクに対しても, CNN+RNN → Attention → Transformerという進化の流れは同様に起きています.
今まさにホットな分野であるためか, 進歩が速く, NLP ProgressやPapers With Codeなどへの掲載が追いついていない最新の成果も多くみられます.
ここまで, 全6記事でNLPの各種タスクを概観してきました.
以前よりもNLPの全体像がよりよく描けるようになった気がしています.