自然言語処理タスクを概観する(4) 系列変換, 生成, 対話
NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。
対話システムについては私はほとんど知識がなく, ごく簡素にしか書いていません。
5. 系列変換・生成タスクとその変形
5-1. 文法誤り訂正 GEC(Grammatical Error Correction)
- 概要
- 入力文の文法誤りを検出する. または, 訂正した結果を出力する.
- データセット例
- 英語
- CoNLL-2014
- JFLEG (2017)
- BEA Shared Task 2019
- Unrestricted Track: どんなデータセットを用いてもよい.
- Restricted Track: 以下の4つのデータセットのみ使用可.
- W&I+LOCNESS (1998)
- FEC (2011)
- NAIST Lang-8 Corpus of Learner English (2011)
- NUCLE (2013)
- Low Resource Track: W&I+LOCNESSのみ使用可.
- 日本語
- 英語
- 上位モデル例
- Transformer系: Transformer+Pretrain with Pseudo Data, Copy-Augmented Transformer etc.
- CNN系: CNN + Seq2Seq etc.
- ほか: SMT + BiGRU
5-2. 語彙正規化 Lexical Normalization
- 概要
- 標準的でない語彙を標準的な語彙に変換する.
- ソーシャルメディアの文書などが対象となることが多い.
- 標準化に伴って文章の単語長が変化することもありうるが, そのような変換はこのタスクでは考慮しない.
- つまり, 単語ごとの逐次的な変換のみを行い, 単語の挿入/削除/順序入れ替えを伴うような変換は行わない.
- 例: new pix comming tomoroe -> new pictures coming tomorrow
- データセット例
- 英語
- LexNorm
- アノテーション付きのツイートからなる.
- LexNorm
- 英語
- 上位モデル例
- 非ニューラルな手法が用いられている.
5-3. 機械翻訳 Machine Translation
- 概要
- Source Language の入力文を Target Language に翻訳して出力する.
- 評価指標には BLEU, METEOR などがあるが, 一長一短ある.
- データセット例
- 英語-ドイツ語
- WMT 2014 EN-DE
- 英語-フランス語
- WMT 2014 EN-FR
- 英語-ドイツ語
- 上位モデル例
- Transformer系: Transformer Big + Back-Translation etc.
- CNN系: ConvS2S
5-4. 平易化 Simplification
- 概要
- 入力文の意味を変えずに, 初学者などにとってより可読性の高い文に変換する.
- 具体例:
- Unusual concept を説明する.
- 例: small mammals -> small mammals (such as mice or rats)
- Unusual word を Familiar term/phrase に置き換える.
- 例: comprising -> there are about
- 重文や複文をいくつかの単文に分離する.
- 重要でない情報を省略する.
- Unusual concept を説明する.
- 系列ラベリング, 文書要約, 機械翻訳, 情報抽出などの前処理としても用いられる.
- データセット例
- 英語
- Main-Simple English Wikipedia
- PWKP/WikiSmall
- Turk Corpus
- Newsela
- Splits
- 英語
- 上位モデル例
- 汎用的なモデルはあまり用いられていない印象がある.
5-5. 文書要約 Summarization
- 概要
- 1つまたは複数の文書の内容を要約した新たな短い文書を出力する.
- 評価指標には METEOR, ROUGE などを用いるが, 限界も多い.
- データセット例
- 上位モデル例
- GAN, 強化学習, BERT, Convolutional Seq2Seqなど.
5-6. 圧縮 Sentence Compression
- 概要
- 入力文から, 文法的な正しさと重要な情報は保持したまま冗長な部分だけを削除する.
- つまり出力文は入力文のsubsetとなる.
- 評価指標は F1 score, Compression Rateなど.
- データセット例
- 英語
- Google Dataset (2013)
- 英語
- 上位モデル例
- RNN系: BiRNNLM, BiLSTM etc.
6. 対話 Dialogue
6-1. Dialogue Act Classification
- 概要
- 対話中における各発言の役割 (act) を正しく推定する.
- 役割は Speech Act Theory に詳しい.
- データセット例
- 英語
- 上位モデル例
- Attention-based: CRF+Attentive Structure Network etc.
- RNN系: BiLSTM+CRF etc.
6-2. Dialogue State Tracking
- 概要
- 対話の各場面で刻々と変化するユーザーの要求を正しく推定する.
- データセット例
- 英語
- DSTC2 (The Second Dialogue Systems Technology Challenges)
- WoZ 2.0 (Wizard-of-Oz)
- MultiWOZ
- 英語
- 上位モデル例
- 単純な汎用モデルをそのまま適用している事例は少ない.
6-3. Retrieal-based Chatbots
- 概要
- 対話システムのうち, 最適な応答を既存の選択肢から選んで出力するもの.
- データセット例
- 上位モデル例
- Transformer系: BERT etc.
- RNN系: ELMo
6-4. Generative-based Chatbots
- 概要
- 対話システムのうち, 最適な応答文を生成して出力するもの.
- データセット例
- 英語
- ConvAI2 (The COnversational Intelligence Challenge 2)
- 英語
- 上位モデル例
- Transformer系: Transformerの転移学習モデルetc.
- RNN系: Seq2Seq2+Attention etc.
6-5. Disentanglement
- 概要
- 同一のチャンネル上で同時進行している複数の対話をそれぞれの対話に正しく分離する.
- データセット例
- 上位モデル例
- Transformer系: Transformerの転移学習モデルetc.
- RNN系: Seq2Seq2+Attention etc.
まとめ
系列変換タスクでもBERT族は強さを発揮しています。
一方, 対話システムは対話履歴などを利用しなければならないため複数のモデルを組み合わせる傾向にあるようです。