自然言語処理タスクを概観する(1) 文書分類とその変形
NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。
NLPの種々のタスクとそのSOTAが掲載されています。
NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。
1. 文書分類タスクとその変形
1-1. 文書分類 Text Classification
- 概要
- 文書に対してNクラス分類を行う.
- 1.の他のタスクも文書分類の亜種だが, 特に文書のドメインなどを扱うタスクがこう呼ばれる印象がある.
- データセット例
- 英語
- AG News Corpus
- DBpedia ontology
- TREC dataset
- TREC-6: open-domain questionからなるデータセット. 全6クラス.
- TREC-50: 全50クラス.
- 英語
- 上位モデル例
- Transformer系全般: BERT, XLnet etc.
- CNN系: Char-level CNN, DPCNN, LSTM+CNN etc.
- 非ニューラル: SVM etc.
1-2. 感情分析(評判解析) Sentiment Analysis
- 概要
- 文書に対して感情極性判定を行う.
- データセット例
- 英語
- IMDb (Internet Movie Database)
- Internet Movie Database (Amazon傘下) の映画レビューとrating(★1~10)が対になったもの.
- Kaggleのtutorial competitionにも使用されています.
- SST (Stanford Sentiment Treebank)
- Yelp 2013, Yelp 2014
- Fine-grained: 5段階評価
- Binary: 2段階評価
- 余談ですが, yelpは画像分類のデータセットを公開していたりもします.
- SemEval-2017 Task4
- Subtask A: 入力=ツイート, Class=Positive, Negative, Neutral
- Subtask B: 入力=ツイートとトピックの対, Class=Positive, Negative
- Subtask C: 入力=ツイートとトピックの対, Class=5段階評価
- Subtask D: Subtask B でトピックの入力を与えない(隠した)もの
- Subtask E: Subtask C でトピックの入力を与えない(隠した)もの
- IMDb (Internet Movie Database)
- 英語
- 上位モデル例
- Transformer系: BERT, XLnet etc.
- CNN系: Char-level CNN, DPCNN, LSTM+CNN etc.
- ちなみにニューラル以前は構文解析の技術が応用されていたようです.
1-2-1. ABSA (Aspect-Based Sentiment Analysis)
- 概要
- 感情極性判定を, 文書単位ではなく, 文書に含まれる観点それぞれに対して行う.
- データセット例
- 英語
- Sentihood
- SemEval-2014 Task4
- Subtask 1: Aspect term extraction
- 与えられた文に含まれる aspect term をすべて同定する.
- Subtask 2: Aspect term polarity
- Subtask 1の解答が与えられた状態で, 各 aspect term に positive/negative/conflict/neutral を正しく付与する.
- Subtask 3: Aspect category detection
- 与えられた文の aspect category を事前に与えられた候補の中から正しく選ぶ.
- Subtask 4: Aspect category polarity
- Subtask 3の解答が与えられた状態で, 各 aspect category に positive/negative/conflict/neutral を正しく付与する.
- Subtask 1: Aspect term extraction
- 英語
- 上位モデル例
- Transformer系: BERTの各種fine-tuning etc.
1-2-2. Subjectivity Analysis
- 概要
- 意見が主観的/客観的のどちらであるかを判定する.
- データセット例
- 英語
- SUBJ (Subjectivity Dataset)
- 英語
- 上位モデル例
- Self-Adaptive Hierarchial Sentence Model
- CNN + MCFA (attention-based multiple context fixing attachment)
- Byte mLSTM
1-3. Stance Detection
- 概要
- ソース文と応答文の組が与えられ, 応答文のソース文に対する立場(肯定的/否定的)を判定する.
- データセット例
- 英語
- RumourEval2017
- 英語
- 上位モデル例
- RNN系
- 非ニューラル
1-4. 自然言語理解 GLUE (General Language Understanding Evaluation)
1-4-1. 自然言語推論 NLI (Natural Language Inference) (含意関係認識 RTE (Recognizing Textual Entailment) とも)
- 概要
- 前提文Tが仮説文Hを含意するか否かを判定する. つまり,
- Tが正しければHも正しいと推論できるなら, true (entailment)
- Tが正しければHは誤っていると推論できるなら, false (contradiction)
- どちらともいえないのならば undetermined (neutral)
- 前提文Tが仮説文Hを含意するか否かを判定する. つまり,
データセット例
- 英語
- SNLI (Stanford Natural Language Inference)
- MNLI (MultiNLI, Multi-Genre Natural Language Inference)
- 英語
上位モデル例
- Transformer系: RoBERTa, XLNet etc.
- RNN系: Multi-task BiLSTM + Attention etc.
- ニューラル以前は述語項構造解析の手法が応用されていたようです.
1-4-2. 意味的類似度評価 STS (Semantic Textual Similarity)
- 概要
- 与えられた2文が意味的にどのくらい類似しているかをN段階評価する.
- データセット例
- 上位モデル例
- Transformer系: XLnet
- ほか: Snorkel MeTal, GenSen etc.
1-4-3. 言い換え認識 Paraphrase Identification
- 概要
- 文Yが文Xの言い換えであるか否かを評価する.
- データセット例
- 英語
- QQP (Quora Question Pairs)
- Kaggleの過去コンペの題材にもなりましたね.
- QQP (Quora Question Pairs)
- 英語
- 上位モデル例
- Transformer系: XLnet
- ほか: Snorkel MeTal, GenSen etc.
まとめ
当然というべきか, これらのタスクは2019年ではすっかりBERT族の独壇場となりました。
他のタスクについても順次まとめていきます。