2019-01-01から1年間の記事一覧

Juman++, SentencePiece, BERT tokenizerの分かち書きを同じコードで書くための抽象クラス

0. 動機 自然言語処理のためには, 入力文を分かち書きし, 各トークンを数値に変換しなくてはなりません。 分かち書きのためのモジュールは Janome(MeCab), Juman++, SentencePiece, BERT tokenizer など色々提供されています。 しかし, 厄介なことに, これら…

Notebook環境でGPUメモリ使用量をリアルタイム監視する

TL;DR GPUメモリの使用量をすぐ取得できるようなPython関数をつくってみた はじめに GPUメモリの利用状況を確認するためには nvidia-smi や nvidia-smi -q -d MEMORY などの各種コマンドを利用できます。 $ nvidia-smi -q -d MEMORY >>> ==============NVSMI…

Livedoorニュースコーパスを文書分類にすぐ使えるように整形する

はじめに 日本語文書分類タスクのための代表的なコーパスの1つ,Livedoorニュースコーパス。 Livedoorニュースのニュース記事を収集して生成されており,9種類のニュース記事が計7367本収載されています。 登録なしで無償利用でき,便利なのですが,そのまま…

自然言語処理タスクを概観する(6) Multi-modal task

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。 NLPの種々のタスクとそのSOTAが掲載されています。 NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってく…

自然言語処理タスクを概観する(5) 言語モデル, 情報抽出, 意味, 知識など

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。 NLPの種々のタスクとそのSOTAが掲載されています。 NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってく…

自然言語処理タスクを概観する(4) 系列変換, 生成, 対話

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。 NLPの種々のタスクとそのSOTAが掲載されています。 NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってく…

自然言語処理タスクを概観する(3) 系列ラベリングとその変形

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。 NLPの種々のタスクとそのSOTAが掲載されています。 NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってく…

自然言語処理タスクを概観する(2) トークン単位の分類問題とその変形

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。 NLPの種々のタスクとそのSOTAが掲載されています。 NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってく…

自然言語処理タスクを概観する(1) 文書分類とその変形

NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。 NLPの種々のタスクとそのSOTAが掲載されています。 NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってく…

論文紹介: SentencePieceの原著論文+α

はじめに 2018年に登場したニューラル言語処理のための教師なしサブワード分割モジュール,SentencePiece。 開発意図や仕様を確認するために原著論文を読みました。 github.com 論文は2018年8月にarXivに投稿されています。 arxiv.org 著者・開発者はMeCab開…

論文紹介: Holistic and Comprehensive Annotation of Clinically Significant Findings on Diverse CT Images: Learning from Radiology Reports and Label Ontology

「読影レポートさえあれば,もうhand-madeの教師ラベルはいらない!?」 そんな印象をかき立てるようなタイトルの論文がCVPR 2019に出ていました。実際どうなんでしょうか?読んでみましょう。 論文へのリンクはこちらです。 arxiv.org ちなみに,cvpaper.chal…

2019年に医療言語処理のビッグウェーブが来たかもしれない

医学博士過程で自然言語処理の読影レポートへの応用をテーマにしようとしています。 サーベイの副産物です。 医療言語処理の国際会議論文を探す この機械学習の一大ブームのなかでも,特に医療への応用が遅れがちな自然言語処理。 現状はどうなっているでし…