Penn Tree Bankで定義されている品詞タグ一覧

はじめに英文を句構造文法によって自動で構文解析すると，多くのライブラリではPenn Tree Bankの仕様に従って品詞タグが付与されます. ニューラル言語処理ばかりやっていると意外とこれらの品詞タグが何を表しているかについて馴染みがないので，この機会に…

2021-06-08

SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む

背景 PyTorchでHugging Face Transformersを使って自然言語処理を行うとき，文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません．この前処理が思ったよりもやっかいなのです．事前学習済みのモデルをTransformers公…

2021-05-28

環境変数を間違えてPoetryがうまく動かなくなった話

はじめに PoetryはPythonの強力なパッケージ依存関係管理ツールです．ところで，PoetryはPythonの外部パッケージを扱うツールであって，Python本体そのものを扱うツールではないため，当然ながらPythonの本体そのものが複数存在する場合に，そのうちのどれ…

2021-05-16

シェル変数と環境変数の違いを理解する

はじめに自前で開発環境を整えようとしているうちに泥沼にはまってしまいました．直そうとしているうちにLinuxについてまだ理解していない点が沢山あることに思い至ったので，こちら↓の本を参考にシェル変数と環境変数の違いについて整理しました． www.am…

2021-05-01

Pymetamapで英語電子カルテからUMLS conceptを抽出する

はじめに NIHが提供しているMetamapというツールを使うと英語テキストから病名，薬剤名，解剖学的部位などを抽出することができます． metamap.nlm.nih.gov Metamapは本来Javaで書かれており，Pythonでデータ分析をする際に扱いづらかったのですが，世の中…

2021-04-27

spaCyで文字単位のNERアノテーションを単語単位に変換する

はじめに固有表現抽出 (Named Entity Recognition (NER)) は，英語データに対して行う場合，基本的に単語単位の系列ラベリングタスクとなります．このため，データセットもあらかじめ単語単位でラベル付けされていると便利です．しかし，世の中には残念な…

2020-07-06

続・Dockerことはじめ: コンテナにホスト側のディレクトリをマウントする

0. はじめに前回の記事はこちら前回はTensorFlow公式のDocker Imageを入手してコンテナを起動してみました. 今回は研究プロジェクトを実際にDocker コンテナを使って進めていく準備をしたいと思います. 動作環境 CentOS Linux release 7.7.1908 Docker ver…

2020-07-06

Dockerことはじめ: 初心者がコンテナを作ったり壊したりして覚えてみる

0. はじめに 0-1. Dockerを使おうとしたきっかけ私は普段はPyTorch使いなのですが, 研究の都合上, どうしてもTensorFlowを使わないとならない場面に遭遇しました. しかし, とある事情で, NAISTの共用GPUサーバーの環境ではTensorFlowが使えないことが発覚し…

2020-06-08

奈良先端大に国内留学して2ヶ月経ちました〜生活環境の備忘録〜

いま私は医学博士課程2年目で，社会人大学院生のような立場なのですが，4月から半年間仕事をストップして，NAIST荒牧研に特別研究学生として医療言語処理を学びに国内留学しています. 大まかな理由は以下のとおりです. いまの環境が相当厳しい自然言語処理…

2020-04-20

MetaMapの使い方: 医療文書からUMLS conceptを抽出するには

1. 目的ここで取り上げるのは医学論文, 診療記録, 退院サマリーなどの医療文書に対して固有表現抽出を行うMetaMapという医療言語処理ツールです. このツールを使うと任意の医療文書から疾患名, 薬剤名, 治療名などを抽出することができます. 一見, ただ目的…

2020-04-13

MIMIC-CXRから読影レポートとjpg画像だけを取得する

はじめに胸部単純X線の画像と読影レポートの公開データセットMIMIC-CXRを利用するための準備をしてみます。 MIMIC-CXRは次の2つの形式で公開されています: (1) MIMIC-CXR. DICOM形式の画像と, 読影レポートのtxtファイルが提供されている. physionet.org (2…

2020-03-21

MIMIC-IIIを使えるようになるまで

0. MIMIC-IIIとは MIMIC-IIIとは米国ボストンにある Beth Israel Deaconess Medical Center (BIDMC) が収集した大規模単施設医療データセットです. ICUのあらゆる診療データが12年間にわたって収集されており, その規模は ICU stay 約6.2万回, 成人患者約3.…

2020-02-07

今週のinput (2020/2/1〜2/7)

論文: データセット関連 1. Preparing a collection of radiology examinations for distribution and retrieval. (JAMIA 2015) www.ncbi.nlm.nih.gov 内容胸部単純X線のレポートと画像が対になった公開データセット. 匿名化は以下のようにして実現: 読影レ…

2020-01-18

日本語BERTモデルをPyTorch用に変換してfine-tuningする with torchtext & pytorch-lightning

TL;DR ①TensorFlow版訓練済みモデルをPyTorch用に変換した (→方法だけ読みたい方はこちら) ②①をスムーズに使うための torchtext.data.Dataset を設計した ③PyTorch-Lightningを使ってコードを短くしたはじめに日本語Wikipediaで事前学習されたBERTモデルと…

2019-12-21

Juman++, SentencePiece, BERT tokenizerの分かち書きを同じコードで書くための抽象クラス

0. 動機自然言語処理のためには, 入力文を分かち書きし, 各トークンを数値に変換しなくてはなりません。分かち書きのためのモジュールは Janome(MeCab), Juman++, SentencePiece, BERT tokenizer など色々提供されています。しかし, 厄介なことに, これら…

2019-12-01

Notebook環境でGPUメモリ使用量をリアルタイム監視する

TL;DR GPUメモリの使用量をすぐ取得できるようなPython関数をつくってみたはじめに GPUメモリの利用状況を確認するためには nvidia-smi や nvidia-smi -q -d MEMORY などの各種コマンドを利用できます。 $ nvidia-smi -q -d MEMORY >>> ==============NVSMI…

2019-11-25

Livedoorニュースコーパスを文書分類にすぐ使えるように整形する

はじめに日本語文書分類タスクのための代表的なコーパスの1つ，Livedoorニュースコーパス。 Livedoorニュースのニュース記事を収集して生成されており，9種類のニュース記事が計7367本収載されています。登録なしで無償利用でき，便利なのですが，そのまま…