2020-01-01から1年間の記事一覧

続・Dockerことはじめ: コンテナにホスト側のディレクトリをマウントする

0. はじめに 前回の記事はこちら 前回はTensorFlow公式のDocker Imageを入手してコンテナを起動してみました. 今回は研究プロジェクトを実際にDocker コンテナを使って進めていく準備をしたいと思います. 動作環境 CentOS Linux release 7.7.1908 Docker ver…

Dockerことはじめ: 初心者がコンテナを作ったり壊したりして覚えてみる

0. はじめに 0-1. Dockerを使おうとしたきっかけ 私は普段はPyTorch使いなのですが, 研究の都合上, どうしてもTensorFlowを使わないとならない場面に遭遇しました. しかし, とある事情で, NAISTの共用GPUサーバーの環境ではTensorFlowが使えないことが発覚し…

奈良先端大に国内留学して2ヶ月経ちました 〜生活環境の備忘録〜

いま私は医学博士課程2年目で,社会人大学院生のような立場なのですが,4月から半年間仕事をストップして,NAIST荒牧研に特別研究学生として医療言語処理を学びに国内留学しています. 大まかな理由は以下のとおりです. いまの環境が相当厳しい 自然言語処理…

MetaMapの使い方: 医療文書からUMLS conceptを抽出するには

1. 目的 ここで取り上げるのは医学論文, 診療記録, 退院サマリーなどの医療文書に対して固有表現抽出を行うMetaMapという医療言語処理ツールです. このツールを使うと任意の医療文書から疾患名, 薬剤名, 治療名などを抽出することができます. 一見, ただ目的…

MIMIC-CXRから読影レポートとjpg画像だけを取得する

はじめに 胸部単純X線の画像と読影レポートの公開データセットMIMIC-CXRを利用するための準備をしてみます。 MIMIC-CXRは次の2つの形式で公開されています: (1) MIMIC-CXR. DICOM形式の画像と, 読影レポートのtxtファイルが提供されている. physionet.org (2…

MIMIC-IIIを使えるようになるまで

0. MIMIC-IIIとは MIMIC-IIIとは米国ボストンにある Beth Israel Deaconess Medical Center (BIDMC) が収集した大規模単施設医療データセットです. ICUのあらゆる診療データが12年間にわたって収集されており, その規模は ICU stay 約6.2万回, 成人患者 約3.…

今週のinput (2020/2/1〜2/7)

論文: データセット関連 1. Preparing a collection of radiology examinations for distribution and retrieval. (JAMIA 2015) www.ncbi.nlm.nih.gov 内容 胸部単純X線のレポートと画像が対になった公開データセット. 匿名化は以下のようにして実現: 読影レ…

日本語BERTモデルをPyTorch用に変換してfine-tuningする with torchtext & pytorch-lightning

TL;DR ①TensorFlow版訓練済みモデルをPyTorch用に変換した (→方法だけ読みたい方はこちら) ②①をスムーズに使うための torchtext.data.Dataset を設計した ③PyTorch-Lightningを使ってコードを短くした はじめに 日本語Wikipediaで事前学習されたBERTモデルと…