今週のinput (2020/2/1〜2/7) - radiology-nlp’s blog

論文: データセット関連

胸部単純X線のレポートと画像が対になった公開データセット.
匿名化は以下のようにして実現:
- 読影レポートの匿名化は既存のシステム (Regenstrief Scrubber) を用いた. precision 100%.
- DICOMヘッダーと画像の匿名化はRSNA's Clinical Trials Processor & DICOM supplement 142 Clinical Trials De-identification methodologyを用いた. しかし0.5%ほどの症例で個人情報が削除されずに残ってしまった.
さらにレポートへのタグ付与を次の2つの手法で行った.
- manual encoding: MeSHとRadLexのコードを人手で付与
- automatic encoding: MTIを用いた付与
ベースライン手法による症例検索性能を検討した.
- 実験用の症例検索クエリはImageCLEFのクエリを使用.
- 症例検索の性能は人手で評価した.

RCT論文からPICOを抽出するためのデータセット, EBM-NLPを作成.
コーパスはPubMed上のRCT論文5,000通.
- 分野はcardiovascular, cancer and autism
アノテーション手順は以下のとおり
- 簡便性のためPICOのIとCは区別せずP,I,Oの3種類でtagging
- ツールにはBRATを使用
- stage 1 annotation:
  - P,I,Oのいずれかに該当する区間をすべてアノテート
- stage 2 annotation:
  - P,I,Oそれぞれについて以下をアノテート
  - アノテーターの認知的負荷を減らすためP, I, Oはそれぞれ別個に行った
    - 階層構造をもったタグ
    - repetition (情報の重複を検出するため)
    - MeSHタグの付与
  - アノテーターはクラウドソーシングで募集
    - 募集にはAmazon Mechanical Turk (AMT), Up-workを使用
ベースライン
- PIO tagging
  - biLSTM-CRF: F1 score 0.63-0.71
- token level tagging
  - CRF: F1 score 0.21-0.55

中国語読影レポートに対して固有表現抽出を行い, さらに検証実験で情報抽出の効率化ができることを実証した.
対象は肺CT 3000件.
定義した固有表現ラベルは5種類
- current_stage, tumor_size, tumor_description, tumor_site, disease
- さらに同一の病変に対する固有表現どうしには同一のグループタグを割り当てた
- アノテーションは医学生1名, チェック役は医師2名
- 使ったアノテーションツールはBRAT
Embeddingは部首, 文字, 単語それぞれのレベルの情報を統合した hierarchial embedding
- 漢字 -> radical -> (CNN) -> characted -> (BIES encoder) -> word
- 行列は word2vec (CBOW) で作成
NERの手法
- 分かち書きはJieba setmentation tool
- multi-embedding-BGRU-CRF
- これとrule-based entity grouping & rankingを組み合わせた
検証実験
- 固有表現抽出のF1 score 95.88%, Entity groupingのscore acc 99.23%.
- さらに放射線科医にレポート100件から結節の性状を拾い上げさせる実験を行った
  - 所要時間は4〜5割短縮され, accuracyも0.3〜3.8ポイント上昇
課題
- Entity groupingをルールベース→ニューラルなrelation extractionに変えると性能向上する可能性あり

3週間ほど前に言語処理学会への演題登録が終わったので, 英語論文を書いています.
1月末には投稿する気でいましたが, ちょっと見通しが甘かったですね. 予想外の進まなさに慄いています.
関連文献の読み込みのレベルを上げる作業に時間がかかったり, self-containedであることを目指すために記述量が増えたりしています. いくら遅くても2月末には投稿にこぎつけたいです.
気になっていたアカデミックライティングの日本語訳が出たので買いました. 第1章からとても中身が濃く, 英文の書き方がまるで変わります. これまで書きかけていた論文も丸ごとリライトしました. www.amazon.co.jp

ずっとまともに動くsetup.pyが書けずにいましたが, ようやく自分のコードをパッケージ化できるようになりました(嬉しい!!)
参考にしたリポジトリは↓です. ディレクトリ構造を丸ごとコピーして, サンプルのsetup.pyを少し書き換えるときちんと動くようになります. 時間が余ったときに記事でもまとめようかと思います. github.com