作成者 :(株)クラスキャット セールスインフォメーション
作成日 : 01/13/2019
ClassCat® TF / ONNX Hub とは
「ClassCat® TF / ONNX Hub」はクラスキャットが提供する実用性の高い機械学習モデルのレポジトリです。各モデルは TensorFlow 固有フォーマットと ONNX フォーマットの両者で提供されます。 [ClassCat® ONNX Hub 詳細]
- ONNX (Open Neural Network Exchange) は深層学習モデルのためのオープンなフォーマットで、異なるオープンソースの深層学習フレームワーク間の相互作用を可能にします。
「ClassCat TF / ONNX Hub」で提供されるモデルについてはクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は希望するモデルを自由に選択することができます。更に (ユーザ企業の保持するデータセットによる) 再調整も含めて配備・実運用するために必要なトータルサポートを提供致します。
今回は超音波画像や電子顕微鏡写真を題材にセマンティック・セグメンテーション・モデルを紹介致します。
セマンティック・セグメンテーションとは
セマンティック・セグメンテーションは簡単に言えば、画像の各ピクセルをクラス分類するタスクです。
物体検出と混同されやすいですが、物体検出は物体を囲む最小の bounding box (矩形) の予測を主眼としていますので異なるタスクです。
風景写真のようにオブジェクトが分離しやすい画像では (表面的には) 物体検出とそれほど違わない結果を得ますが、今回取り上げるような生物医学的なタスクではセマンティック・セグメンテーションが目的に良く適合することが多々あります。
U-Net
セマンティック・セグメンテーションのためにも (物体検出のように) 数多くの手法が考案され実装されています。FCN (Fully Convolutional Network), U-Net, SegNet, PSPNet 等が良く知られています。
今回は基本的な U-Net モデルを中心に紹介します。U-Net は FCN の改良版です。
U-Net の基本構造は単純です。エンコーダとデコーダに分かれ、エンコーダは (画像分類タスクで使用されるような) 通常の畳込みネットワークです。そしてデコーダで Upsampling を行ないます。畳込み Autoencoder をイメージすれば分かりやすいかもしれません。
セマンティック・セグメンテーション・モデルの紹介
以下に U-Net を中心にセマンティック・セグメンテーション・モデルの例を紹介します :
U-Net for 超音波画像
最初の例の題材は Kaggle の出題からで、超音波画像のデータセット上で神経構造を識別できるモデルの構築が求められています :
具体的には以下のサンプル画像のような首の超音波画像の BP セグメンテーションを行ないます。BP は Brachial Plexus, 腕神経叢 (わんしんけいそう) を意味します。訓練データセットには腕神経叢の超音波画像とそのマスク画像がペアになって含まれています。マスク画像が疼痛部に相当します。
左側が超音波画像、右側がそのマスク画像です :
![]() |
![]() |
訓練した U-Net モデルをテスト画像に適用して得られた画像です :
U-Net for 電子顕微鏡写真
次に同じく U-Net モデルを利用した別のセマンティック・セグメンテーションの例として、電子顕微鏡写真のデータセットを題材とします :
訓練データは、ショウジョウバエ 1 齢幼虫の腹部神経索 (VNC, ventral nerve cord) の serial section 透過電子顕微鏡 (ssTEM) データセットからの 30 セクションのセットです。提供される二値ラベルは、セグメントされた物体のピクセルのために白、残りのピクセル (殆どは膜組織に相当) のために黒で与えられます。
以下は訓練データセットのサンプルで、左側が電子顕微鏡写真で右側が正解ラベルです :
以下は U-Net モデルの適用結果です。左側がテスト画像で右側が予測になります。
このケースは目視が容易で、正しく予測されていることが分かります :
風景写真理解のためのセマンティック・セグメンテーション
少し特殊な画像が続きましたので、最後に風景画像のセマンティック・セグメンテーションの例をあげておきます。データセットは MIT Scene Parsing Benchmark からの ADE 20K データセットを利用し、モデルは PSPNet (Pyramid Scene Parsing ネットワーク) を使用してます。
以上