ホーム » 「ClassCat Eager-Brains」タグがついた投稿

タグアーカイブ: ClassCat Eager-Brains

ClassCat® Eager-Brains : 画像処理 :- 電子顕微鏡写真のセグメンテーション

作成者 :(株)クラスキャット セールスインフォメーション
作成日 : 05/04/2019

 

ClassCat® Eager-Brains とは

「ClassCat® Eager-Brains」はクラスキャットが提供する人工知能コレクションです。
深層学習フレームワークのデファクトスタンダードである TensorFlow の新実行モード Eager Execution に対応しています。[詳細]

「ClassCat® Eager-Brains」で提供される人工知能はクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は様々なタスクに対応する人工知能コレクションの中から要件に適合する人工知能を選択することが可能です。カスタマイズや再調整から導入支援までワンストップなサポートサービスも併せて提供致します。

本ページでは人工知能の画像処理の例として 電子顕微鏡写真のセグメンテーション タスクへの応用例を紹介致します。

 

 

画像処理 :- 電子顕微鏡写真のセグメンテーション

セマンティック・セグメンテーションとは

セマンティック・セグメンテーションは簡単に言えば、画像の各ピクセルをクラス分類するタスクです。
風景写真のように物体オブジェクトが分離しやすい画像では (表面的には) 物体検出とそれほど違わない結果を得ますが、今回取り上げるような生物医学的なタスクではセマンティック・セグメンテーションが目的に良く適合することが多々あります。

 

データセット

次の電子顕微鏡写真のデータセットを題材とします :

訓練データは、ショウジョウバエ 1 齢幼虫の腹部神経索 (VNC, ventral nerve cord) の serial section 透過電子顕微鏡 (ssTEM) データセットからの 30 セクションのセットです。提供される二値ラベルは、セグメントされた物体のピクセルのために白、残りのピクセル (殆どは膜組織に相当) のために黒で与えられます。

以下は訓練データセットのサンプルで、左側が電子顕微鏡写真で右側が正解ラベルです :

 

U-Net

セマンティック・セグメンテーションのために数多くの人工知能が考案されています。

FCN (Fully Convolutional Network), U-Net, SegNet, PSPNet 等がポピュラーですが、今回はその中から U-Net と呼称される人工知能を使用します。U-Net はオートエンコーダを改良したもので、その評価尺度 (メトリクス) としては集合の類似度を表わす Dice係数 (= Coefficient) が良く利用されます。

以下は U-Net 訓練時の損失と精度のグラフです :

 

 

予測

以下は訓練後の U-Net の適用結果です。
評価尺度として Dice 係数だけでなく、通常の二値分類も比較のために利用しました。

左側がテスト画像、中央が二値分類により訓練した U-Net による予測結果、そして右側が Dice 係数による U-Net の予測結果です :

 

 
このデータセットではテストデータに対する正解は提供されていませんが、目視が容易ですのでどちらも概ね正しく予測されていることが分かります。また、目視した限りでは二値分類でも Dice 係数でも明確な優劣はついていません。

他にも幾つか予想結果を掲載しておきます :

 

 

以上






ClassCat® Eager-Brains : サウンド処理 :- 環境音分類

作成者 :(株)クラスキャット セールスインフォメーション
作成日 : 05/02/2019

 

ClassCat® Eager-Brains とは

「ClassCat® Eager-Brains」はクラスキャットが提供する人工知能コレクションです。
深層学習フレームワークのデファクトスタンダードである TensorFlow の新実行モード Eager Execution に対応しています。[詳細]

「ClassCat® Eager-Brains」で提供される人工知能はクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は様々なタスクに対応する人工知能コレクションの中から要件に適合する人工知能を選択することが可能です。カスタマイズや再調整から導入支援までワンストップなサポートサービスも併せて提供致します。

本ページでは人工知能のサウンド処理の例として 環境音分類 タスクへの応用例を紹介致します。

 

サウンド処理 : 環境音分類

ESC-50 データセット

環境音分類の題材として利用する環境音のデータセットは ESC-50 と呼称され、ラベル付けされた 2000 の環境音録音から成ります。freesound プロジェクトにより録音収集された素材からピックアップされています。

次の 5 つのメジャーなカテゴリーに分けられて、更に 50 の意味的なクラスに分類されています :

動物

  • 犬, 雄鶏, 豚, 牛, 蛙, 猫、雌鳥, 昆虫 (flying), 羊, カラス

音風景 (soundscapes) & 水の音

  • 雨, 海の波, パチパチと燃える (= crackling) 火, コオロギ, 鳥のさえずり, 水滴, 風, 水を注ぐ音, トイレを流す音, 雷雨

人間, 非言語音

  • 赤ん坊の泣き声, くしゃみ, 拍手, 呼吸音, 咳, 足音, 笑い声, 歯磨き, いびき, 飲む/すする音

内部/家庭の音

  • 扉ノック, マウスクリック, キーボードタイピング, 扉/木のきしみ, 缶を開ける音, 洗濯機, 掃除機, 目覚まし時計, 時計が時を刻む音、ガラスが割れる音

外部/都市ノイズ

  • ヘリコプター, チェインソー, サイレン, 車のクラクション, エンジン, 電車, 教会の鐘, 飛行機, 花火, 手のこぎり

 
次の図は各メジャーカテゴリーから 2 クラスずつ選択して波形を描いたものです :

生の音からでも分類はできますが、より効率的に分類するためには人工知能を利用する前に特徴量を抽出します。

 

特徴量

音の特徴量には幾つも種類がありますが、良く利用されるのはスペクトログラムと MFCC です。

 
スペクトログラム

スペクトログラムは時間, 周波数とその強さを示す三次元グラフです。次の図は色相を利用して二次元で表しています :

 
MFCC (メル周波数ケプストラム係数)

MFCC はサウンドの特徴量としてポピュラーなものです。本来はスピーチサウンド (言語音) のために利用されます :

 

リカレント・ニューラルネットワークによる分類

サウンドは時系列データですから、RNN による分類が可能です。

 
スペクトログラム

以下はスペクトログラム上の訓練損失・検証精度の推移を表わすグラフです。テスト精度はおよそ 40 % です :

 
MFCC

以下は MFCC 上の訓練損失・検証精度の推移を表わすグラフです。テスト精度はやはりおよそ 40 % です :

 

畳み込みニューラルネットワークによる分類

サウンド生データ

CNN を利用すれば、生データからでも直接訓練可能です。テスト精度はおよそ 58% です :

 
スペクトログラム

もちろん上述の特徴量も利用できます。スペクトログラムでおよそ 60% のテスト精度に達します :

 

以上






ClassCat® Eager-Brains : サウンド処理 :- 音楽ジャンル分類

作成者 :(株)クラスキャット セールスインフォメーション
作成日 : 05/02/2019

 

ClassCat® Eager-Brains とは

「ClassCat® Eager-Brains」はクラスキャットが提供する人工知能コレクションです。
深層学習フレームワークのデファクトスタンダードである TensorFlow の新実行モード Eager Execution に対応しています。[詳細]

「ClassCat® Eager-Brains」で提供される人工知能はクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は様々なタスクに対応する人工知能コレクションの中から要件に適合する人工知能を選択することが可能です。カスタマイズや再調整から導入支援までワンストップなサポートサービスも併せて提供致します。

本ページでは人工知能のサウンド処理の例として 音楽ジャンル分類 タスクへの応用例を紹介致します。

 

サウンド処理 : 音楽ジャンル分類

データセット

音楽ジャンル分類のために題材として GTZAN ジャンル・コレクションと呼称されるデータセットを使用します。
このデータセットは 10 のジャンル(ブルース、クラシック、カントリー、ディスコ、ヒップホップ、ジャズ、メタル、ポップ、レゲエ、ロック)に分けられたサウンドファイルを分類します。各ジャンルのフォルダは約 30 秒間のサウンドファイルを 100 個ずつ保持しています。

次の図はそれぞれのジャンルから一つのファイルを選択して波形を描いたものです :

生の音からでも分類はできますが、より効率的に分類するためには人工知能を利用する前に特徴量を抽出します。

 

特徴量

音の特徴量には幾つも種類がありますが、良く利用されるのはスペクトログラムと MFCC です。

 
スペクトログラム

スペクトログラムは時間, 周波数とその強さを示す三次元グラフです。次の図は色相を利用して二次元で表しています :

 
MFCC (メル周波数ケプストラム係数)

MFCC はサウンドの特徴量としてポピュラーなものです。本来はスピーチサウンド (言語音) のために利用されます :

 

リカレント・ニューラルネットワークによる分類

サウンドは時系列データですから、RNN による分類が可能です。

 
MFCC

ここでは MFCC を基に双方向 LTM と双方向 GRU の人工知能を利用しています。
テスト精度は、bi-LSTM が 46 %、bi-GRU で 43 % です :

 

畳み込みニューラルネットワークによる分類

 
MFCC

およそ 64 % のテスト精度を獲得できます。

 

以上






AI導入支援 #2 ウェビナー

スモールスタートを可能としたAI導入支援   Vol.2
[無料 WEB セミナー] [詳細]
「画像認識 AI PoC スターターパック」の紹介
既に AI 技術を実ビジネスで活用し、成果を上げている日本企業も多く存在しており、競争優位なビジネスを展開しております。
しかしながら AI を導入したくとも PoC (概念実証) だけでも高額な費用がかかり取組めていない企業も少なくないようです。A I導入時には欠かせない PoC を手軽にしかも短期間で認知度を確認可能とするサービの紹介と共に、AI 技術の特性と具体的な導入プロセスに加え運用時のポイントについても解説いたします。
日時:2021年10月13日(水)
会場:WEBセミナー
共催:クラスキャット、日本FLOW(株)
後援:働き方改革推進コンソーシアム
参加費: 無料 (事前登録制)
人工知能開発支援
◆ クラスキャットは 人工知能研究開発支援 サービスを提供しています :
  • テクニカルコンサルティングサービス
  • 実証実験 (プロトタイプ構築)
  • アプリケーションへの実装
  • 人工知能研修サービス
◆ お問合せ先 ◆
(株)クラスキャット
セールス・インフォメーション
E-Mail:sales-info@classcat.com