作成者 :(株)クラスキャット セールスインフォメーション
最終更新日 : 01/20/2019 ; 作成日 : 01/13/2019
ClassCat® TF/ONNX Hub とは
「ClassCat® TF/ONNX Hub」はクラスキャットが提供する実用性の高い機械学習モデルのレポジトリです。各モデルは TensorFlow 固有フォーマットと ONNX フォーマットの両者で提供されます。 [ClassCat® ONNX Hub 詳細]
- ONNX (Open Neural Network Exchange) は深層学習モデルのためのオープンなフォーマットで、異なるオープンソースの深層学習フレームワーク間の相互作用を可能にします。
「ClassCat TF/ONNX Hub」で提供されるモデルについてはクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は希望するモデルを自由に選択することができます。更に (ユーザ企業の保持するデータセットによる) 再調整も含めて実運用するために必要なトータルサポートを提供致します。
◆ このページでは「ClassCat TF/ONNX Hub」で提供可能なモデル例を一覧にまとめています。
ClassCat® TF/ONNX Hub 提供モデル例一覧
画像処理
Mask R-CNN 対応 Detectron 互換 物体検出モデル
「物体検出」は画像の複数種類の物体の位置を特定してクラス分類することを可能にする、実用的で応用範囲が広い技術です。
深層学習技術の普及により画像全体の情報からクラス分類を行なう「物体認識」については畳み込みニューラルネットワーク (CNN) の利用により手軽に成果が出せるようになりましたが、「物体検出」を行なうためには更に多岐に渡る技術が必要となります。
物体検出の手法としては Fast R-CNN, Faster R-CNN, YOLO 更には SSD などが良く知られていますが、最新技術としては Mask R-CNN が有名です。Mask R-CNN は物体検出した領域についてセマンティック・セグメンテーションも遂行します。
Detectron は FAIR (Facebook AI Research) が開発して 2018 年にオープンソース化した物体検出フレームワークです。クラスキャットでは、機能を Faster R-CNN と Mask R-CNN 中心に限定した Detectron 互換モデルを提供しております。
セマンティック・セグメンテーション
「セマンティック・セグメンテーション」は簡単に言えば、画像の各ピクセルをクラス分類するタスクです。物体検出と混同されやすいですが、物体検出は物体を囲む最小の bounding box (矩形) の予測を主眼としていますので異なるタスクです。
風景写真のようにオブジェクトが分離しやすい画像では物体検出とそれほど違わない印象を受けますが、生物医学的なタスクではセマンティック・セグメンテーションが目的に良く適合することが多々あります。
医療画像処理モデル
医療画像処理の分野は AI の活用が大きく期待されている分野の一つです。
医療画像は通常 DICOM 形式で提供されますが、 一般的なフォーマットに変換すれば後は物体認識 (分類)、物体検出、あるいはセマンティック・セグメンテーションのような汎用 AI 技術が当てはまるタスクが多いです。
ここでは胸部レントゲンを中心に疾患の分類と患部の位置特定を遂行しています。また血液細胞の画像で赤血球、白血球そして血小板を検出する例も示します。
顔検出モデル
顔検出 は歩行者検出等の技術と同様に深層学習ブーム以前から研究されてきています。OpenCV や dlib C++ ライブラリを利用した、顔の bounding box 検出や輪郭検出は数多くの実装例がありましたが、深層学習フレームワークと組み合わせることによってより複雑なモデルが考案・開発されるようになりました。
モデルの発展の方向性は多岐に渡ります。顔の単純なローカリゼーション (位置特定) だけでなく、例えば目鼻の位置も併せて特定したり (顔の造形の再構築が可能であるような) 十分な数のランドマーク (目印) を予測するモデルもあります。
更には Pix2Face と呼ばれる、2 次元の顔画像から 3 次元の顔を構築する試みもされています。
人物ポーズ推定
上で顔のポーズ推定のためにランドマーク検出するモデルを紹介しましたが、身体全体を扱うモデルもあります。身体全体のポーズ推定でもやはりキーポイントの検出を遂行します。
人物ポーズ推定モデルでは、2 次元 RGB 画像から複数の人物のキーポイントを 2 次元の座標で検出します。キーポイントには目鼻・手足などが選択されています。高速ですので動画にも適用可能です。
最近のモデルとしては OpenPose (CMU) や DensePose (FAIR) が有名で、特に OpenPose が発表されて以来、2 次元画像から人物ポーズ推定するモデルが数多く発表されています。
GAN モデル (生成モデル、画像変換)
GAN
「GAN」は敵対的生成ネットワーク (Generative Adversarial Network) と呼称される生成モデルの一種で、深層学習におけるホットな領域の一つとして様々なモデルやその応用が活発に研究されています。
基本的には 2 つのネットワーク generator と discriminator から構成され、訓練データセットの分布をネットワークに学習させるための仕組みです。その分布から新しい有用なデータを生成することができます。
Cycle GAN, StarGAN や Pix2Pix のように画像変換を目的とするモデルが多いですが、超解像モデルのように低解像画像を鮮明な高解像画像に変換する実用性を重視したモデルもあります。
◆ お問合せ
本件に関するお問い合わせ先は下記までお願いいたします。
株式会社クラスキャット |
セールス・マーケティング本部 セールス・インフォメーション |
E-Mail:sales-info@classcat.com |
WebSite: http://www.classcat.com/ |
以上