作成者 :(株)クラスキャット セールスインフォメーション
作成日 : 01/20/2019
ClassCat® TF/ONNX Hub とは
「ClassCat® TF/ONNX Hub」はクラスキャットが提供する実用性の高い機械学習モデルのレポジトリです。各モデルは TensorFlow 固有フォーマットと ONNX フォーマットの両者で提供されます。 [ClassCat® ONNX Hub 詳細]
- ONNX (Open Neural Network Exchange) は深層学習モデルのためのオープンなフォーマットで、異なるオープンソースの深層学習フレームワーク間の相互作用を可能にします。
「ClassCat TF/ONNX Hub」で提供されるモデルについてはクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は希望するモデルを自由に選択することができます。更にユーザ企業のデータセットによる再調整も含めて実運用するために必要なトータルサポートを提供致します。
今回は 2 次元 RGB 画像から複数の人物の姿勢を推定する複数人物ポーズ推定モデルを紹介致します。OpenPose (CMU) や DensePose (FAIR) が良く知られています。
人物ポーズ推定モデルの紹介
人物ポーズ推定とは
前回 は顔のポーズ推定のためにランドマーク検出するモデルを紹介しましたが、今回は身体全体を扱います。身体全体のポーズ推定でもやはりキーポイントの検出を遂行します。手軽に利用できる訓練用データセットとしては COCO データセットがキーポイントのアノテーションを含んでおり、キーポイント・チャレンジも開催されています。
最近のモデルとしては下記の OpenPose (CMU) や DensePose (FAIR) が有名で、特に OpenPose が発表されて以来、2 次元画像から人物ポーズ推定するモデルが数多く発表されています。
OpenPose
OpenPose は CMU の Zhe Cao 氏らが公開したリアルタイムの複数人物ポーズ推定モデルで、初期モデルで以下のような特徴を持っていましたが、更新が繰り返されて現在では更に多機能になっています :
- 通常の 2 次元 RGB 画像から 2 次元座標におけるキーポイントを推定します。
- 身体的特徴を表わすキーポイントを検出します。
- リアルタイム性があります。
簡単に説明を補足しておきますと、まず、モーションキャプチャのような特殊なデバイスを必要としません。通常の 2 次元 RGB 画像から人物の 2 次元座標上のキーポイントを検出できます。
検出するキーポイントは顔、手足を中心に身体の 135 のキーポイントを含みます。右の画像はより単純なモデルの例ですが、身体的特徴を捉えたキーポイントが選択されています。
リアルタイム性も重視されていて、動画にも適用可能です。
DensePose
DensePose は FAIR が開発したポーズ推定モデルで、簡単に言えば RGB 画像の人物の総てのピクセルを人体の 3D サーフェスへマップするものです。3 次元に埋め込む点が大きな特徴です。
Detectron フレームワークの一環として開発されています。
◆ OpenPose は非商用目的でオープンソース化されていますが、現在では互換/類似モデルが多数実装されています。ここでは OpenPose 初期モデルの互換モデルの一つを紹介します :
※ 画像は原則として ImageNet の URL を利用しており、元画像の版権は所有者に帰属しています。
人物ポーズ推定モデル
2 次元 RGB 画像から複数の人物のキーポイントを 2 次元の座標で検出します。
キーポイントには目鼻・手足などが選択されています。高速ですので動画にも適用可能です。
左側が入力元画像で、右側がポーズ推定画像です。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
以上