作成者 :(株)クラスキャット セールスインフォメーション
作成日 : 05/02/2019
ClassCat® Eager-Brains とは
「ClassCat® Eager-Brains」はクラスキャットが提供する人工知能コレクションです。
深層学習フレームワークのデファクトスタンダードである TensorFlow の新実行モード Eager Execution に対応しています。[詳細]
「ClassCat® Eager-Brains」で提供される人工知能はクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は様々なタスクに対応する人工知能コレクションの中から要件に適合する人工知能を選択することが可能です。カスタマイズや再調整から導入支援までワンストップなサポートサービスも併せて提供致します。
本ページでは人工知能のサウンド処理の例として 環境音分類 タスクへの応用例を紹介致します。
サウンド処理 : 環境音分類
ESC-50 データセット
環境音分類の題材として利用する環境音のデータセットは ESC-50 と呼称され、ラベル付けされた 2000 の環境音録音から成ります。freesound プロジェクトにより録音収集された素材からピックアップされています。
次の 5 つのメジャーなカテゴリーに分けられて、更に 50 の意味的なクラスに分類されています :
動物
- 犬, 雄鶏, 豚, 牛, 蛙, 猫、雌鳥, 昆虫 (flying), 羊, カラス
音風景 (soundscapes) & 水の音
- 雨, 海の波, パチパチと燃える (= crackling) 火, コオロギ, 鳥のさえずり, 水滴, 風, 水を注ぐ音, トイレを流す音, 雷雨
人間, 非言語音
- 赤ん坊の泣き声, くしゃみ, 拍手, 呼吸音, 咳, 足音, 笑い声, 歯磨き, いびき, 飲む/すする音
内部/家庭の音
- 扉ノック, マウスクリック, キーボードタイピング, 扉/木のきしみ, 缶を開ける音, 洗濯機, 掃除機, 目覚まし時計, 時計が時を刻む音、ガラスが割れる音
外部/都市ノイズ
- ヘリコプター, チェインソー, サイレン, 車のクラクション, エンジン, 電車, 教会の鐘, 飛行機, 花火, 手のこぎり
次の図は各メジャーカテゴリーから 2 クラスずつ選択して波形を描いたものです :
生の音からでも分類はできますが、より効率的に分類するためには人工知能を利用する前に特徴量を抽出します。
特徴量
音の特徴量には幾つも種類がありますが、良く利用されるのはスペクトログラムと MFCC です。
スペクトログラム
スペクトログラムは時間, 周波数とその強さを示す三次元グラフです。次の図は色相を利用して二次元で表しています :
MFCC (メル周波数ケプストラム係数)
MFCC はサウンドの特徴量としてポピュラーなものです。本来はスピーチサウンド (言語音) のために利用されます :
リカレント・ニューラルネットワークによる分類
サウンドは時系列データですから、RNN による分類が可能です。
スペクトログラム
以下はスペクトログラム上の訓練損失・検証精度の推移を表わすグラフです。テスト精度はおよそ 40 % です :
![]() |
![]() |
MFCC
以下は MFCC 上の訓練損失・検証精度の推移を表わすグラフです。テスト精度はやはりおよそ 40 % です :
![]() |
![]() |
畳み込みニューラルネットワークによる分類
サウンド生データ
CNN を利用すれば、生データからでも直接訓練可能です。テスト精度はおよそ 58% です :
![]() |
![]() |
スペクトログラム
もちろん上述の特徴量も利用できます。スペクトログラムでおよそ 60% のテスト精度に達します :
![]() |
![]() |
以上