作成者 :(株)クラスキャット セールスインフォメーション
作成日 : 05/02/2019
ClassCat® Eager-Brains とは
「ClassCat® Eager-Brains」はクラスキャットが提供する人工知能コレクションです。
深層学習フレームワークのデファクトスタンダードである TensorFlow の新実行モード Eager Execution に対応しています。[詳細]
「ClassCat® Eager-Brains」で提供される人工知能はクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は様々なタスクに対応する人工知能コレクションの中から要件に適合する人工知能を選択することが可能です。カスタマイズや再調整から導入支援までワンストップなサポートサービスも併せて提供致します。
本ページでは人工知能のサウンド処理の例として 音楽ジャンル分類 タスクへの応用例を紹介致します。
サウンド処理 : 音楽ジャンル分類
データセット
音楽ジャンル分類のために題材として GTZAN ジャンル・コレクションと呼称されるデータセットを使用します。
このデータセットは 10 のジャンル(ブルース、クラシック、カントリー、ディスコ、ヒップホップ、ジャズ、メタル、ポップ、レゲエ、ロック)に分けられたサウンドファイルを分類します。各ジャンルのフォルダは約 30 秒間のサウンドファイルを 100 個ずつ保持しています。
次の図はそれぞれのジャンルから一つのファイルを選択して波形を描いたものです :
生の音からでも分類はできますが、より効率的に分類するためには人工知能を利用する前に特徴量を抽出します。
特徴量
音の特徴量には幾つも種類がありますが、良く利用されるのはスペクトログラムと MFCC です。
スペクトログラム
スペクトログラムは時間, 周波数とその強さを示す三次元グラフです。次の図は色相を利用して二次元で表しています :
MFCC (メル周波数ケプストラム係数)
MFCC はサウンドの特徴量としてポピュラーなものです。本来はスピーチサウンド (言語音) のために利用されます :
リカレント・ニューラルネットワークによる分類
サウンドは時系列データですから、RNN による分類が可能です。
MFCC
ここでは MFCC を基に双方向 LTM と双方向 GRU の人工知能を利用しています。
テスト精度は、bi-LSTM が 46 %、bi-GRU で 43 % です :
畳み込みニューラルネットワークによる分類
MFCC
およそ 64 % のテスト精度を獲得できます。
以上