ホーム » Eager execution » ClassCat® Eager-Brains : サウンド処理 :- 音楽ジャンル分類

ClassCat® Eager-Brains : サウンド処理 :- 音楽ジャンル分類

作成者 :(株)クラスキャット セールスインフォメーション
作成日 : 05/02/2019

 

ClassCat® Eager-Brains とは

「ClassCat® Eager-Brains」はクラスキャットが提供する人工知能コレクションです。
深層学習フレームワークのデファクトスタンダードである TensorFlow の新実行モード Eager Execution に対応しています。[詳細]

「ClassCat® Eager-Brains」で提供される人工知能はクラスキャットが検証の上で仕様を公開致しますので、ユーザ企業は様々なタスクに対応する人工知能コレクションの中から要件に適合する人工知能を選択することが可能です。カスタマイズや再調整から導入支援までワンストップなサポートサービスも併せて提供致します。

本ページでは人工知能のサウンド処理の例として 音楽ジャンル分類 タスクへの応用例を紹介致します。

 

サウンド処理 : 音楽ジャンル分類

データセット

音楽ジャンル分類のために題材として GTZAN ジャンル・コレクションと呼称されるデータセットを使用します。
このデータセットは 10 のジャンル(ブルース、クラシック、カントリー、ディスコ、ヒップホップ、ジャズ、メタル、ポップ、レゲエ、ロック)に分けられたサウンドファイルを分類します。各ジャンルのフォルダは約 30 秒間のサウンドファイルを 100 個ずつ保持しています。

次の図はそれぞれのジャンルから一つのファイルを選択して波形を描いたものです :

生の音からでも分類はできますが、より効率的に分類するためには人工知能を利用する前に特徴量を抽出します。

 

特徴量

音の特徴量には幾つも種類がありますが、良く利用されるのはスペクトログラムと MFCC です。

 
スペクトログラム

スペクトログラムは時間, 周波数とその強さを示す三次元グラフです。次の図は色相を利用して二次元で表しています :

 
MFCC (メル周波数ケプストラム係数)

MFCC はサウンドの特徴量としてポピュラーなものです。本来はスピーチサウンド (言語音) のために利用されます :

 

リカレント・ニューラルネットワークによる分類

サウンドは時系列データですから、RNN による分類が可能です。

 
MFCC

ここでは MFCC を基に双方向 LTM と双方向 GRU の人工知能を利用しています。
テスト精度は、bi-LSTM が 46 %、bi-GRU で 43 % です :

 

畳み込みニューラルネットワークによる分類

 
MFCC

およそ 64 % のテスト精度を獲得できます。

 

以上






AI導入支援 #2 ウェビナー

スモールスタートを可能としたAI導入支援   Vol.2
[無料 WEB セミナー] [詳細]
「画像認識 AI PoC スターターパック」の紹介
既に AI 技術を実ビジネスで活用し、成果を上げている日本企業も多く存在しており、競争優位なビジネスを展開しております。
しかしながら AI を導入したくとも PoC (概念実証) だけでも高額な費用がかかり取組めていない企業も少なくないようです。A I導入時には欠かせない PoC を手軽にしかも短期間で認知度を確認可能とするサービの紹介と共に、AI 技術の特性と具体的な導入プロセスに加え運用時のポイントについても解説いたします。
日時:2021年10月13日(水)
会場:WEBセミナー
共催:クラスキャット、日本FLOW(株)
後援:働き方改革推進コンソーシアム
参加費: 無料 (事前登録制)
人工知能開発支援
◆ クラスキャットは 人工知能研究開発支援 サービスを提供しています :
  • テクニカルコンサルティングサービス
  • 実証実験 (プロトタイプ構築)
  • アプリケーションへの実装
  • 人工知能研修サービス
◆ お問合せ先 ◆
(株)クラスキャット
セールス・インフォメーション
E-Mail:sales-info@classcat.com