AutoNLP 0.2 : 音声認識 (翻訳/解説)
翻訳 : (株)クラスキャットセールスインフォメーション
作成日時 : 05/05/2021 (0.2.6)

* 本ページは、HuggingFace AutoNLP の以下のドキュメントを翻訳した上で適宜、補足説明したものです：

Speech Recognition

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

★ 無料 Web セミナー開催中 ★ クラスキャット主催人工知能 & ビジネス Web セミナー

人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。
スケジュールは弊社公式 Web サイトでご確認頂けます。

お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
ウェビナー運用には弊社製品「ClassCat® Webinar」を利用しています。

クラスキャットは人工知能・テレワークに関する各種サービスを提供しております :

人工知能研究開発支援	人工知能研修サービス	テレワーク & オンライン授業を支援
PoC(概念実証)を失敗させないための支援 (本支援はセミナーに参加しアンケートに回答した方を対象としています。)

◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

株式会社クラスキャット セールス・マーケティング本部セールス・インフォメーション

E-Mail：sales-info@classcat.com ; WebSite: https://www.classcat.com/ ; Facebook

AutoNLP 0.2 : 音声認識

AutoNLP は音声 (発話) モデルの再調整をサポートします。従って、自動音声認識モデルを用意に訓練することができます。

データセットは CSV 形式にあり次のようなものに見えるとします :

sentence	audio_path
hello, how are you?	a1.mp3
i am fine	a2.mp3
training asr models	a3.mp3

ここでは、3 つのサンプルだけを見ますが、好きなだけのサンプルを持つことができます : 5000, 10000, 100000 あるいは百万以上でさえも！指定された音声ファイルはディスク上に存在しなければならないことに注意してください。

ひとたび上で指定された形式のデータを持てば、AutoNLP を使用してモデルを訓練する準備ができています。そうです、それほどに簡単です。

最初のステップは AutoNLP へのログインです :

$ autonlp login --api-key YOUR_HUGGING_FACE_API_TOKEN

貴方の Hugging Face API トークンを知らない場合、huggingface.co 上でアカウントを作成してください、すると設定で貴方の api キーを見つけるでしょう。貴方の api キーを誰とも共有しないでください！

ログインしたならば、新しいプロジェクトを作成できます :

$ autonlp create_project --name speech_model --language fr --task speech_recognition

プロジェクトの作成の際、“–language” パラメータを使用して言語を選択できます。

次のステップはファイルをアップロードすることです。ここで、カラムマッピングは非常に重要です。元のデータのカラムは AutoNLP カラム名にマップされます。上のデータでは、元のカラムは “sentence” と “audio_path” です。音声認識問題に対してはそれ以上のカラムは必要ありません。

音声認識モデルのための AutoNLP カラムは :

text
path

元のカラムは従って、tokens と tags にマップされる必要があります。これは upload コマンドで成されます。AutoNLP にアップロードしている分割の種類を知らせる必要もあります : train or valid です。

autonlp upload --project speech1 --split train \
    --col_mapping sentence:text,path:path
    --files train.csv
    --path_to_audio ~/audio_data/clips

同様に、検証ファイルをアップロードします :

autonlp upload --project speech1 --split valid \
    --col_mapping sentence:text,path:path
    --files valid.csv
    --path_to_audio ~/audio_data/clips

カンマでパスを区切ることにより複数のファイルをアップロードできますけれども、カラム名は各ファイルで同じでなければならないことに注意してください。

ファイルを成功的にアップロードしたら、train コマンドを使用して訓練を開始できます :

$ autonlp train --project speech1

And that’s it!

貴方のモデルは訓練を開始して望めば訓練をモニタリングすることができます。

以上

月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31