ホーム » AutoNLP » AutoNLP 0.2 : 二値分類

AutoNLP 0.2 : 二値分類

AutoNLP 0.2 : 二値分類 (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 05/04/2021 (0.2.6)

* 本ページは、HuggingFace AutoNLP の以下のドキュメントを翻訳した上で適宜、補足説明したものです:

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

無料 Web セミナー開催中 クラスキャット主催 人工知能 & ビジネス Web セミナー

人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。
スケジュールは弊社 公式 Web サイト でご確認頂けます。
  • お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
  • ウェビナー運用には弊社製品「ClassCat® Webinar」を利用しています。
クラスキャットは人工知能・テレワークに関する各種サービスを提供しております :

人工知能研究開発支援 人工知能研修サービス テレワーク & オンライン授業を支援
PoC(概念実証)を失敗させないための支援 (本支援はセミナーに参加しアンケートに回答した方を対象としています。)

お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
E-Mail:sales-info@classcat.com  ;  WebSite: https://www.classcat.com/  ;  Facebook

 

AutoNLP 0.2 : 二値分類

二値分類は NLP 問題を扱うときに遭遇するかもしれない最もポピュラーな教師あり分類問題の一つです。AutoNLP は貴方のデータ上で二値分類モデルを訓練することを非常に容易にします。センチメント検出のためのモデルを訓練していると仮定しましょう。データセットは 2 つのセンチメントを持ちます : positive & negative です。

データセットは CSV 形式にあり次のようなものに見えるとします :

sentence label
i love autonlp positive
i dont like this movie negative
this is the best tutorial ever negative

ここでは、3 つのサンプルだけを見ますが、好きなだけのサンプルを持つことができます : 5000, 10000, 100000 あるいは百万以上でさえも!

ひとたび上で指定された形式のデータを持てば、AutoNLP を使用してモデルを訓練する準備ができています。そうです、それほどに簡単です。

最初のステップは AutoNLP へのログインです :

$ autonlp login --api-key YOUR_HUGGING_FACE_API_TOKEN

貴方の Hugging Face API トークンを知らない場合、huggingface.co 上でアカウントを作成してください、すると設定で貴方の api キーを見つけるでしょう。貴方の api キーを誰とも共有しないでください!

ログインしたならば、新しいプロジェクトを作成できます :

$ autonlp create_project --name sentiment_detection --language en --task binary_classification

プロジェクトの作成の際、“–language” パラメータを使用して言語を選択できます。

次のステップはファイルをアップロードすることです。ここで、カラムマッピングは非常に重要です。元のデータのカラムは AutoNLP カラム名にマップされます。上のデータでは、元のカラムは “sentence” と “label” です。二値分類問題に対してはそれ以上のカラムは必要ありません。

二値分類のための AutoNLP カラムは :

  • text

  • target

元のカラムは従って、text と target にマップされる必要があります。これは upload コマンドで成されます。AutoNLP にアップロードしている分割の種類を知らせる必要もあります : train or valid です。

autonlp upload --project sentiment_detection --split train \
            --col_mapping sentence:text,label:target \
            --files ~/datasets/train.csv

同様に、検証ファイルをアップロードします :

autonlp upload --project sentiment_detection --split valid \
            --col_mapping sentence:text,label:target \
            --files ~/datasets/valid.csv

カンマでパスを区切ることにより複数のファイルをアップロードできますけれども、カラム名は各ファイルで同じでなければならないことに注意してください。

ファイルを成功的にアップロードしたら、train コマンドを使用して訓練を開始できます :

autonlp train --project sentiment_detection

And that’s it!

貴方のモデルは訓練を開始して望めば訓練をモニタリングすることができます。

 

以上



AI導入支援 #2 ウェビナー

スモールスタートを可能としたAI導入支援   Vol.2
[無料 WEB セミナー] [詳細]
「画像認識 AI PoC スターターパック」の紹介
既に AI 技術を実ビジネスで活用し、成果を上げている日本企業も多く存在しており、競争優位なビジネスを展開しております。
しかしながら AI を導入したくとも PoC (概念実証) だけでも高額な費用がかかり取組めていない企業も少なくないようです。A I導入時には欠かせない PoC を手軽にしかも短期間で認知度を確認可能とするサービの紹介と共に、AI 技術の特性と具体的な導入プロセスに加え運用時のポイントについても解説いたします。
日時:2021年10月13日(水)
会場:WEBセミナー
共催:クラスキャット、日本FLOW(株)
後援:働き方改革推進コンソーシアム
参加費: 無料 (事前登録制)
人工知能開発支援
◆ クラスキャットは 人工知能研究開発支援 サービスを提供しています :
  • テクニカルコンサルティングサービス
  • 実証実験 (プロトタイプ構築)
  • アプリケーションへの実装
  • 人工知能研修サービス
◆ お問合せ先 ◆
(株)クラスキャット
セールス・インフォメーション
E-Mail:sales-info@classcat.com