Skip to content

ClasCat® AI Research

クラスキャット – 生成 AI, AI エージェント, MCP

Menu
  • ホーム
    • ClassCat® AI Research ホーム
    • クラスキャット・ホーム
  • OpenAI API
    • OpenAI Python ライブラリ 1.x : 概要
    • OpenAI ブログ
      • GPT の紹介
      • GPT ストアの紹介
      • ChatGPT Team の紹介
    • OpenAI platform 1.x
      • Get Started : イントロダクション
      • Get Started : クイックスタート (Python)
      • Get Started : クイックスタート (Node.js)
      • Get Started : モデル
      • 機能 : 埋め込み
      • 機能 : 埋め込み (ユースケース)
      • ChatGPT : アクション – イントロダクション
      • ChatGPT : アクション – Getting started
      • ChatGPT : アクション – アクション認証
    • OpenAI ヘルプ : ChatGPT
      • ChatGPTとは何ですか?
      • ChatGPT は真実を語っていますか?
      • GPT の作成
      • GPT FAQ
      • GPT vs アシスタント
      • GPT ビルダー
    • OpenAI ヘルプ : ChatGPT > メモリ
      • FAQ
    • OpenAI ヘルプ : GPT ストア
      • 貴方の GPT をフィーチャーする
    • OpenAI Python ライブラリ 0.27 : 概要
    • OpenAI platform
      • Get Started : イントロダクション
      • Get Started : クイックスタート
      • Get Started : モデル
      • ガイド : GPT モデル
      • ガイド : 画像生成 (DALL·E)
      • ガイド : GPT-3.5 Turbo 対応 微調整
      • ガイド : 微調整 1.イントロダクション
      • ガイド : 微調整 2. データセットの準備 / ケーススタディ
      • ガイド : 埋め込み
      • ガイド : 音声テキスト変換
      • ガイド : モデレーション
      • ChatGPT プラグイン : イントロダクション
    • OpenAI Cookbook
      • 概要
      • API 使用方法 : レート制限の操作
      • API 使用方法 : tiktoken でトークンを数える方法
      • GPT : ChatGPT モデルへの入力をフォーマットする方法
      • GPT : 補完をストリームする方法
      • GPT : 大規模言語モデルを扱う方法
      • 埋め込み : 埋め込みの取得
      • GPT-3 の微調整 : 分類サンプルの微調整
      • DALL-E : DALL·E で 画像を生成して編集する方法
      • DALL·E と Segment Anything で動的マスクを作成する方法
      • Whisper プロンプティング・ガイド
  • Gemini API
    • Tutorials : クイックスタート with Python (1) テキスト-to-テキスト生成
    • (2) マルチモーダル入力 / 日本語チャット
    • (3) 埋め込みの使用
    • (4) 高度なユースケース
    • クイックスタート with Node.js
    • クイックスタート with Dart or Flutter (1) 日本語動作確認
    • Gemma
      • 概要 (README)
      • Tutorials : サンプリング
      • Tutorials : KerasNLP による Getting Started
  • Keras 3
    • 新しいマルチバックエンド Keras
    • Keras 3 について
    • Getting Started : エンジニアのための Keras 入門
    • Google Colab 上のインストールと Stable Diffusion デモ
    • コンピュータビジョン – ゼロからの画像分類
    • コンピュータビジョン – 単純な MNIST convnet
    • コンピュータビジョン – EfficientNet を使用した微調整による画像分類
    • コンピュータビジョン – Vision Transformer による画像分類
    • コンピュータビジョン – 最新の MLPモデルによる画像分類
    • コンピュータビジョン – コンパクトな畳込み Transformer
    • Keras Core
      • Keras Core 0.1
        • 新しいマルチバックエンド Keras (README)
        • Keras for TensorFlow, JAX, & PyTorch
        • 開発者ガイド : Getting started with Keras Core
        • 開発者ガイド : 関数型 API
        • 開発者ガイド : シーケンシャル・モデル
        • 開発者ガイド : サブクラス化で新しい層とモデルを作成する
        • 開発者ガイド : 独自のコールバックを書く
      • Keras Core 0.1.1 & 0.1.2 : リリースノート
      • 開発者ガイド
      • Code examples
      • Keras Stable Diffusion
        • 概要
        • 基本的な使い方 (テキスト-to-画像 / 画像-to-画像変換)
        • 混合精度のパフォーマンス
        • インペインティングの簡易アプリケーション
        • (参考) KerasCV – Stable Diffusion を使用した高性能画像生成
  • TensorFlow
    • TF 2 : 初級チュートリアル
    • TF 2 : 上級チュートリアル
    • TF 2 : ガイド
    • TF 1 : チュートリアル
    • TF 1 : ガイド
  • その他
    • 🦜️🔗 LangChain ドキュメント / ユースケース
    • Stable Diffusion WebUI
      • Google Colab で Stable Diffusion WebUI 入門
      • HuggingFace モデル / VAE の導入
      • LoRA の利用
    • Diffusion Models / 拡散モデル
  • クラスキャット
    • 会社案内
    • お問合せ
    • Facebook
    • ClassCat® Blog
Menu

Acme : 概要 – DeepMind 強化学習ライブラリ

Posted on 06/12/2020 by Sales Information

Acme : 概要 – DeepMind 強化学習ライブラリ (翻訳/解説)

翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 06/12/2020

* 本ページは、Acme の以下のドキュメントを翻訳した上で適宜、補足説明したものです:

  • README.md
  • docs/index.md

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

概要

Acme は強化学習 (RL) エージェントとエージェント・ビルディングブロックのライブラリです。Acme はポピュラーなアルゴリズムの参照実装としてそして強力なベースラインとして役立つような、単純で、効率的で可読なエージェントを公開するための努力をする一方で、新規の研究を行なうために十分な柔軟性を依然として提供しています。Acme の設計はまた複雑さの異なるレベルで RL 問題への複数のエントリポイントを提供することも試みています。

 

概要

Acme を使用して素早く始めることを単に望む場合、ライブラリについて知るべき主要なことは幾つかのエージェント実装と次のように利用できる EnvironmentLoop プリミティブを公開していることです :

loop = acme.EnvironmentLoop(environment, agent)
loop.run()

これは単純なループを実行します、そこでは与えられたエージェントは環境と相互作用してこの相互作用から学習します。これはエージェント・インスタンス (その実装は ここ で見つけられます) と環境インスタンスを仮定します、これは DeepMind Environment API を実装しています。個々のエージェントはまた実装をより詳細に説明する README.md ファイルを含みます。もちろん、これら 2 行のコードは描写を明確に単純化しています。実際に始めるために、examples サブディレクトリで見つかる詳細なワーキングコードサンプルを見てください、これらは幾つかのエージェントと環境をどのようにインスタンス化するかを示します。クイックスタート・ノートブック もまた含みます。

Acme はまた、エージェントアルゴリズムに深く潜る、あるいはそれらをより複雑な設定で利用する一方で、このレベルの単純性を維持しようとします。基礎的なコンポーネントのより詳細な説明とともに Acme の概要は ドキュメント を参照することにより見つけられます。そして典型的な Acme エージェントの裏の基礎的なコンポーネントそしてこれらが新規の実装を形成するためにどのように結合できるかをより詳細に説明する チュートリアルノートブック も含みます。

 

インストール

Python 3.6 と 3.7 上で acme をテストしました。

  1. オプション: バージョン衝突を避けるために依存性を管理するため Python 仮想環境を使用することを強く推奨します :
    python3 -m venv acme
    source acme/bin/activate
    pip install --upgrade pip setuptools
    
  2. (Reverb, ストレージ・バックエンドを含む) コアライブラリをインストールするには :
    pip install dm-acme
    pip install dm-acme[reverb]
    
  3. JAX or TensorFlow ベースのエージェントのための依存性をインストールするには :
    pip install dm-acme[tf]
    # and/or
    pip install dm-acme[jax]
    
  4. 最後に、環境 (gym, dm_control, bsuite) をインストールするには :
    pip install dm-acme[envs]
    

 

Citing Acme

(訳注: 必要な場合には 原文 を参照してください。)

 

docs/index.md

概要

Acme は強化学習 (RL) エージェントとエージェント・ビルディングブロックのライブラリです。Acme は全体として新規の実装を作成するために十分な柔軟性を依然として提供する一方で、単純で、効率的で可読なエージェントベースラインを公開する努力をしています。Acme の設計は複雑さの異なるレベルで RL 問題への複数のエントリポイントを提供することを試みています。最初のエントリポイント – そして始めるに最も容易な方法 – は最先端技術のベースライン・エージェントの一つを単に実行することによります。これは単純に環境ループを使用してエージェント (or アクター) インスタンスを環境に接続することにより成されます。これは RL に共通な環境との相互作用の標準モードをインスタンス化して次の図で示されます :

この設定はもちろん、任意の RL 実践者に見覚えがあるでしょう、そしてこれによって貴方は始めて 2, 3 行のコードで Acme エージェントを実行することができます。Acme により利用される環境は DeepMind Environment API に従うことが想定されます、これは環境をある初期状態にリセットすることと環境をステップさせて観測を生成することの両者への単純なメカニズムを提供します。

Acme のアクターは 3 つの主要なメソッドを公開します : select_action は取られるアクションを返します、observe は環境からの観測を記録します、そして update メソッドです。実際に、これらのメソッドを利用することにより、上で示された EnvironmentLoop は以下によりおおよそ近似できます :

while True:
  # Make an initial observation.
  step = environment.reset()
  actor.observe_first(step.observation)

  while not step.last():
    # Evaluate the policy and take a step in the environment.
    action = actor.select_action(step.observation)
    step = environment.step(action)

    # Make an observation and update the actor.
    actor.observe(action, next_step=step)
    actor.update()

NOTE : 現在 Acme では利用するデータを観測するためのデフォルトメソッドは observe/observe_last メソッドを利用しています (上の反対)。これは上のために段階的に廃止され、これらが間もなくデフォルトになるでしょう。

内部的には、Acme を使用して構築されるエージェントはモジュール acting と learning コンポーネントで書かれています。acting により経験を生成するために使用されるサブコンポーネントを参照して learning により適切なアクション選択モデル (典型的にはニューラルネットワーク) を訓練するプロセスを参照しています。エージェントのこの分解の図は下で与えられます :

表面的にはこれはマルチエージェントの間で同じ実験生成コードを共有することを可能にします。より重要なことに、この精神は分散エージェントがどのように構築されるかという方法を大きく単純化します。

分散エージェントはシングルプロセスの対応物と総て同じコンポーネントを使用して構築されますが、行動、学習、評価、再生等のためのコンポーネントが各々それら自身のプロセスで動作するように分割されます。この図は下で示されます、そしてここではそれが単に多くの異なるアクター/環境とともに、上と同じテンプレートに従うことを見れるでしょう :

これは新規のエージェントを設計して既存のエージェントをテストするプロセスを非常に単純化します、そこではスケールの違いは大雑把には無視できます。これはバッチや (そこではデータ生成プロセスはなく固定データセットだけの) オフライン設定への幅広いスケールダウンも可能にします :

最後に、Acme はまたエージェントコードを可読に保持し、そして次のエージェントを書くプロセスを遥かに容易にする幾つかの有用なユティリティも含みます。チェックポイントからスナップショット、ロギングの様々な形式、そして他の低位計算に渡るこれらのコンポーネントのための一般的なツールを提供します。上で説明された構造に加えてこれらのコンポーネントのより多くの情報については、Acme コンポーネント のより詳細な議論を見るか、様々な エージェント の完全な実装を見てください。

 

以上






クラスキャット

最近の投稿

  • LangGraph Platform : Get started : クイックスタート
  • LangGraph Platform : 概要
  • LangGraph : Prebuilt エージェント : ユーザインターフェイス
  • LangGraph : Prebuilt エージェント : 配備
  • LangGraph : Prebuilt エージェント : マルチエージェント

タグ

AutoGen (13) ClassCat Press Release (20) ClassCat TF/ONNX Hub (11) DGL 0.5 (14) Eager Execution (7) Edward (17) FLUX.1 (16) Gemini (20) HuggingFace Transformers 4.5 (10) HuggingFace Transformers 4.6 (7) HuggingFace Transformers 4.29 (9) Keras 2 Examples (98) Keras 2 Guide (16) Keras 3 (10) Keras Release Note (17) Kubeflow 1.0 (10) LangChain (45) LangGraph (20) MediaPipe 0.8 (11) Model Context Protocol (16) NNI 1.5 (16) OpenAI Agents SDK (8) OpenAI Cookbook (13) OpenAI platform (10) OpenAI platform 1.x (10) OpenAI ヘルプ (8) TensorFlow 2.0 Advanced Tutorials (33) TensorFlow 2.0 Advanced Tutorials (Alpha) (15) TensorFlow 2.0 Advanced Tutorials (Beta) (16) TensorFlow 2.0 Guide (10) TensorFlow 2.0 Guide (Alpha) (16) TensorFlow 2.0 Guide (Beta) (9) TensorFlow 2.0 Release Note (12) TensorFlow 2.0 Tutorials (20) TensorFlow 2.0 Tutorials (Alpha) (14) TensorFlow 2.0 Tutorials (Beta) (12) TensorFlow 2.4 Guide (24) TensorFlow Deploy (8) TensorFlow Get Started (7) TensorFlow Graphics (7) TensorFlow Probability (9) TensorFlow Programmer's Guide (22) TensorFlow Release Note (18) TensorFlow Tutorials (33) TF-Agents 0.4 (11)
2020年6月
月 火 水 木 金 土 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 5月   7月 »
© 2025 ClasCat® AI Research | Powered by Minimalist Blog WordPress Theme