ホーム » Acme » Acme : エージェント

Acme : エージェント

Acme : エージェント (翻訳/解説)

翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 06/13/2020

* 本ページは、Acme の以下のドキュメントを翻訳した上で適宜、補足説明したものです:

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

エージェント

Acme は下でリストされる幾つかの事前構築されたエージェントを含みます。これらは総てシングルプロセス・エージェントです。現在これらのエージェントの分散亜種をリリースする計画はありませんが、それらはこのレポジトリで利用可能な単一プロセスの対応物と正確に同じ learning と acting コードを共有します。

異なるユースケースに基づいて分けたセクションで下でエージェントをリストアップしました、これらの区別はしばしば微妙ですが。各実装のより多くの情報については関連するエージェント固有の README を見てください。

 

連続的制御

Acme は連続的な制御エージェントに長く焦点を当ててきています (i.e. アクション空間が連続空間から成る設定)。以下のエージェントはこの設定にフォーカスしています :

エージェント ペーパー コード
深層決定論的ポリシー勾配 (DDPG) Lillicrap et al., 2015
分散分布 (= Distributional) 深層 Determinist (D4PG) Barth-Maron et al., 2018
Maximum a posteriori ポリシー最適化 (MPO) Abdolmaleki et al., 2018
分布 Maximum a posteriori ポリシー最適化 (DMPO)

 

離散制御

離散アクション空間を念頭において構築された幾つかのエージェントも含みます。これらのエージェントとリストされた連続的エージェントの区別はある程度恣意的であることに注意してください。E.g. Impala は連続的アクション空間のためにも実装できるでしょうが、ここでは離散アクション亜種にフォーカスしています。

エージェント ペーパー コード
深層 Q-ネットワーク (DQN) Horgan et al., 2018  
Importance-Weighted Actor-Learner アーキテクチャ (IMPALA) Espeholt et al., 2018  
リカレント再生分散 DQN (R2D2) Kapturowski et al., 2019

 

バッチ RL

Acme の構造はまた (環境相互作用を伴わない) バッチ RL での利用のための “learner-only” アルゴリズムにも非常に素晴らしく適しています。実装されたアルゴリズムは以下を含みます :

エージェント ペーパー コード
Behavior Cloning (BC)

 

実演からの学習

Acme はまた実演 (デモ) からのデータと結合される active データ獲得も容易に可能にします。そのようなアルゴリズムは以下を含みます :

エージェント ペーパー コード
実演からの深層 Q-学習 (DQfD) Hester et al., 2017
実演からのリカレント再生分散 DQN (R2D3) Gulcehre et al., 2020

 

モデルベースの RL

最後に、Acme はまた MCTS の亜種も含みます、これは与えられたあるいは学習されたシミュレータを使用してモデルベースの RL のために利用できます。

エージェント ペーパー コード
モンテカルロ木探索 (MCTS) Silver et al., 2018

 

以上






AI導入支援 #2 ウェビナー

スモールスタートを可能としたAI導入支援   Vol.2
[無料 WEB セミナー] [詳細]
「画像認識 AI PoC スターターパック」の紹介
既に AI 技術を実ビジネスで活用し、成果を上げている日本企業も多く存在しており、競争優位なビジネスを展開しております。
しかしながら AI を導入したくとも PoC (概念実証) だけでも高額な費用がかかり取組めていない企業も少なくないようです。A I導入時には欠かせない PoC を手軽にしかも短期間で認知度を確認可能とするサービの紹介と共に、AI 技術の特性と具体的な導入プロセスに加え運用時のポイントについても解説いたします。
日時:2021年10月13日(水)
会場:WEBセミナー
共催:クラスキャット、日本FLOW(株)
後援:働き方改革推進コンソーシアム
参加費: 無料 (事前登録制)
人工知能開発支援
◆ クラスキャットは 人工知能研究開発支援 サービスを提供しています :
  • テクニカルコンサルティングサービス
  • 実証実験 (プロトタイプ構築)
  • アプリケーションへの実装
  • 人工知能研修サービス
◆ お問合せ先 ◆
(株)クラスキャット
セールス・インフォメーション
E-Mail:sales-info@classcat.com