Acme : エージェント (翻訳/解説)

翻訳 : (株)クラスキャットセールスインフォメーション
作成日時 : 06/13/2020

* 本ページは、Acme の以下のドキュメントを翻訳した上で適宜、補足説明したものです：

Agents

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

エージェント

Acme は下でリストされる幾つかの事前構築されたエージェントを含みます。これらは総てシングルプロセス・エージェントです。現在これらのエージェントの分散亜種をリリースする計画はありませんが、それらはこのレポジトリで利用可能な単一プロセスの対応物と正確に同じ learning と acting コードを共有します。

異なるユースケースに基づいて分けたセクションで下でエージェントをリストアップしました、これらの区別はしばしば微妙ですが。各実装のより多くの情報については関連するエージェント固有の README を見てください。

連続的制御

Acme は連続的な制御エージェントに長く焦点を当ててきています (i.e. アクション空間が連続空間から成る設定)。以下のエージェントはこの設定にフォーカスしています :

エージェント	ペーパー	コード
深層決定論的ポリシー勾配 (DDPG)	Lillicrap et al., 2015
分散分布 (= Distributional) 深層 Determinist (D4PG)	Barth-Maron et al., 2018
Maximum a posteriori ポリシー最適化 (MPO)	Abdolmaleki et al., 2018
分布 Maximum a posteriori ポリシー最適化 (DMPO)	–

離散制御

離散アクション空間を念頭において構築された幾つかのエージェントも含みます。これらのエージェントとリストされた連続的エージェントの区別はある程度恣意的であることに注意してください。E.g. Impala は連続的アクション空間のためにも実装できるでしょうが、ここでは離散アクション亜種にフォーカスしています。

エージェント	ペーパー	コード
深層 Q-ネットワーク (DQN)	Horgan et al., 2018
Importance-Weighted Actor-Learner アーキテクチャ (IMPALA)	Espeholt et al., 2018
リカレント再生分散 DQN (R2D2)	Kapturowski et al., 2019

バッチ RL

Acme の構造はまた (環境相互作用を伴わない) バッチ RL での利用のための “learner-only” アルゴリズムにも非常に素晴らしく適しています。実装されたアルゴリズムは以下を含みます :

エージェント	ペーパー	コード
Behavior Cloning (BC)	–

実演からの学習

Acme はまた実演 (デモ) からのデータと結合される active データ獲得も容易に可能にします。そのようなアルゴリズムは以下を含みます :

エージェント	ペーパー	コード
実演からの深層 Q-学習 (DQfD)	Hester et al., 2017
実演からのリカレント再生分散 DQN (R2D3)	Gulcehre et al., 2020

モデルベースの RL

最後に、Acme はまた MCTS の亜種も含みます、これは与えられたあるいは学習されたシミュレータを使用してモデルベースの RL のために利用できます。

エージェント	ペーパー	コード
モンテカルロ木探索 (MCTS)	Silver et al., 2018

以上

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30