TensorFlow : Edward Tutorials (背景) : 変分推論 (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 11/27/2018
* 本ページは、Edward サイトの Tutorials : Background : Variational Inference を翻訳した上で
適宜、補足説明したものです:
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
変分推論
変分推論は事後推論を最適化 (問題) としてキャストするアルゴリズムのための総称です (Hinton & Camp, 1993; Jordan, Ghahramani, Jaakkola, & Saul, 1999; Waterhouse, MacKay, & Robinson, 1996)。
中心的なアイデアは 2 つのステップを含みます :
- 潜在変数に渡る分布の族 \(q(\mathbf{z}\;;\;\lambda)\) を仮定します;
- \(q(\mathbf{z}\;;\;\lambda)\) をそのパラメータ \(\lambda\) に渡り最適化して事後分布にマッチさせます。
このストラテジーは事後分布 \(p(\mathbf{z} \mid \mathbf{x})\) を計算する問題を最適化問題に変換します : divergence 尺度を最小化します
\[
\begin{aligned}
\lambda^*
&=
\arg\min_\lambda \text{divergence}(
p(\mathbf{z} \mid \mathbf{x})
,
q(\mathbf{z}\;;\;\lambda)
).\end{aligned}
\]
最適化された分布 \(q(\mathbf{z}\;;\;\lambda^*)\) は事後分布 \(p(\mathbf{z}\mid \mathbf{x})\) へのプロキシーとして使用されます。
Edward は次のような考え方をします: 事後分布は (典型的には) 手に負えない・解決困難な (= intractable) もので、そのため事後分布を最善に近似する潜在変数のモデルを構築しなければなりません。それは、真のデータ生成過程は未知であるために、真の過程を最善に近似するようなデータのモデルを構築するという考えに類似しています。
Edward で定義された変分推論クラスの詳細については、推論 API を見てください。Edward の特定の変分推論アルゴリズムの背景については、他の推論 チュートリアル を見てください。
References
- Hinton, G. E., & Camp, D. van. (1993). Keeping the neural networks simple by minimizing the description length of the weights. In Conference on learning theory. ACM.
- Jordan, M. I., Ghahramani, Z., Jaakkola, T. S., & Saul, L. K. (1999). An introduction to variational methods for graphical models. Machine Learning, 37(2), 183–233.
- Waterhouse, S., MacKay, D., & Robinson, T. (1996). Bayesian methods for mixtures of experts. Advances in Neural Information Processing Systems, 351–357.
以上