TensorFlow : Edward Tutorials (背景) : 確率モデルの推論 (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 11/26/2018
* 本ページは、Edward サイトの Tutorials : Background : Inference of Probabilistic Models を翻訳した上で
適宜、補足説明したものです:
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
確率モデルの推論
このチュートリアルは質問をします: 確率モデルの推論をするとは何を意味するのでしょう?これは Edward で推論アルゴリズムをどのように設計するかを理解するためのお膳立てをします。
事後分布
あるデータ \(\mathbf{x}\) を解析するためにモデル \(p(\mathbf{x}, \mathbf{z})\) をどのように使用できるでしょう?換言すれば、どのような隠れ構造 \(\mathbf{z}\) がデータを説明するのでしょう?私達はモデルを使用して隠れ構造を推論することを求めます。
推論の一つの方法は 事後分布 を定義するためにベイズの定理を活用します。
\[
\begin{aligned}
p(\mathbf{z} \mid \mathbf{x})
&=
\frac{p(\mathbf{x}, \mathbf{z})}{\int p(\mathbf{x}, \mathbf{z}) \text{d}\mathbf{z}}.\end{aligned}
\]
事後分布は、ある (観測された) データ \(\mathbf{x}\) で条件付けされた、潜在変数 \(\mathbf{z}\) の分布です。表現学習への類似を指摘するのであれば、それは データの隠れ表現の確率的記述です。
帰納主義 (= inductivism) の観点からは、古典的なベイジアン (そして暗黙的に頻度主義者) により実践されたように、事後分布は潜在変数についての私達の更新された仮説です。仮説演繹 (= hypothetico-deductivism) の視点からは、Box, Rubin そして Gelman のような統計学者により実践されたように、事後分布は単純に (批評されてそして改訂されるべき) データに fit されたモデルです (Box, 1982; Gelman & Shalizi, 2013)。
事後分布を推論する
今では事後分布が何を表わすかを知っています。それをどのように計算するのでしょう?これは推論における中心的な計算上の挑戦です。
事後分布はその正規化定数 (= normalizing constant) のために計算することが困難です、これは分母の積分です。これはしばしば解析的 (閉形式 (= closed-form)) 解がない高次元積分です。このようにして、事後分布を計算することは事後分布を近似することを意味します。
Edward でどのように推論を指定するかの詳細については、推論 API を見てください。チュートリアル で幾つかの詳細な例を記述します。
References
- Box, G. E. (1982). An apology for ecumenism in statistics. DTIC Document.
- Gelman, A., & Shalizi, C. R. (2013). Philosophy and the practice of bayesian statistics. British Journal of Mathematical and Statistical Psychology, 66(1), 8–38.
以上