最大事後確率

ベイズ統計学
統計学

理論
許容決定規則ベイズ効率性ベイズ確率確率の解釈ベイズの定理ベイズ因子ベイズ推定ベイジアンネットワーク事前確率事後確率尤度共役事前分布事後予測分布ハイパーパラメータハイパーパラメータの事前分布等確率の原理最大エントロピー原理経験ベイズ法クロムウェルの差止め規則ベルンシュテイン＝フォン・ミーゼス定理シュワルツ情報量規準信用区間最大事後確率推定根源的蓋然論
技法
ベイズ線形回帰ベイズ推定量近似ベイズ計算マルコフ連鎖モンテカルロ法
表話編歴

最大事後確率（さいだいじごかくりつ、英: maximum a posteriori, MAP）推定は、統計学において、実測データに基づいて未知の量の点推定を行う手法である。ロナルド・フィッシャーの最尤推定 (MLE) に密接に関連するが、推定したい量の事前分布を利用して最適化問題を解き確率が最大の結果を得る。したがってMAP推定は、最尤推定に正則化をつけた物と見ることもできる。

概要

$x$ の観測に基づいて、未知の母集団パラメータ $\theta$ を推定したいとする。 $x$ の標本分布を $f$ とすると、母集団パラメータを $\theta$ としたときの $x$ の確率は $f(x|\theta )$ となる。すると

\theta \mapsto f(x|\theta )\!

という関数は尤度関数であり、

{\hat {\theta }}_{\mathrm {ML} }(x)=\mathop {\mathrm {arg~max} } _{\theta }f(x|\theta )\!

は $\theta$ の最尤推定である。

ここで、 $\theta$ の事前分布を $g$ とする。すると、 $\theta$ をベイズ推定における確率変数として扱える。 $\theta$ の事後確率は次のようになる。

\theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}\!

ここで $g$ は $\theta$ の密度関数、 $\Theta$ は $g$ の定義域である。これはベイズの定理の直接的な応用である。

最大事後確率推定の手法では、次に $\theta$ をこの確率変数の事後分布の最頻値として推定する。

{\hat {\theta }}_{\mathrm {MAP} }(x)=\mathop {\mathrm {arg~max} } _{\theta }{\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}=\mathop {\mathrm {arg~max} } _{\theta }f(x|\theta )\,g(\theta )\!

事後分布の分母は $\theta$ に依存していないので、最適化には何の役割も果たさない。 $\theta$ のMAP推定で事前分布 $g$ が一様分布の場合の結果は、最尤推定に一致する。MAP推定は、一様損失関数におけるベイズ推定関数である。

MAP推定の計算は解析的に解くか数値的に計算できる。

閉形式で事前分布の最頻値が与えられるとき、解析的に解ける。この場合、共役事前分布を使う。
数値的最適解を得るには
- 汎用の最適化問題のアルゴリズムを使用する。例えば、勾配法（共役勾配法や準ニュートン法など）がある。勾配法の場合は導関数が必要で、それを解析的または数値的に計算する必要がある。
- EMアルゴリズムを変形して用いる。この場合、事後分布の導関数は不要である。
- マルコフ連鎖モンテカルロ法などのサンプリング法を使う。

正規分布での例

ある並び $(x_{1},\dots ,x_{n})$ の独立な確率変数 $N(\mu ,\sigma _{v}^{2})$ があり、 $\mu$ の事前分布は $N(0,\sigma _{m}^{2})$ で与えられるとする。ここで $\mu$ のMAP推定値を求める。

最大化すべき関数は次のようになる。

\pi (\mu )L(\mu )={\frac {1}{{\sqrt {2\pi }}\sigma _{m}}}\exp \left(-{\frac {1}{2}}\left({\frac {\mu }{\sigma _{m}}}\right)^{2}\right)\prod _{j=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma _{v}}}\exp \left(-{\frac {1}{2}}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\right)

これの対数を取る。

{\begin{aligned}\log \pi (\mu )L(\mu )&=-\log {\sqrt {2\pi }}\sigma _{m}-{\frac {1}{2}}\left({\frac {\mu }{\sigma _{m}}}\right)^{2}-\log {\sqrt {2\pi }}\sigma _{v}-{\frac {1}{2}}\sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\\&=-{\frac {1}{2}}\left\{\left({\frac {\mu }{\sigma _{m}}}\right)^{2}+\sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\right\}-\log 2\pi \sigma _{m}\sigma _{v}\end{aligned}}

これは、 $\mu$ を動かし次の式を最小化することと等価である。

\sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}+\left({\frac {\mu }{\sigma _{m}}}\right)^{2}

従って $\mu$ のMAP推定値は以下のようになる。

{\hat {\mu }}_{\text{MAP}}={\frac {\sigma _{m}^{2}}{n\sigma _{m}^{2}+\sigma _{v}^{2}}}\sum _{j=1}^{n}x_{j}

$\sigma _{m}\to \infty$ の場合を無情報事前分布（英: non-informative prior）と呼び、この例では ${\hat {\mu }}_{\text{MAP}}\to {\hat {\mu }}_{\text{MLE}}={\frac {1}{n}}\sum _{j=1}^{n}x_{j}$ である。

$\sigma _{m}<\infty$ の場合は、 $\mu$ の事前分布の付与はL2正則化と同じ式になる。

参考文献

M. DeGroot, Optimal Statistical Decisions, McGraw-Hill, (1970).
Harold W. Sorenson, (1980) "Parameter Estimation: Principles and Problems", Marcel Dekker.

脚注

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像