ベイズ統計その② 最尤推定 – E資格勉強おすすめ動画

こんにちは、サーバーサイドエンジニアの yoshinak です。
前回に引き続き、E資格受験でお世話になった動画の紹介です。
ご紹介する動画も前回の続きです。

【ベイズ統計その②】この推定、もっとももっともらしいってよ…！【最尤推定のお話だよ！】 #VRアカデミア #015 – YouTube

それでは始めましょう。今回の目次は以下の通りです。

例題
推定
神の視点
庶民の視点 – 尤度
今回の例題を最尤推定で計算
もう一つの例 – サイコロ
最尤推定の問題点

例題

最初に最尤推定を理解するための例題からです。

袋の中には金貨が 100 枚入っています。
その中から、1 枚を選んで、表が出たら、その金貨全てをもらえます。
選ぶ前に、コインを 1 枚ずつ試しに投げることができるとします。
表が出やすいコインを探します。

この表が出やすいコインを、どの様に探していくか? から始めます。

推定

あるコインを $ n $ 回投げたら、 $ k $ 回表だったとします。
では、このコインの、もともと表が出る確率は、どの程度だったのとだろう? という疑問が生まれます。
ある現象が観測されたとき、それを支配するパラメーターがいったいいくつだったのだろうかを考えます。
今回の場合、コインを「 $ n $ 回投げて、 $ k $ 回表だった」と言うことになります。
そして、これを支配するパラメーターは、「コイン投げて表になる確率」です。
この様に現象からパラメーターを考えることを推定と言います。
その推定の方法がいくつかあって、その一つが「最尤推定」です。

神の視点

コインを投げて、表の回数を調べて表の確率を計算するわけですが、
その前に、コインを投げたときの確率について考えます。

このコインは表になる確率は $ P $ だ。
$ n $ 回投げて、 $ k $ 回表が出た。
この確率は、 $ n C _k p^k (1 – p)^{n-k} $ だ。

この確率 $ n C _k p^k (1 – p)^{n-k} $ は、$ n $ 回の内、
表となった $ k $ 回の回数の組み合わせになります。

しかし、この確率は、先程の例題の前提と乖離があります。
例題では、「どのコインが表になりやすいか?」を知りたかったわけです。
つまり、コインごとの表になる確率を知りたかったわけです。
なので、この確率自体事前にを知っているのは、おかしな状況です。
知りたいと値を元々知っているのは、おかしなことですよね。
これを神の視点と言ったりするそうです。

この部分を復習します。

このコインは表になる確率は $ P $ だ。
$ p $ は現象を表すパラメーターです。
$ n $ 回投げて、 $ k $ 回表が出た。
現象です。
この確率は、 $ n C _k p^k (1 – p)^{n-k} $
$ n $ 回の内、表となった k 回の回数の組み合わせです。

結果の確率が分かっている神の視点から、結果をまだ知らない「庶民の視点」に戻してみましょう。

庶民の視点 – 尤度

現象を表すパラメーターは分かっていなくて、先ず、結果である現象から分かります。

$ n $ 回投げて、 $ k $ 回表が出た。

これが現象です。
ここで、「このコインが表になる確率は $ P_0 $ はいくつだったのだろう? 」と、
確率に対して、疑問を持ちます。
このコインが出る確率を $ P_0 $ とした場合、先程の現象がどれだけ起きやすいのかを考えます。

もし、表が出る確率が $ P $ なら、今の減少は確率 $ n C_k p^k (1-p)^{(n-k)} $ で起こる。
$ P $ は現象を支配するパラメーター

仮定したパラメーター $ P $ によって、計算される確率 $ n C_k p^k (1-p)^{(n-k)} $ を尤度と言います。英語で likehood なので、 $ L(P) $ と書きます。

この $ L(P) $ が最大になる $ p $ を $ \hat{p} $ と書くと、 $ p_0 $ は $ \hat{p}$ なのではないかと言うのが、最尤推定です。

$$
\hat{p} = argmax L(p)
$$

$ argmax $ は「最大の」という意味です。

現象から起こるパラメーターから確率を計算して、それが最大となるパラメーターを求めるのが、尤度を求めることになります。

今回の例題を最尤推定で計算

最大値を求める式は以下です。

$$
L(P) = n C_k P^k (1-P)^{(n-k)}
$$

この最大値を求めるために微分をします。
しかし、組み合わせの式を微分するのは大変なので、対数尤度にします。
対数が最大ならば、対数の元の値も最大だからです。
対数尤度は、E資格の勉強でも出てきましたね。

$$
l(P) = \log L(P) = k \log P + (n-k) \log(1-p) + const
$$

対数なので、積は和になります。
$ n C_k $ のところは $ P $ に依らない定数なので、今考えても仕方がないので、定数 $ const $ にします。

微分します。
微分して、 $ 0 $ になる場所から最大値を求めるのも、E資格の勉強でよく出てきますね。対数の微分を使って計算します。
$$
l^\prime (p) = \frac{k}{p} = \frac{n-k}{a-p}
$$

$ l^\prime (\hat{p}) = 0 $ にしたいので、

$$
\frac{k}{\hat{p}} – \frac{n}{1-\hat{p}} = 0
$$

$$
\frac{k}{\hat{p}} = \frac{n}{1-\hat{p}}
$$

ここでは、両方の分母を払ってではなく、比と分数の関係で解いています。
左辺と右辺の比は等しいので、

$$
\hat{k} : ( 1 – \hat{p} ) = k : (n – k)
$$

それで、結局、尤度は確率になります。

$$
\hat{p} = \frac{k}{n}
$$

もう一つの例 – サイコロ

ここで、ベイズの定理へ繋がる前振りとして、もう一つの例を考えます。

サイコロを $ n $ 回投げて、それぞれの目で以下の回数が出たとします。

$$
1 \cdots k_1 回 \\
2 \cdots k_2 回 \\
\vdots \\
6 \cdots k_6 回
$$

では、このサイコロの目の、それぞれが出る確率は?

$$
1 が出る確率 \cdots P_1 \\
2 が出る確率 \cdots P_2 \\
\vdots \\
6 が出る確率 \cdots P_6
$$

この場合の尤度を計算します。

ときに、実際にそれぞれの目が出る確率はいくつですか? という値です。

なので、今回の場合は以下の様に書くことができます。

$$
L(P) = \frac{n !}{k_1 ! \cdots k_6 !} P_1^{k_1} \cdots P_6^{k_6}
$$

$$
l(P) = k_1 \log P_1 + \cdots + k_6 \log P_6 + const
$$

ここで、確率は合計が $ 1.0 $ にならないといけないので、 6 の目が出る確率で調整します。

$$
k_6 \log P_6 = k_6 \log{(1 – P_1 – \cdots – P_5)}
$$

として、

$$
l(P) = k_1 \log P_1 + \cdots + k_6 \log{(1- P_1 – \cdots – P_5)} + const
$$

$$
\frac{\partial_{l}}{\partial_{P_1}} = \frac{k_1}{P_1} – \frac{k_6}{1 – P_1 – \cdots – P_5} \\
= \frac{k_1}{P_1} -\frac{k_6}{P_6}
$$

他の $ P_i $ についても同じで、

$$
\frac{\partial_{l}}{\partial_{P_i}} = \frac{k_i}{P_i} -\frac{k_6}{P_6}
$$

$ \hat{P} $ が最尤推定量のとき、

$ \frac{\partial_{l}}{\partial_{ P_i }} ( \hat{P} ) = 0 $ なので、

$$
\frac{k_1}{\hat{P_1}} = \frac{k_2}{\hat{P_2}} = \cdots = \frac{k_6}{\hat{P_6}}
$$

結果、確率になります。

$$
\hat{P_i} = \frac{k_i}{n}
$$

しかし、最尤推定には問題があります。最尤推定では、それぞれの目が出た確率を推定値として採用します。現実世界でこの結果を信じられるかというところです。

最尤推定の問題点

現実世界でのサイコロの出方をシミュレーションしてみます。
全自動サイコロを作ってみました。こちらで実感してみて下さい。

サイコロを 10 回、投げます。 10 回だけですと、 1 回も出現しない目の回数がありませんでしたか? 動画の例では、1 が 1 回も出ませんでした。
または、極端に回数が多い目がありませんでしたか? 動画の例では、2 が 4 回出ていました。

このまま、この確率を信じてよいでしょうか? 1 回も出現しない目ならばそのうち出るかもしれないし、回数が多い目もたまたまこの時だけ多かったように思えます。試行の回数が、今回の様に 10 回と少ない場合、ばらつきのため、確率も少ない結果に左右されます。この様に、試行の回数が少ない時、最尤推定の信頼性は低いです。

この辺りを解決するのが、ベイズ推定です。次回、ベイズ推定が楽しみです。

こちらのブログでも続きを用意します。是非お読みいただければ幸いです。