ウルトラ先生の確率教室

第3章 条件付き確率 ~ある出来事が起こったという情報の下で~

3-3-1: ベイズの定理Bayes' Theorem の例題 ~もっと使ってみよう~

前のページでは、ベイズの定理 $P(A|B) = \frac{P(A)P(B|A)}{P(B)}$ を学んで、病気の検査の例でその使い方を見たね。ベイズの定理は、「結果Bがわかったときに、原因Aの確率(事後確率)を、事前確率や尤度から計算できる」という強力なツールだった。

今回は、もう少しベイズの定理に慣れるために、別の例題をいくつか解いてみよう!

例題2:スパムメールフィルター

あるメールアカウントについて、以下の情報がわかっています。

  • 受信メールがスパム(S)である確率: $P(S) = 0.2$ (20%)
    $\implies$ 非スパム($S^c$)である確率: $P(S^c) = 1 - 0.2 = 0.8$ (80%)
  • スパムメールに「当選」という単語(W)が含まれる確率: $P(W|S) = 0.5$ (50%)
  • 非スパムメールに「当選」という単語(W)が含まれる確率: $P(W|S^c) = 0.01$ (1%)

問題1:「当選」という単語が含まれるメールを受け取った(W)とき、それがスパム(S)である確率 $P(S|W)$ は? (前のページのおさらい)

ステップ1: 全確率の法則で $P(W)$ を求める
$P(W) = P(S)P(W|S) + P(S^c)P(W|S^c)$
$P(W) = (0.2 \times 0.5) + (0.8 \times 0.01) = 0.1 + 0.008 = 0.108$

ステップ2: ベイズの定理を適用する
$P(S|W) = \frac{P(S)P(W|S)}{P(W)}$
$P(S|W) = \frac{0.2 \times 0.5}{0.108} = \frac{0.1}{0.108} = \frac{100}{108} = \frac{25}{27}$

$P(S|W) \approx 0.926$ (約 92.6%)

「当選」という言葉があると、かなり高い確率でスパムだと判断できるね。


問題2:「当選」という単語が含まれていないメール($W^c$)を受け取ったとき、それがスパム(S)である確率 $P(S|W^c)$ は?

ステップ1: 必要な確率 $P(W^c|S)$ と $P(W^c|S^c)$ を求める
$P(W^c|S) = 1 - P(W|S) = 1 - 0.5 = 0.5$
$P(W^c|S^c) = 1 - P(W|S^c) = 1 - 0.01 = 0.99$

ステップ2: 全確率の法則で $P(W^c)$ を求める
$P(W^c) = P(S)P(W^c|S) + P(S^c)P(W^c|S^c)$
$P(W^c) = (0.2 \times 0.5) + (0.8 \times 0.99) = 0.1 + 0.792 = 0.892$
(検算: $P(W) + P(W^c) = 0.108 + 0.892 = 1.0$。OK!)

ステップ3: ベイズの定理を適用する
$P(S|W^c) = \frac{P(S)P(W^c|S)}{P(W^c)}$
$P(S|W^c) = \frac{0.2 \times 0.5}{0.892} = \frac{0.1}{0.892} = \frac{100}{892} = \frac{25}{223}$

$P(S|W^c) \approx 0.112$ (約 11.2%)

「当選」という単語がない場合、そのメールがスパムである確率はぐっと下がる(約11.2%)ことがわかったね。これがスパムフィルターが単語を見て判断する仕組みの基本なんだ。

例題3:3つの箱とボール

ここに3つの箱A, B, Cがあります。それぞれの箱の中身は以下の通りです。

  • 箱A:赤玉 2個、白玉 3個 (計5個)
  • 箱B:赤玉 4個、白玉 1個 (計5個)
  • 箱C:赤玉 1個、白玉 4個 (計5個)

まず、3つの箱の中から、どれか1つの箱を等しい確率で選びます。そして、選んだ箱から玉を1個取り出します。

問題:取り出した玉が赤玉だったとき、それが箱Aから取り出された確率 $P(A|\text{赤})$ は?

考え方:

結果(赤玉が出た)がわかった上で、原因(どの箱を選んだか)の確率を求めたいので、ベイズの定理を使おう!

使うのはこの形: $P(A|\text{赤}) = \frac{P(A)P(\text{赤}|A)}{P(\text{赤})}$

ステップ1: 事前確率と尤度を整理する
箱を選ぶ確率は等しいので、事前確率は
$P(A) = P(B) = P(C) = \frac{1}{3}$
各箱を選んだ場合に赤玉が出る確率(尤度)は
$P(\text{赤}|A) = \frac{2}{5}$
$P(\text{赤}|B) = \frac{4}{5}$
$P(\text{赤}|C) = \frac{1}{5}$

ステップ2: 全確率の法則で $P(\text{赤})$ を求める
$P(\text{赤}) = P(A)P(\text{赤}|A) + P(B)P(\text{赤}|B) + P(C)P(\text{赤}|C)$
$P(\text{赤}) = (\frac{1}{3} \times \frac{2}{5}) + (\frac{1}{3} \times \frac{4}{5}) + (\frac{1}{3} \times \frac{1}{5})$
$P(\text{赤}) = \frac{1}{3} \times (\frac{2+4+1}{5}) = \frac{1}{3} \times \frac{7}{5} = \frac{7}{15}$

ステップ3: ベイズの定理を適用する
$P(A|\text{赤}) = \frac{P(A)P(\text{赤}|A)}{P(\text{赤})}$
$P(A|\text{赤}) = \frac{\frac{1}{3} \times \frac{2}{5}}{7/15} = \frac{2/15}{7/15} = \frac{2}{7}$

$P(A|\text{赤}) = \frac{2}{7}$

答え: $\frac{2}{7}$ (約 28.6%)

赤玉が出たという結果を知る前は、箱Aを選んだ確率は $\frac{1}{3}$ (約33.3%) だったけど、赤玉が出たという情報を得たことで、その確率は $\frac{2}{7}$ (約28.6%) に更新されたんだね。これは、箱Bの方が箱Aよりも赤玉が出やすい(尤度が高い)ため、結果として赤玉が出たなら「もしかしたら箱Bだったのかも?」という可能性が少し上がり、相対的に箱Aの可能性が少し下がった、と解釈できるよ。

まとめ

ベイズの定理は、一見複雑に見えるかもしれないけど、

  1. 事前確率(もともとの確率)と尤度(その原因の下で結果が起こる確率)を整理する。
  2. 全確率の法則を使って、結果が起こる全体の確率 $P(B)$ を計算する。
  3. ベイズの定理の式 $P(A|B) = \frac{P(A)P(B|A)}{P(B)}$ に当てはめる。

というステップで計算できるんだ。いろいろな場面で使える強力な定理だから、ぜひ使い方をマスターしよう!

このページで出てきたEnglish wordsとその仲間たち

英単語 (English) 意味 (Meaning) 例文 (Example Sentence) 例文の読み上げ 例文の日本語訳
Bayes' Theorem Application ベイズの定理の応用 Spam filtering is a common Bayes' Theorem application. ▶ 再生 スパムフィルタリングは、一般的なベイズの定理の応用です。
Spam Filter スパムフィルター、迷惑メールフィルター Many email services use a spam filter based on Bayesian probability. ▶ 再生 多くのメールサービスは、ベイズ確率に基づいたスパムフィルターを使用しています。
Diagnostic Test 診断検査 Bayes' theorem is often used to interpret the results of diagnostic tests. ▶ 再生 ベイズの定理は、しばしば診断検査の結果を解釈するために使用されます。
Update Probability / Belief 確率/信念を更新する We update our prior probability to a posterior probability using evidence. ▶ 再生 私たちは証拠を用いて事前確率を事後確率に更新します。
Inference 推論、推定 Bayesian inference is a method of statistical inference. ▶ 再生 ベイジアン推論は、統計的推論の一手法です。
Interpretation 解釈 The interpretation of the test result depends on the prior probability. ▶ 再生 検査結果の解釈は、事前確率に依存します。