第3章 条件付き確率 ~ある出来事が起こったという情報の下で~
3-3-1: ベイズの定理Bayes' Theorem の例題 ~もっと使ってみよう~
前のページでは、ベイズの定理 $P(A|B) = \frac{P(A)P(B|A)}{P(B)}$ を学んで、病気の検査の例でその使い方を見たね。ベイズの定理は、「結果Bがわかったときに、原因Aの確率(事後確率)を、事前確率や尤度から計算できる」という強力なツールだった。
今回は、もう少しベイズの定理に慣れるために、別の例題をいくつか解いてみよう!
例題2:スパムメールフィルター
あるメールアカウントについて、以下の情報がわかっています。
- 受信メールがスパム(S)である確率: $P(S) = 0.2$ (20%)
$\implies$ 非スパム($S^c$)である確率: $P(S^c) = 1 - 0.2 = 0.8$ (80%) - スパムメールに「当選」という単語(W)が含まれる確率: $P(W|S) = 0.5$ (50%)
- 非スパムメールに「当選」という単語(W)が含まれる確率: $P(W|S^c) = 0.01$ (1%)
問題1:「当選」という単語が含まれるメールを受け取った(W)とき、それがスパム(S)である確率 $P(S|W)$ は? (前のページのおさらい)
ステップ1: 全確率の法則で $P(W)$ を求める
$P(W) = P(S)P(W|S) + P(S^c)P(W|S^c)$
$P(W) = (0.2 \times 0.5) + (0.8 \times 0.01) = 0.1 + 0.008 = 0.108$
ステップ2: ベイズの定理を適用する
$P(S|W) = \frac{P(S)P(W|S)}{P(W)}$
$P(S|W) = \frac{0.2 \times 0.5}{0.108} = \frac{0.1}{0.108} = \frac{100}{108} = \frac{25}{27}$
$P(S|W) \approx 0.926$ (約 92.6%)
「当選」という言葉があると、かなり高い確率でスパムだと判断できるね。
問題2:「当選」という単語が含まれていないメール($W^c$)を受け取ったとき、それがスパム(S)である確率 $P(S|W^c)$ は?
ステップ1: 必要な確率 $P(W^c|S)$ と $P(W^c|S^c)$ を求める
$P(W^c|S) = 1 - P(W|S) = 1 - 0.5 = 0.5$
$P(W^c|S^c) = 1 - P(W|S^c) = 1 - 0.01 = 0.99$
ステップ2: 全確率の法則で $P(W^c)$ を求める
$P(W^c) = P(S)P(W^c|S) + P(S^c)P(W^c|S^c)$
$P(W^c) = (0.2 \times 0.5) + (0.8 \times 0.99) = 0.1 + 0.792 = 0.892$
(検算: $P(W) + P(W^c) = 0.108 + 0.892 = 1.0$。OK!)
ステップ3: ベイズの定理を適用する
$P(S|W^c) = \frac{P(S)P(W^c|S)}{P(W^c)}$
$P(S|W^c) = \frac{0.2 \times 0.5}{0.892} = \frac{0.1}{0.892} = \frac{100}{892} = \frac{25}{223}$
$P(S|W^c) \approx 0.112$ (約 11.2%)
「当選」という単語がない場合、そのメールがスパムである確率はぐっと下がる(約11.2%)ことがわかったね。これがスパムフィルターが単語を見て判断する仕組みの基本なんだ。
例題3:3つの箱とボール
ここに3つの箱A, B, Cがあります。それぞれの箱の中身は以下の通りです。
- 箱A:赤玉 2個、白玉 3個 (計5個)
- 箱B:赤玉 4個、白玉 1個 (計5個)
- 箱C:赤玉 1個、白玉 4個 (計5個)
まず、3つの箱の中から、どれか1つの箱を等しい確率で選びます。そして、選んだ箱から玉を1個取り出します。
問題:取り出した玉が赤玉だったとき、それが箱Aから取り出された確率 $P(A|\text{赤})$ は?
考え方:
結果(赤玉が出た)がわかった上で、原因(どの箱を選んだか)の確率を求めたいので、ベイズの定理を使おう!
使うのはこの形: $P(A|\text{赤}) = \frac{P(A)P(\text{赤}|A)}{P(\text{赤})}$
ステップ1: 事前確率と尤度を整理する
箱を選ぶ確率は等しいので、事前確率は
$P(A) = P(B) = P(C) = \frac{1}{3}$
各箱を選んだ場合に赤玉が出る確率(尤度)は
$P(\text{赤}|A) = \frac{2}{5}$
$P(\text{赤}|B) = \frac{4}{5}$
$P(\text{赤}|C) = \frac{1}{5}$
ステップ2: 全確率の法則で $P(\text{赤})$ を求める
$P(\text{赤}) = P(A)P(\text{赤}|A) + P(B)P(\text{赤}|B) + P(C)P(\text{赤}|C)$
$P(\text{赤}) = (\frac{1}{3} \times \frac{2}{5}) + (\frac{1}{3} \times \frac{4}{5}) + (\frac{1}{3} \times \frac{1}{5})$
$P(\text{赤}) = \frac{1}{3} \times (\frac{2+4+1}{5}) = \frac{1}{3} \times \frac{7}{5} = \frac{7}{15}$
ステップ3: ベイズの定理を適用する
$P(A|\text{赤}) = \frac{P(A)P(\text{赤}|A)}{P(\text{赤})}$
$P(A|\text{赤}) = \frac{\frac{1}{3} \times \frac{2}{5}}{7/15} = \frac{2/15}{7/15} = \frac{2}{7}$
$P(A|\text{赤}) = \frac{2}{7}$
答え: $\frac{2}{7}$ (約 28.6%)
赤玉が出たという結果を知る前は、箱Aを選んだ確率は $\frac{1}{3}$ (約33.3%) だったけど、赤玉が出たという情報を得たことで、その確率は $\frac{2}{7}$ (約28.6%) に更新されたんだね。これは、箱Bの方が箱Aよりも赤玉が出やすい(尤度が高い)ため、結果として赤玉が出たなら「もしかしたら箱Bだったのかも?」という可能性が少し上がり、相対的に箱Aの可能性が少し下がった、と解釈できるよ。
まとめ
ベイズの定理は、一見複雑に見えるかもしれないけど、
- 事前確率(もともとの確率)と尤度(その原因の下で結果が起こる確率)を整理する。
- 全確率の法則を使って、結果が起こる全体の確率 $P(B)$ を計算する。
- ベイズの定理の式 $P(A|B) = \frac{P(A)P(B|A)}{P(B)}$ に当てはめる。
というステップで計算できるんだ。いろいろな場面で使える強力な定理だから、ぜひ使い方をマスターしよう!
このページで出てきたEnglish wordsとその仲間たち
英単語 (English) | 意味 (Meaning) | 例文 (Example Sentence) | 例文の読み上げ | 例文の日本語訳 |
---|---|---|---|---|
Bayes' Theorem Application | ベイズの定理の応用 | Spam filtering is a common Bayes' Theorem application. | ▶ 再生 | スパムフィルタリングは、一般的なベイズの定理の応用です。 |
Spam Filter | スパムフィルター、迷惑メールフィルター | Many email services use a spam filter based on Bayesian probability. | ▶ 再生 | 多くのメールサービスは、ベイズ確率に基づいたスパムフィルターを使用しています。 |
Diagnostic Test | 診断検査 | Bayes' theorem is often used to interpret the results of diagnostic tests. | ▶ 再生 | ベイズの定理は、しばしば診断検査の結果を解釈するために使用されます。 |
Update Probability / Belief | 確率/信念を更新する | We update our prior probability to a posterior probability using evidence. | ▶ 再生 | 私たちは証拠を用いて事前確率を事後確率に更新します。 |
Inference | 推論、推定 | Bayesian inference is a method of statistical inference. | ▶ 再生 | ベイジアン推論は、統計的推論の一手法です。 |
Interpretation | 解釈 | The interpretation of the test result depends on the prior probability. | ▶ 再生 | 検査結果の解釈は、事前確率に依存します。 |