ウルトラ先生の確率教室

第6章 確率変数と確率分布 ~偶然を支配するパターン~

6-2: 確率分布Probability Distribution とは?

前のページでは、「確率変数Random Variable」($X$) という新しい言葉を学んだね。これは、サイコロの目やコインの表の回数のように、試行の結果によって値が確率的に決まる変数(数値)のことだった。

さて、確率変数 $X$ は、いろいろな値をとる可能性があるわけだけど、それぞれの値を「どのくらいの確率でとるのか」は、変数によって違うはずだよね。例えば、サイコロの目は1から6まで均等に出やすいけど、コインを3回投げたときの表の回数は、0回や3回よりも1回や2回の方が出やすいんだった(二項分布の例を思い出してね)。

このように、確率変数 $X$ がとりうる全ての値と、それぞれの値をとる確率の対応関係(パターン)全体を示したものを、「確率分布Probability Distribution」と呼ぶんだ。

確率分布は、その確率変数の「性格」や「振る舞い」を表す、いわば取扱説明書のようなものなんだよ。確率分布を知れば、その確率変数がどんな値を取りやすいか、どれくらいばらつくか、などがわかるようになるんだ。

確率分布Probability Distribution とは?

確率変数 $X$ がとりうる値 $x$ と、その値をとる確率 $P(X=x)$ (または確率密度)の間の対応関係を示すもの。

確率分布の表現方法は、確率変数 $X$ が「離散型」か「連続型」かによって異なるよ。

1. 離散型確率分布 (Discrete Probability Distribution)

確率変数が離散型(飛び飛びの値をとる)の場合、その確率分布は、各値 $x_k$ に対して、その値をとる確率 $P(X=x_k)$ を示すことで表現できるよ。

表現方法1:確率分布表

一番わかりやすいのが、表を使う方法だ。上の行に $X$ がとる値 $x_k$ を、下の行に対応する確率 $P(X=x_k)$ を書き並べるんだ。

例:サイコロ1個の目の確率分布表

$X=x_k$ (出る目)123456合計
$P(X=x_k)$ (確率)$\frac{1}{6}$$\frac{1}{6}$$\frac{1}{6}$$\frac{1}{6}$$\frac{1}{6}$$\frac{1}{6}$1

例:コイン3回投げの表の回数 $X$ の確率分布表 ($B(3, 0.5)$)

$X=k$ (表の回数)0123合計
$P(X=k)$ (確率)$\frac{1}{8}$$\frac{3}{8}$$\frac{3}{8}$$\frac{1}{8}$1

重要な性質:離散型確率分布では、すべての可能な値に対する確率 $P(X=x_k)$ を合計すると、必ず 1 になるよ! $\sum_k P(X=x_k) = 1$

表現方法2:確率質量関数 (Probability Mass Function, PMF)

確率 $P(X=x)$ を、$x$ の関数(式)として表す方法もあるんだ。これを確率質量関数 (PMF) と呼ぶよ。$f(x) = P(X=x)$ と書くことが多い。

  • 例:サイコロの目の場合、$f(x) = \frac{1}{6} \quad (\text{ただし } x=1, 2, 3, 4, 5, 6)$
  • 例:二項分布 $B(n, p)$ の場合、$f(k) = P(X=k) = {}_n C_k p^k (1-p)^{n-k} \quad (\text{ただし } k=0, 1, \dots, n)$

(PMFという言葉は少し専門的だけど、「確率を計算するための式」だと思っておけばOKだよ)

表現方法3:棒グラフ

横軸に確率変数の値 $x_k$、縦軸に確率 $P(X=x_k)$ をとって、棒グラフで表す方法もある。これなら分布の形が一目でわかるね。

サイコロ1個の目の確率分布グラフ

コイン3回投げの表の回数の分布グラフ
(前のページで見た二項分布 $B(3, 0.5)$ だね)

2. 連続型確率分布 (Continuous Probability Distribution)

確率変数が連続型(ある範囲の任意の値をとる)の場合、話が少し変わってくるんだったね。

連続型では、$X$ が特定の値 $x$ ピッタリになる確率 $P(X=x)$ は 0 になってしまう。だから、離散型のような確率分布表や棒グラフ(高さが確率を表すもの)では表現できないんだ。

その代わりに、確率の「密度」を表す関数を使って分布を表現するよ。

表現方法:確率密度関数 (Probability Density Function, PDF)

確率密度関数 (PDF) とは、連続型確率変数 $X$ の確率分布を表す関数 $f(x)$ のことだ。この関数自体が確率を表すわけではないんだけど、この関数のグラフとx軸で囲まれた部分の面積areaが確率に対応するんだ!

確率密度関数 $f(x)$ には、次のような性質があるよ。

  • 常に $f(x) \ge 0$ (グラフはx軸より上にあるか、x軸上に接する)。
  • グラフ $y=f(x)$ とx軸で囲まれた部分の全体の面積は必ず 1 になる。(これは、確率の合計が1になることに対応するよ)。
    (数学の記号では $\int_{-\infty}^{\infty} f(x) dx = 1$ と書くけど、今は「全区間の面積=1」と覚えておこう)
  • 確率変数 $X$ が $a$ 以上 $b$ 以下の値をとる確率 $P(a \le X \le b)$ は、グラフ $y=f(x)$ の下で、$x=a$ から $x=b$ までの区間の面積に等しくなる。
    (これも記号では $P(a \le X \le b) = \int_a^b f(x) dx$ と書くよ)

下の図は、連続型確率分布のイメージだよ。なだらかな曲線(これがPDF $f(x)$)の下の、色が付いている部分の面積が、$X$ が $a$ と $b$ の間の値をとる確率 $P(a \le X \le b)$ を表しているんだ。

曲線の下の面積が確率を表す (全区間の面積は1)

どんな形の曲線(PDF)になるかは、確率変数がどんな現象を表しているかによって決まるんだ。代表的な連続型確率分布としては、

  • 正規分布(平均値の周りに集まる、左右対称の釣鐘型)
  • 一様分布(ある区間で、どの値も同じように出やすい)
  • 指数分布(何かが起こるまでの待ち時間など)

などがあるよ。これらについては、第8章で詳しく見ていくからね!

まとめ

これで確率分布の基本的な考え方はOKかな? 次の章からは、代表的な離散型の確率分布(ベルヌーイ分布、二項分布、ポアソン分布など)を一つずつ詳しく見ていこう!

このページで出てきたEnglish wordsとその仲間たち

英単語 (English) 意味 (Meaning) 例文 (Example Sentence) 例文の読み上げ 例文の日本語訳
Probability Distribution 確率分布 A probability distribution assigns a probability to each possible outcome of a random variable. ▶ 再生 確率分布は、確率変数の各可能な結果に確率を割り当てます。
Discrete Distribution 離散型分布 The binomial distribution is an example of a discrete distribution. ▶ 再生 二項分布は離散型分布の一例です。
Continuous Distribution 連続型分布 The normal distribution is a well-known continuous distribution. ▶ 再生 正規分布はよく知られた連続型分布です。
Probability Mass Function (PMF) 確率質量関数 For a discrete random variable, the probability mass function (PMF) gives the probability $P(X=x)$. ▶ 再生 離散確率変数に対して、確率質量関数(PMF)は確率 $P(X=x)$ を与えます。
Probability Density Function (PDF) 確率密度関数 For a continuous random variable, the probability density function (PDF), $f(x)$, is used; the area under the curve gives probabilities. ▶ 再生 連続確率変数に対しては、確率密度関数(PDF) $f(x)$ が使われ、曲線の下の面積が確率を与えます。
Area under the curve 曲線の下の面積 The total area under the curve of a PDF must equal 1. ▶ 再生 PDFの曲線の下の全面積は1に等しくなければなりません。
Sum (of probabilities) 確率の合計 The sum of probabilities for all possible outcomes of a discrete random variable is 1. ▶ 再生 離散確率変数の全ての可能な結果に対する確率の合計は1です。