第6章 確率変数と確率分布 ~偶然を支配するパターン~
6-2: 確率分布Probability Distribution とは?
前のページでは、「確率変数Random Variable」($X$) という新しい言葉を学んだね。これは、サイコロの目やコインの表の回数のように、試行の結果によって値が確率的に決まる変数(数値)のことだった。
さて、確率変数 $X$ は、いろいろな値をとる可能性があるわけだけど、それぞれの値を「どのくらいの確率でとるのか」は、変数によって違うはずだよね。例えば、サイコロの目は1から6まで均等に出やすいけど、コインを3回投げたときの表の回数は、0回や3回よりも1回や2回の方が出やすいんだった(二項分布の例を思い出してね)。
このように、確率変数 $X$ がとりうる全ての値と、それぞれの値をとる確率の対応関係(パターン)全体を示したものを、「確率分布Probability Distribution」と呼ぶんだ。
確率分布は、その確率変数の「性格」や「振る舞い」を表す、いわば取扱説明書のようなものなんだよ。確率分布を知れば、その確率変数がどんな値を取りやすいか、どれくらいばらつくか、などがわかるようになるんだ。
確率分布Probability Distribution とは?
確率変数 $X$ がとりうる値 $x$ と、その値をとる確率 $P(X=x)$ (または確率密度)の間の対応関係を示すもの。
確率分布の表現方法は、確率変数 $X$ が「離散型」か「連続型」かによって異なるよ。
1. 離散型確率分布 (Discrete Probability Distribution)
確率変数が離散型(飛び飛びの値をとる)の場合、その確率分布は、各値 $x_k$ に対して、その値をとる確率 $P(X=x_k)$ を示すことで表現できるよ。
表現方法1:確率分布表
一番わかりやすいのが、表を使う方法だ。上の行に $X$ がとる値 $x_k$ を、下の行に対応する確率 $P(X=x_k)$ を書き並べるんだ。
例:サイコロ1個の目の確率分布表
$X=x_k$ (出る目) | 1 | 2 | 3 | 4 | 5 | 6 | 合計 |
---|---|---|---|---|---|---|---|
$P(X=x_k)$ (確率) | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | 1 |
例:コイン3回投げの表の回数 $X$ の確率分布表 ($B(3, 0.5)$)
$X=k$ (表の回数) | 0 | 1 | 2 | 3 | 合計 |
---|---|---|---|---|---|
$P(X=k)$ (確率) | $\frac{1}{8}$ | $\frac{3}{8}$ | $\frac{3}{8}$ | $\frac{1}{8}$ | 1 |
重要な性質:離散型確率分布では、すべての可能な値に対する確率 $P(X=x_k)$ を合計すると、必ず 1 になるよ! $\sum_k P(X=x_k) = 1$
表現方法2:確率質量関数 (Probability Mass Function, PMF)
確率 $P(X=x)$ を、$x$ の関数(式)として表す方法もあるんだ。これを確率質量関数 (PMF) と呼ぶよ。$f(x) = P(X=x)$ と書くことが多い。
- 例:サイコロの目の場合、$f(x) = \frac{1}{6} \quad (\text{ただし } x=1, 2, 3, 4, 5, 6)$
- 例:二項分布 $B(n, p)$ の場合、$f(k) = P(X=k) = {}_n C_k p^k (1-p)^{n-k} \quad (\text{ただし } k=0, 1, \dots, n)$
(PMFという言葉は少し専門的だけど、「確率を計算するための式」だと思っておけばOKだよ)
表現方法3:棒グラフ
横軸に確率変数の値 $x_k$、縦軸に確率 $P(X=x_k)$ をとって、棒グラフで表す方法もある。これなら分布の形が一目でわかるね。
サイコロ1個の目の確率分布グラフ
コイン3回投げの表の回数の分布グラフ
(前のページで見た二項分布 $B(3, 0.5)$ だね)
2. 連続型確率分布 (Continuous Probability Distribution)
確率変数が連続型(ある範囲の任意の値をとる)の場合、話が少し変わってくるんだったね。
連続型では、$X$ が特定の値 $x$ ピッタリになる確率 $P(X=x)$ は 0 になってしまう。だから、離散型のような確率分布表や棒グラフ(高さが確率を表すもの)では表現できないんだ。
その代わりに、確率の「密度」を表す関数を使って分布を表現するよ。
表現方法:確率密度関数 (Probability Density Function, PDF)
確率密度関数 (PDF) とは、連続型確率変数 $X$ の確率分布を表す関数 $f(x)$ のことだ。この関数自体が確率を表すわけではないんだけど、この関数のグラフとx軸で囲まれた部分の面積areaが確率に対応するんだ!
確率密度関数 $f(x)$ には、次のような性質があるよ。
- 常に $f(x) \ge 0$ (グラフはx軸より上にあるか、x軸上に接する)。
- グラフ $y=f(x)$ とx軸で囲まれた部分の全体の面積は必ず 1 になる。(これは、確率の合計が1になることに対応するよ)。
(数学の記号では $\int_{-\infty}^{\infty} f(x) dx = 1$ と書くけど、今は「全区間の面積=1」と覚えておこう) - 確率変数 $X$ が $a$ 以上 $b$ 以下の値をとる確率 $P(a \le X \le b)$ は、グラフ $y=f(x)$ の下で、$x=a$ から $x=b$ までの区間の面積に等しくなる。
(これも記号では $P(a \le X \le b) = \int_a^b f(x) dx$ と書くよ)
下の図は、連続型確率分布のイメージだよ。なだらかな曲線(これがPDF $f(x)$)の下の、色が付いている部分の面積が、$X$ が $a$ と $b$ の間の値をとる確率 $P(a \le X \le b)$ を表しているんだ。
曲線の下の面積が確率を表す (全区間の面積は1)
どんな形の曲線(PDF)になるかは、確率変数がどんな現象を表しているかによって決まるんだ。代表的な連続型確率分布としては、
- 正規分布(平均値の周りに集まる、左右対称の釣鐘型)
- 一様分布(ある区間で、どの値も同じように出やすい)
- 指数分布(何かが起こるまでの待ち時間など)
などがあるよ。これらについては、第8章で詳しく見ていくからね!
まとめ
- 確率分布は、確率変数がとる値と、その確率(または確率密度)の対応関係を示すもの。
- 離散型確率分布は、確率分布表、確率質量関数(PMF)、棒グラフなどで表現される。各値をとる確率の合計は1になる。
- 連続型確率分布は、確率密度関数(PDF)で表現される。PDFのグラフの下の面積が確率に対応し、全区間の面積は1になる。
- 確率分布を知ることで、確率変数の振る舞いを理解し、予測や分析ができるようになる。
これで確率分布の基本的な考え方はOKかな? 次の章からは、代表的な離散型の確率分布(ベルヌーイ分布、二項分布、ポアソン分布など)を一つずつ詳しく見ていこう!
このページで出てきたEnglish wordsとその仲間たち
英単語 (English) | 意味 (Meaning) | 例文 (Example Sentence) | 例文の読み上げ | 例文の日本語訳 |
---|---|---|---|---|
Probability Distribution | 確率分布 | A probability distribution assigns a probability to each possible outcome of a random variable. | ▶ 再生 | 確率分布は、確率変数の各可能な結果に確率を割り当てます。 |
Discrete Distribution | 離散型分布 | The binomial distribution is an example of a discrete distribution. | ▶ 再生 | 二項分布は離散型分布の一例です。 |
Continuous Distribution | 連続型分布 | The normal distribution is a well-known continuous distribution. | ▶ 再生 | 正規分布はよく知られた連続型分布です。 |
Probability Mass Function (PMF) | 確率質量関数 | For a discrete random variable, the probability mass function (PMF) gives the probability $P(X=x)$. | ▶ 再生 | 離散確率変数に対して、確率質量関数(PMF)は確率 $P(X=x)$ を与えます。 |
Probability Density Function (PDF) | 確率密度関数 | For a continuous random variable, the probability density function (PDF), $f(x)$, is used; the area under the curve gives probabilities. | ▶ 再生 | 連続確率変数に対しては、確率密度関数(PDF) $f(x)$ が使われ、曲線の下の面積が確率を与えます。 |
Area under the curve | 曲線の下の面積 | The total area under the curve of a PDF must equal 1. | ▶ 再生 | PDFの曲線の下の全面積は1に等しくなければなりません。 |
Sum (of probabilities) | 確率の合計 | The sum of probabilities for all possible outcomes of a discrete random variable is 1. | ▶ 再生 | 離散確率変数の全ての可能な結果に対する確率の合計は1です。 |