ウルトラ先生の確率教室

第8章 代表的な連続型確率分布

8-1: 連続型確率分布Continuous Probability Distribution確率密度関数Probability Density Function (PDF)

第7章までで、ベルヌーイ分布、二項分布、ポアソン分布、幾何分布といった「離散型」の確率分布を見てきたね。これらは、確率変数が $0, 1, 2, \dots$ のように、飛び飛びの値をとる場合の確率のパターンだった。

でも、世の中には連続型continuousの確率変数もたくさんあるんだったね。例えば、

などだ。これらの値は、ある範囲の中で連続的に変化し、特定の値ピッタリになるということは考えにくい。

この章からは、こうした連続型確率変数が従う「連続型確率分布Continuous Probability Distribution」について学んでいくよ。連続型の場合、離散型とは確率の考え方が少し違うから、まずはその基本をしっかり押さえよう!

連続型確率変数と確率 (復習)

連続型の確率変数 $X$ (例えば身長)について考えるとき、一番大事なポイントはこれだった。

特定の値ピッタリになる確率 $P(X=x)$ は 0 である。

例えば、「身長がちょうど 170.0000... cm である」確率を考えてみてほしい。現実にはそんなピッタリの値になることはありえないよね? 理論上も、連続的な値の中のたった一点をとる確率は 0 になると考えるんだ。

じゃあ、連続型ではどうやって確率を考えるのかというと…

ある範囲(区間)intervalに入る確率 $P(a \le X \le b)$

を考えるんだったね。「身長が165cm以上170cm以下である確率」のように、「範囲」で確率を捉えるんだ。

確率密度関数Probability Density Function (PDF) とは?

連続型確率変数 $X$ の確率分布は、「確率密度関数 (PDF)」と呼ばれる関数 $f(x)$ を使って記述されるよ。

この $f(x)$ の値自体は「確率」ではないんだけど(だから1を超えることもありうる!)、グラフの形が、どの値のあたりが「起こりやすい」か(確率の密度が高いか)を表しているんだ。

PDF $f(x)$ には、とても大切な性質が3つある。

  1. 常に $f(x) \ge 0$ である。
    確率の密度がマイナスになることはない、ということだね。グラフは常にx軸の上にあるか、接している。
  2. グラフ $y=f(x)$ とx軸で囲まれる全区間の面積areaは、必ず 1 になる。
    これは、離散型で確率の合計が1になることに対応している。「起こりうるすべての範囲」の確率は1だということだね。(数学の記号では $\int_{-\infty}^{\infty} f(x) dx = 1$ と書くよ)
  3. $X$ が $a$ 以上 $b$ 以下の値をとる確率 $P(a \le X \le b)$ は、グラフ $y=f(x)$ の下で、$x=a$ から $x=b$ までの区間の面積に等しい。
    これが一番重要!連続型の確率は、PDFのグラフの下の面積として求められるんだ。(数学の記号では $P(a \le X \le b) = \int_a^b f(x) dx$ と書くよ)

この図を見てみよう。 釣鐘型の曲線が確率密度関数 $f(x)$ だ。
(1) 曲線は常にx軸の上にある ($f(x) \ge 0$ )。
(2) 曲線とx軸で囲まれた全体の水色の部分の面積が 1 になる。
(3) 緑色で塗られた $a$ から $b$ までの区間の面積が、$X$ が $a$ と $b$ の間の値をとる確率 $P(a \le X \le b)$ になる。
(4) 特定の値 $c$ での確率 $P(X=c)$ は、幅のない線分の面積になるから 0 になる、というのもわかるね。 (だから連続型では $P(a \le X \le b)$ と $P(a < X < b)$ は同じ値になるんだ。)

PDF (連続型) と PMF (離散型) の違いまとめ

ここで、離散型の確率分布を表す「確率質量関数 (PMF)」と、連続型の確率分布を表す「確率密度関数 (PDF)」の違いを整理しておこう。

特徴 離散型 (PMF: $P(X=x_k)$) 連続型 (PDF: $f(x)$)
確率変数 $X$ がとる値 飛び飛びの値 ($x_1, x_2, \dots$) 連続的な値 (ある区間内の実数)
関数の値の意味 その値をとる確率
($0 \le P(X=x_k) \le 1$)
確率密度(確率ではない)
($f(x) \ge 0$, 1を超えることもありうる)
確率の求め方 特定の値 $x_k$ の確率 $P(X=x_k)$ 区間 $[a, b]$ の面積 $P(a \le X \le b) = \int_a^b f(x) dx$
全確率 / 全面積 確率の合計 $\sum_k P(X=x_k) = 1$ グラフ下の全面積 $\int_{-\infty}^{\infty} f(x) dx = 1$
特定の値の確率 $P(X=x_k)$ (通常 > 0) $P(X=x) = 0$

これから学ぶ連続型確率分布(予告)

この章では、代表的な連続型の確率分布として、次のようなものを順番に見ていくよ。

それぞれの分布がどんな形の確率密度関数(PDF)を持っていて、どんな性質があるのか、一緒に探っていこう!

まとめ

離散型と連続型の確率の考え方の違い、特にPDFと面積の関係をしっかりイメージできるようになっておこうね!

このページで出てきたEnglish wordsとその仲間たち

英単語 (English) 意味 (Meaning) 例文 (Example Sentence) 例文の読み上げ 例文の日本語訳
Continuous Probability Distribution 連続型確率分布 Height and weight often follow a continuous probability distribution. ▶ 再生 身長や体重は、しばしば連続型確率分布に従います。
Probability Density Function (PDF) 確率密度関数 The Probability Density Function (PDF) $f(x)$ describes the likelihood of a continuous random variable taking on a given value. ▶ 再生 確率密度関数(PDF) $f(x)$ は、連続確率変数が特定の値をとる尤度(らしさ)を記述します。
Area under the curve 曲線の下の面積 Probability for a continuous variable is found by calculating the area under the curve of its PDF. ▶ 再生 連続変数の確率は、そのPDFの曲線の下の面積を計算することによって求められます。
Interval 区間 We calculate the probability that the variable falls within a specific interval $[a, b]$. ▶ 再生 私たちは、変数が特定の区間 $[a, b]$ 内に収まる確率を計算します。
Density 密度 The PDF $f(x)$ represents probability density, not probability itself. ▶ 再生 PDF $f(x)$ は確率密度を表し、確率そのものではありません。
Uniform Distribution 一様分布 In a uniform distribution, all outcomes within a range are equally likely. ▶ 再生 一様分布では、ある範囲内のすべての結果が同様に確からしいです。
Normal Distribution 正規分布 The bell-shaped curve represents the normal distribution. ▶ 再生 釣鐘型の曲線は正規分布を表します。
Exponential Distribution 指数分布 Exponential distribution often models waiting times. ▶ 再生 指数分布は、しばしば待ち時間をモデル化します。