ウルトラ先生の確率教室

第8章 代表的な連続型確率分布

8-3: 正規分布Normal Distribution(ガウス分布)~最も有名な釣鐘型の分布~

さあ、いよいよ確率分布の王様とも言える「正規分布Normal Distribution」の登場だよ!「ガウス分布Gaussian Distribution」という名前で呼ばれることもある、非常に有名で重要な分布なんだ。

なぜそんなに重要かというと、私たちの身の回りにある様々なデータ、例えばたくさんの人の身長や体重、テストの点数、工場で作られる製品の寸法や重さのばらつき、測定したときに生じる誤差などが、しばしばこの正規分布(またはそれに非常に近い形)に従うことが知られているからなんだ。

正規分布のグラフは、下のような左右対称の美しい「釣鐘型Bell Curve」をしているのが特徴だよ。

正規分布の確率密度関数(釣鐘型)

正規分布Normal Distribution とは?

正規分布は、平均(期待値) $\mu$ (ミュー)と標準偏差 $\sigma$ (シグマ、$\sigma > 0$)という2つのパラメータparameterによって完全に形が決まる、連続型の確率分布だよ。($\sigma^2$ は分散varianceだね)

  • 平均 $\mu$:分布の「中心」の位置を決める。グラフの山の頂点の $x$ 座標が $\mu$ になる。
  • 標準偏差 $\sigma$:分布の「広がり具合(ばらつき)」を決める。$\sigma$ が大きいほど、山はなだらかで裾野が広くなり、$\sigma$ が小さいほど、山は尖って裾野が狭くなる。

平均 $\mu$、分散 $\sigma^2$ の正規分布を、記号で $\mathbf{N(\mu, \sigma^2)}$ と書く。

正規分布に従う確率変数 $X$ は、理論上は $-\infty$ から $+\infty$ までのすべての実数値を取りうるんだけど、実際には値のほとんどが平均 $\mu$ の近くに集中するんだ。

正規分布の確率密度関数 (PDF)

正規分布 $N(\mu, \sigma^2)$ の確率密度関数 $f(x)$ は、次のようなちょっと複雑な式で表される。

$f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{ - \frac{(x-\mu)^2}{2\sigma^2} }$

うーん、難しそうだね!でも、この式を丸暗記する必要はないよ。大切なのは、

という点を理解しておくことだ。下のグラフは、$\mu$ や $\sigma$ を変えるとPDFの形がどう変わるかを示しているよ。

平均 $\mu$ を変えた場合 ($\sigma=1$ で固定)

$\mu=0$ (青), $\mu=3$ (赤), $\mu=-2$ (緑)
山の位置(中心)が $\mu$ と共に移動する。

標準偏差 $\sigma$ を変えた場合 ($\mu=0$ で固定)

$\sigma=1$ (青), $\sigma=2$ (赤), $\sigma=0.5$ (緑)
$\sigma$ が大きいと山は低く広がり、小さいと高く尖る。
(ただし、どの曲線でも下の全面積は1だよ!)

グラフの形がパラメータによって変わる様子は、次のページのアプリで実際に動かして確かめてみよう!

→ 正規分布グラフ表示アプリへ

正規分布の主な性質

  • 左右対称性: 平均値 $\mu$ の周りで左右対称な釣鐘型をしている。
  • 代表値の一致: 平均値 = 中央値 (データを半分に分ける値) = 最頻値 (最も確率密度が高い値) であり、すべて $\mu$ に一致する。
  • 標準偏差 $\sigma$ と面積の関係(68-95-99.7ルール): これは正規分布のとても有名な性質だよ!
    • 平均 $\mu$ から $\pm 1\sigma$ の範囲 $[\mu - \sigma, \mu + \sigma]$ にデータ(確率、面積)の約 68.3% が含まれる。
    • 平均 $\mu$ から $\pm 2\sigma$ の範囲 $[\mu - 2\sigma, \mu + 2\sigma]$ にデータ(確率、面積)の約 95.4% が含まれる。
    • 平均 $\mu$ から $\pm 3\sigma$ の範囲 $[\mu - 3\sigma, \mu + 3\sigma]$ にデータ(確率、面積)の約 99.7% が含まれる。
    つまり、正規分布に従うデータは、ほとんど全てが平均から標準偏差の3倍以内の範囲に収まる、ということなんだ。
68-95-99.7 ルール ($N(0, 1)$ の例)

平均から$\pm 1\sigma, \pm 2\sigma, \pm 3\sigma$ の範囲に含まれる確率(面積)

確率の計算について:
正規分布に従う確率変数 $X$ がある範囲 $[a, b]$ に入る確率 $P(a \le X \le b)$ は、PDFのグラフの $a$ から $b$ までの面積を計算する必要がある。でも、この面積(積分)は手計算では求めることができないんだ。

そこで、実際に確率を求めるときは、特別な正規分布である「標準正規分布」というものに変換して、正規分布表やコンピュータを使って計算するのが一般的なんだよ。

標準正規分布Standard Normal Distribution とは?

正規分布の中でも、特に

  • 平均 $\mu = 0$
  • 標準偏差 $\sigma = 1$ (つまり分散 $\sigma^2 = 1$)

であるものを標準正規分布と呼び、記号 $\mathbf{N(0, 1)}$ で表す。確率変数はよく $Z$ が使われるよ。

標準正規分布のPDFは、$f(z) = \frac{1}{\sqrt{2\pi}} e^{ - \frac{z^2}{2} }$ となる。

なぜこれが特別で重要かというと、どんな正規分布 $N(\mu, \sigma^2)$ に従う確率変数 $X$ も、

$\mathbf{Z = \frac{X - \mu}{\sigma}}$

という簡単な計算(これを標準化standardizationという)をすることで、必ず標準正規分布 $N(0, 1)$ に従う確率変数 $Z$ に変換できるからなんだ!

この「標準化」のおかげで、どんな正規分布の確率計算も、標準正規分布の確率(面積)が載っている「正規分布表」やコンピュータを使えば求められるようになる。標準化については、次の次のページで詳しく見ていくよ!

まとめ

正規分布はこれから統計学を学んでいく上でもずっと付き合っていくことになるから、まずはこの釣鐘の形と基本的な性質をしっかりイメージできるようにしておこうね!

このページで出てきたEnglish wordsとその仲間たち

英単語 (English) 意味 (Meaning) 例文 (Example Sentence) 例文の読み上げ 例文の日本語訳
Normal Distribution 正規分布 The normal distribution is a fundamental concept in statistics. ▶ 再生 正規分布は統計学における基本的な概念です。
Gaussian Distribution ガウス分布(正規分布の別名) The normal distribution is also known as the Gaussian distribution. ▶ 再生 正規分布はガウス分布としても知られています。
Bell Curve 釣鐘曲線(正規分布のグラフの形) The graph of a normal distribution is a bell curve. ▶ 再生 正規分布のグラフは釣鐘曲線です。
Mean ($\mu$) 平均(ミュー) The parameter $\mu$ represents the mean of the normal distribution. ▶ 再生 パラメータμは正規分布の平均を表します。
Standard Deviation ($\sigma$) 標準偏差(シグマ) The standard deviation $\sigma$ measures the spread of the distribution. ▶ 再生 標準偏差σは分布の広がりを測定します。
Variance ($\sigma^2$) 分散(シグマ二乗) The variance is the square of the standard deviation. ▶ 再生 分散は標準偏差の二乗です。
Symmetric 対称な The normal distribution is symmetric about its mean $\mu$. ▶ 再生 正規分布はその平均μに関して対称です。
68-95-99.7 Rule 68-95-99.7ルール(経験則) The 68-95-99.7 rule describes the percentage of data within 1, 2, and 3 standard deviations of the mean. ▶ 再生 68-95-99.7ルールは、平均から1、2、3標準偏差内に含まれるデータのパーセンテージを記述します。
Standard Normal Distribution 標準正規分布 The standard normal distribution has a mean of 0 and a standard deviation of 1. ▶ 再生 標準正規分布は、平均が0で標準偏差が1です。
Standardization (Z-score) 標準化(Zスコア) Standardization converts a normal variable X into a standard normal variable Z using the Z-score formula. ▶ 再生 標準化は、Zスコアの公式を用いて正規変数Xを標準正規変数Zに変換します。