正規分布(ガウス分布)は、自然界や社会のさまざまな現象に現れる最も重要な連続型確率分布です。身長の分布、テストの得点分布、測定誤差など、多くのデータが正規分布に近い形をとります。本記事では正規分布の定義、釣鐘型の曲線の性質、そして「68-95-99.7 ルール」を学びます。
前回学んだ確率密度関数の考え方を使って、正規分布を定義しましょう。
確率変数 $X$ が正規分布 $N(\mu, \sigma^2)$ に従うとき、その確率密度関数は:
$$f(x) = \frac{1}{\sqrt{2\pi}\,\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \quad (-\infty < x < \infty)$$
$\mu$:平均(期待値)─ 分布の中心の位置を決める
$\sigma^2$:分散 ─ 分布の広がり(ばらつき)を決める
$\sigma$:標準偏差
※ $\exp(t) = e^t$(ネイピア数 $e \approx 2.718$ の $t$ 乗)。$\pi \approx 3.14159$。
この関数は複雑に見えますが、本質は「$(x - \mu)^2$ が指数部にある」ことです。$x = \mu$ のとき最大値をとり、$\mu$ から離れるにつれて急速に $0$ に近づきます。
1. 自然現象のモデル:身長、体重、テストの得点、測定誤差など、多くの現象が正規分布に近い形をとります
2. 中心極限定理:多くの独立な確率変数の和は、元の分布によらず正規分布に近づきます(第9章で後述)
3. 二項分布の近似:$n$ が大きいとき $B(n,p) \approx N(np, np(1-p))$ が成り立ちます
4. 統計的推測の基礎:信頼区間や仮説検定の理論は正規分布に基づいています
$N(\mu, \sigma^2)$ の第2パラメータは分散 $\sigma^2$であることに注意してください。
$N(0, 1)$ は平均 $0$、分散 $1$(標準偏差 $1$)の正規分布です。
$N(50, 25)$ は平均 $50$、分散 $25$(標準偏差 $5$)の正規分布です。
正規分布の確率密度関数のグラフ(正規分布曲線、ガウス曲線)は、美しい左右対称の釣鐘型をしています。その主な性質を整理しましょう。
1. 対称性:直線 $x = \mu$ に関して左右対称
2. 最大値:$x = \mu$ で最大値 $\dfrac{1}{\sqrt{2\pi}\,\sigma}$ をとる
3. 変曲点:$x = \mu \pm \sigma$ で変曲点(曲がり方が変わる点)をもつ
4. 漸近線:$x \to \pm\infty$ で $f(x) \to 0$($x$ 軸が漸近線)
5. 全体の面積:$\displaystyle\int_{-\infty}^{\infty} f(x)\,dx = 1$
$\mu$ と $\sigma$ がグラフの形にどのように影響するかを理解しましょう。
| パラメータの変化 | グラフへの影響 |
|---|---|
| $\mu$ を大きくする | 曲線全体が右に平行移動(形は変わらない) |
| $\mu$ を小さくする | 曲線全体が左に平行移動(形は変わらない) |
| $\sigma$ を大きくする | 曲線が横に広がり、低くなる(面積は $1$ のまま) |
| $\sigma$ を小さくする | 曲線が狭くなり、高くなる(面積は $1$ のまま) |
✗ $\sigma$ が大きくなると曲線が広がるので、面積(確率の合計)も大きくなる
✓ $\sigma$ がどんな値でも $\int_{-\infty}^{\infty} f(x)\,dx = 1$。広がった分だけ高さが低くなり、面積は常に $1$
$f(x) = \dfrac{1}{\sqrt{2\pi}\,\sigma} \exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$ を $x$ で2回微分すると、$f''(x) = 0$ となるのは:
$$\frac{(x-\mu)^2}{\sigma^2} - 1 = 0 \quad \Longrightarrow \quad x = \mu \pm \sigma$$
この2点が変曲点です。グラフの曲がり具合が上向きから下向きに(またはその逆に)変わります。
正規分布に従うデータが、平均からどの程度の範囲に収まるかを示す重要な法則があります。
$X \sim N(\mu, \sigma^2)$ のとき:
$$P(\mu - \sigma \leq X \leq \mu + \sigma) \approx 0.6827 \quad (\text{約 } 68\%)$$
$$P(\mu - 2\sigma \leq X \leq \mu + 2\sigma) \approx 0.9545 \quad (\text{約 } 95\%)$$
$$P(\mu - 3\sigma \leq X \leq \mu + 3\sigma) \approx 0.9973 \quad (\text{約 } 99.7\%)$$
※ この法則は「$1\sigma$-$2\sigma$-$3\sigma$ ルール」ともいう。
約 68% のデータが $\mu \pm \sigma$ の範囲に入る(中心の約 $2/3$)
約 95% のデータが $\mu \pm 2\sigma$ の範囲に入る(ほぼすべて)
約 99.7% のデータが $\mu \pm 3\sigma$ の範囲に入る(ほぼ完全に)
逆に言えば、$\mu$ から $3\sigma$ 以上離れたデータは $0.3\%$($1000$ 個に $3$ 個程度)しか発生しません。
問題:ある試験の得点が $N(60, 100)$(平均 $60$ 点、標準偏差 $10$ 点)に従うとする。得点が $40$ 点以上 $80$ 点以下の生徒は全体の何%か。
解:$\mu = 60$、$\sigma = 10$ なので:
$40 = \mu - 2\sigma$、$80 = \mu + 2\sigma$
$P(40 \leq X \leq 80) = P(\mu - 2\sigma \leq X \leq \mu + 2\sigma) \approx 0.9545$
よって約 $95.5\%$ の生徒が $40$ 点から $80$ 点の間にいる。
品質管理の分野では「$3\sigma$ ルール」がよく使われます。製品の特性値が $\mu \pm 3\sigma$ の範囲に入るように工程を管理します。
$\mu \pm 3\sigma$ の範囲外のデータが出たら「異常値」として調査対象になります。
| 範囲 | 含まれる確率 | 範囲外の確率 | イメージ |
|---|---|---|---|
| $\mu \pm \sigma$ | 約 $68.3\%$ | 約 $31.7\%$ | 3人に1人は範囲外 |
| $\mu \pm 2\sigma$ | 約 $95.4\%$ | 約 $4.6\%$ | 20人に1人が範囲外 |
| $\mu \pm 3\sigma$ | 約 $99.7\%$ | 約 $0.3\%$ | 370人に1人が範囲外 |
問題:日本の成人男性の身長が $N(171, 36)$(平均 $171$ cm、標準偏差 $6$ cm)に従うとする。身長が $165$ cm 以上 $177$ cm 以下の人の割合を概算せよ。
解:$\mu = 171$、$\sigma = 6$。
$165 = 171 - 6 = \mu - \sigma$、$177 = 171 + 6 = \mu + \sigma$
68-95-99.7 ルールより:
$$P(165 \leq X \leq 177) = P(\mu - \sigma \leq X \leq \mu + \sigma) \approx 68\%$$
問題:$X \sim N(50, 16)$ のとき、$P(X \geq 50)$ を求めよ。
解:正規分布は $x = \mu = 50$ に関して対称であるから:
$$P(X \geq 50) = \frac{1}{2} = 0.5$$
対称性により、$\mu$ より大きい確率と小さい確率はちょうど半分ずつである。
問題:ある製品の重量が $N(200, 25)$(平均 $200$ g、標準偏差 $5$ g)に従う。重量が $190$ g 未満の製品の割合を概算せよ。
解:$\mu = 200$、$\sigma = 5$。$190 = 200 - 10 = \mu - 2\sigma$。
$P(X < 190) = P(X < \mu - 2\sigma)$
$P(\mu - 2\sigma \leq X \leq \mu + 2\sigma) \approx 0.9545$ より:
$P(X < \mu - 2\sigma) + P(X > \mu + 2\sigma) \approx 1 - 0.9545 = 0.0455$
対称性より:$P(X < \mu - 2\sigma) = \dfrac{0.0455}{2} \approx 0.0228$
よって約 $2.3\%$ の製品が $190$ g 未満となる。
✗ $N(50, 16)$ は標準偏差 $16$ の正規分布
✓ $N(50, 16)$ は分散 $16$、つまり標準偏差 $\sigma = \sqrt{16} = 4$ の正規分布
$N(\mu, \sigma^2)$ の第2パラメータは分散です。標準偏差を使って「$\mu \pm k\sigma$」の範囲を考えるときは、$\sigma = \sqrt{\text{分散}}$ と計算してから代入しましょう。
前回までに学んだ二項分布と、今回の正規分布には深い関係があります。
$n$ が十分大きいとき、二項分布 $B(n, p)$ は正規分布で近似できる:
$$B(n, p) \approx N(np, \, np(1-p))$$
※ 目安として $np \geq 5$ かつ $n(1-p) \geq 5$ のとき近似は良好。
問題:1枚の硬貨を $400$ 回投げるとき、表が出る回数 $X$ について $B(400, 0.5)$ を正規分布で近似せよ。$X$ がおよそどの範囲に入るか、68-95-99.7 ルールで考えよ。
解:$n = 400$、$p = 0.5$ より:
$\mu = np = 200$、$\sigma^2 = np(1-p) = 100$、$\sigma = 10$
$X \sim B(400, 0.5) \approx N(200, 100)$
68-95-99.7 ルールより:
約 $68\%$ の確率で $X$ は $190$ から $210$ の間
約 $95\%$ の確率で $X$ は $180$ から $220$ の間
約 $99.7\%$ の確率で $X$ は $170$ から $230$ の間
二項分布 $B(n,p)$ は $n$ 個の独立なベルヌーイ変数の和 $X = X_1 + X_2 + \cdots + X_n$ です。
中心極限定理によれば、独立な確率変数の和は $n$ が大きくなるにつれて正規分布に近づきます。
二項分布はその特殊な場合であり、$n$ が大きいとき $B(n,p)$ のヒストグラムは正規分布の曲線にほぼ重なります。
$n = 100$、$k = 55$ のときの二項確率 $P(X = 55)$ を直接計算するには ${}_{100}C_{55}$ という巨大な二項係数が必要です。
正規近似を使えば、面倒な二項係数を避けて、正規分布表(次回学習)で確率を求めることができます。
正規分布にも再生性があります。
$X \sim N(\mu_1, \sigma_1^2)$、$Y \sim N(\mu_2, \sigma_2^2)$ が独立のとき:
$$X + Y \sim N(\mu_1 + \mu_2, \, \sigma_1^2 + \sigma_2^2)$$
また、定数 $a, b$ に対して:
$$aX + b \sim N(a\mu_1 + b, \, a^2\sigma_1^2)$$
Q1. $N(\mu, \sigma^2)$ の確率密度関数のグラフの対称軸はどこか。
Q2. $X \sim N(70, 9)$ のとき、$\sigma$ はいくらか。
Q3. $X \sim N(100, 225)$ のとき、$P(85 \leq X \leq 115)$ を68-95-99.7ルールで概算せよ。
Q4. 正規分布曲線の変曲点の $x$ 座標を答えよ。
Q5. $X \sim N(50, 16)$ のとき $P(X \geq 50)$ を求めよ。
確率変数 $X$ が $N(170, 64)$ に従うとする。68-95-99.7 ルールを用いて次の確率を概算せよ。
(1) $P(162 \leq X \leq 178)$
(2) $P(154 \leq X \leq 186)$
(3) $P(X \leq 162)$
$\mu = 170$、$\sigma = \sqrt{64} = 8$。
(1) $162 = 170 - 8 = \mu - \sigma$、$178 = 170 + 8 = \mu + \sigma$
$P(162 \leq X \leq 178) \approx 0.6827 \approx 68\%$
(2) $154 = 170 - 16 = \mu - 2\sigma$、$186 = 170 + 16 = \mu + 2\sigma$
$P(154 \leq X \leq 186) \approx 0.9545 \approx 95\%$
(3) $162 = \mu - \sigma$。対称性より:
$P(X \leq \mu - \sigma) = \dfrac{1 - 0.6827}{2} \approx \dfrac{0.3173}{2} \approx 0.159 \approx 16\%$
1個のサイコロを $900$ 回投げるとき、$1$ の目が出る回数 $X$ を正規分布で近似し、$X$ が $130$ 以上 $170$ 以下となる確率を68-95-99.7ルールで概算せよ。
$X \sim B(900, 1/6)$。正規近似:
$\mu = np = 900 \times \dfrac{1}{6} = 150$
$\sigma^2 = np(1-p) = 900 \times \dfrac{1}{6} \times \dfrac{5}{6} = 125$
$\sigma = \sqrt{125} = 5\sqrt{5} \approx 11.18$
$X \approx N(150, 125)$
$130 = 150 - 20 \approx \mu - 1.79\sigma$、$170 = 150 + 20 \approx \mu + 1.79\sigma$
$\mu \pm 2\sigma$ の範囲が $\mu \pm 22.36$ すなわち約 $[127.6, 172.4]$ に相当する。
$[130, 170]$ はこれよりやや狭いので、$95\%$ よりやや小さい値(約 $90\%$ 程度)と概算できる。
正確な計算は正規分布表(標準正規分布表)を用いて行います。これは次の記事で学びます。ここでは 68-95-99.7 ルールによる大まかな概算を行いました。
ある工場の製品の重量 $X$ が $N(\mu, \sigma^2)$ に従い、$P(X \leq 95) \approx 0.16$、$P(X \leq 115) \approx 0.84$ であるとき、$\mu$ と $\sigma$ を求めよ。
68-95-99.7 ルールより、$P(X \leq \mu - \sigma) \approx 0.16$ かつ $P(X \leq \mu + \sigma) \approx 0.84$ である。
($P(\mu - \sigma \leq X \leq \mu + \sigma) \approx 0.68$ の両端がそれぞれ $0.16$)
よって:$\mu - \sigma = 95 \cdots (1)$、$\mu + \sigma = 115 \cdots (2)$
$(1) + (2)$:$2\mu = 210$ より $\mu = 105$
$(2) - (1)$:$2\sigma = 20$ より $\sigma = 10$
$X \sim N(\mu, \sigma^2)$ のとき、$Y = aX + b$($a \neq 0$)は $N(a\mu + b, \, a^2\sigma^2)$ に従うことを利用して、次の問いに答えよ。
(1) $X \sim N(50, 16)$ のとき、$Z = \dfrac{X - 50}{4}$ はどのような分布に従うか。
(2) 一般に $X \sim N(\mu, \sigma^2)$ のとき、$Z = \dfrac{X - \mu}{\sigma}$ が従う分布を求めよ。
(3) (2) の変換を何というか。また、この変換の統計学における意義を説明せよ。
(1) $Z = \dfrac{1}{4}X + \left(-\dfrac{50}{4}\right)$ とみなす。$a = \dfrac{1}{4}$、$b = -\dfrac{50}{4}$。
$E(Z) = \dfrac{1}{4} \cdot 50 + \left(-\dfrac{50}{4}\right) = 0$
$V(Z) = \left(\dfrac{1}{4}\right)^2 \cdot 16 = 1$
よって $Z \sim N(0, 1)$。
(2) $Z = \dfrac{X - \mu}{\sigma} = \dfrac{1}{\sigma}X - \dfrac{\mu}{\sigma}$。
$E(Z) = \dfrac{1}{\sigma} \cdot \mu - \dfrac{\mu}{\sigma} = 0$
$V(Z) = \dfrac{1}{\sigma^2} \cdot \sigma^2 = 1$
よって $Z \sim N(0, 1)$。
(3) この変換を標準化(standardization)という。
任意の正規分布 $N(\mu, \sigma^2)$ を $N(0, 1)$(標準正規分布)に変換できるので、$N(0, 1)$ の確率表(正規分布表)だけですべての正規分布の確率が計算できる。
標準化は統計学の最重要テクニックの一つです。どんな正規分布も標準化によって $N(0, 1)$ に帰着できるため、正規分布表を1つ用意するだけで、あらゆる正規分布の確率が求められます。次の記事で詳しく学びます。