二項分布 $B(n, p)$ は $n$ が大きくなるにつれて正規分布に近づくという重要な性質があります。これにより、試行回数が多い場合の二項分布の確率を正規分布表で近似計算できます。本記事ではその原理と計算方法を学びます。
確率 $p$ で成功する試行を $n$ 回独立に繰り返すとき、成功回数 $X$ は二項分布 $B(n, p)$ に従います。
$$P(X = k) = {}_nC_k \, p^k (1-p)^{n-k} \quad (k = 0, 1, 2, \ldots, n)$$
期待値:$E(X) = np$
分散:$V(X) = np(1-p)$
標準偏差:$\sigma(X) = \sqrt{np(1-p)}$
例えば「コインを $100$ 回投げて表が $55$ 回以上出る確率」を二項分布で正確に求めるには、
$$P(X \geq 55) = \sum_{k=55}^{100} {}_{100}C_k \left(\frac{1}{2}\right)^{100}$$
を計算しなければなりません。${}_{100}C_{55}$ のような巨大な二項係数の計算は非常に大変です。そこで正規分布による近似が威力を発揮します。
$n$ が大きくなると、二項分布 $B(n, p)$ の確率分布のグラフ(棒グラフ)は、平均 $np$ を中心とした左右対称に近い滑らかな釣鐘型に近づきます。
これは多くの独立な $0/1$ の変数の和がなめらかな分布に近づくことの表れであり、後に学ぶ中心極限定理と深く関係しています。
二項分布の正規分布近似は次のように定式化されます。
$X \sim B(n, p)$ のとき、$n$ が十分大きいならば
$$X \approx N(np, \; np(1-p))$$
すなわち、$Z = \frac{X - np}{\sqrt{np(1-p)}}$ は近似的に $N(0, 1)$ に従う。
※ 「$\approx$」は「近似的に従う」の意味です。$n$ が大きいほど近似精度は高くなります。
$X = X_1 + X_2 + \cdots + X_n$(各 $X_i$ は成功で $1$、失敗で $0$)と表せます。
各 $X_i$ は独立で $E(X_i) = p$、$V(X_i) = p(1-p)$ です。
$X$ は独立な確率変数の和なので、$n$ が大きいとき中心極限定理により
$$\frac{X - np}{\sqrt{np(1-p)}} \to N(0, 1)$$
が成り立ちます(法則収束)。これが正規分布近似の理論的根拠です。
近似 $X \approx N(np, np(1-p))$ は、二項分布の期待値 $np$ と分散 $np(1-p)$ をそのまま正規分布のパラメータとして使うことを意味します。
つまり「平均と分散が一致する正規分布で置き換える」と考えるとわかりやすいです。
正規分布近似を使って二項分布の確率を計算する手順をまとめます。
Step 1:$\mu = np$、$\sigma = \sqrt{np(1-p)}$ を計算する
Step 2:求めたい確率の境界値を $Z = \frac{X - np}{\sqrt{np(1-p)}}$ でZ変換する
Step 3:正規分布表を用いて確率を求める
問題:コインを $100$ 回投げたとき、表が $55$ 回以上出る確率を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.0) = 0.3413$ とする。
解:$X \sim B(100, 0.5)$ とする。
$\mu = np = 100 \times 0.5 = 50$
$\sigma = \sqrt{np(1-p)} = \sqrt{100 \times 0.5 \times 0.5} = \sqrt{25} = 5$
$Z = \frac{X - 50}{5}$ とおく。$X = 55$ のとき $Z = \frac{55 - 50}{5} = 1.0$
$P(X \geq 55) \approx P(Z \geq 1.0) = 0.5 - 0.3413 = 0.1587$
よって約 $15.9\%$。
問題:不良品率 $3\%$ の工場で $400$ 個の製品を検査する。不良品が $8$ 個以下である確率を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.15) = 0.3749$ とする。
解:不良品の数 $X \sim B(400, 0.03)$ とする。
$\mu = 400 \times 0.03 = 12$
$\sigma = \sqrt{400 \times 0.03 \times 0.97} = \sqrt{11.64} \fallingdotseq 3.41$
$Z = \frac{X - 12}{3.41}$ とおく。$X = 8$ のとき $Z = \frac{8 - 12}{3.41} \fallingdotseq -1.17$
$P(X \leq 8) \approx P(Z \leq -1.17) = 0.5 - P(0 \leq Z \leq 1.17)$
$P(0 \leq Z \leq 1.15) = 0.3749$ より $P(X \leq 8) \approx 0.5 - 0.3749 = 0.1251$
よって約 $12.5\%$。
$Z = \frac{np - X}{\sqrt{np(1-p)}}$(分子の引き算の順番が逆)
$Z = \frac{X - np}{\sqrt{np(1-p)}}$($X$ から $np$ を引く)
$Z$ の値が負になることがあっても問題ありません。対称性を使って確率を求めます。
二項分布は離散分布(整数値のみをとる)ですが、正規分布は連続分布です。この違いを調整するのが連続性の補正(連続補正)です。
二項分布 $B(n,p)$ に従う $X$ に対して、正規分布近似で確率を求めるとき:
$P(X \leq k)$:$P\left(Z \leq \frac{k + 0.5 - np}{\sqrt{np(1-p)}}\right)$ で近似
$P(X \geq k)$:$P\left(Z \geq \frac{k - 0.5 - np}{\sqrt{np(1-p)}}\right)$ で近似
$P(X = k)$:$P\left(\frac{k-0.5-np}{\sqrt{np(1-p)}} \leq Z \leq \frac{k+0.5-np}{\sqrt{np(1-p)}}\right)$ で近似
※ 離散値 $k$ を区間 $[k - 0.5, \; k + 0.5]$ に「広げる」と考えます。高校の問題では補正なしで出題されることも多いです。
問題:さいころを $180$ 回投げて $1$ の目が $35$ 回以上出る確率を連続補正つきで近似せよ。ただし $P(0 \leq Z \leq 0.90) = 0.3159$ とする。
解:$X \sim B\left(180, \frac{1}{6}\right)$
$\mu = 180 \times \frac{1}{6} = 30$、$\sigma = \sqrt{180 \times \frac{1}{6} \times \frac{5}{6}} = \sqrt{25} = 5$
連続補正:$P(X \geq 35) \approx P\left(Z \geq \frac{35 - 0.5 - 30}{5}\right) = P(Z \geq 0.90)$
$= 0.5 - 0.3159 = 0.1841$
(補正なし:$P\left(Z \geq \frac{35-30}{5}\right) = P(Z \geq 1.0) = 0.5 - 0.3413 = 0.1587$)
高校の教科書や入試問題では連続補正を行わない場合が多いです。問題文に「連続補正を用いよ」などの指示がなければ、補正なしで計算して構いません。
ただし、$n$ がさほど大きくない場合は補正をした方がより正確な近似になります。
正規分布近似はいつでも使えるわけではありません。$n$ が小さすぎたり $p$ が $0$ や $1$ に極端に近いと精度が悪くなります。
$X \sim B(n, p)$ に対して、正規分布近似が十分な精度を持つ目安は:
$np \geq 5$ かつ $n(1-p) \geq 5$
つまり、成功の期待回数と失敗の期待回数がともに $5$ 以上であることが一つの基準です。
| $n$ | $p$ | $np$ | $n(1-p)$ | 近似の適否 |
|---|---|---|---|---|
| $100$ | $0.5$ | $50$ | $50$ | 良好 |
| $50$ | $0.1$ | $5$ | $45$ | ぎりぎり可 |
| $20$ | $0.02$ | $0.4$ | $19.6$ | 不適切 |
| $400$ | $0.03$ | $12$ | $388$ | 良好 |
$n = 10$, $p = 0.5$ のとき正規分布近似を使う($n$ が小さいため精度が低い)
$n$ が十分大きいことを確認してから正規分布近似を適用する
$n$ が小さい場合は二項分布の公式で直接計算する方が正確です。
問題:$X \sim B(200, 0.4)$ のとき、$P(70 \leq X \leq 90)$ を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.44) = 0.4251$ とする。
解:まず適用条件を確認:$np = 80 \geq 5$、$n(1-p) = 120 \geq 5$ → 適用可。
$\mu = 80$、$\sigma = \sqrt{200 \times 0.4 \times 0.6} = \sqrt{48} \fallingdotseq 6.93$
$X = 70$:$Z = \frac{70 - 80}{6.93} \fallingdotseq -1.44$
$X = 90$:$Z = \frac{90 - 80}{6.93} \fallingdotseq 1.44$
$P(70 \leq X \leq 90) \approx P(-1.44 \leq Z \leq 1.44) = 2 \times 0.4251 = 0.8502$
Q1. $X \sim B(n, p)$ を正規分布で近似するとき、近似する正規分布のパラメータは何か。
Q2. $X \sim B(400, 0.5)$ のとき、$\mu$ と $\sigma$ を求めよ。
Q3. 正規分布近似の適用条件の目安を述べよ。
Q4. 連続性の補正で $P(X \geq 20)$ を近似するとき、$X$ の値をどのように修正するか。
Q5. 二項分布の正規分布近似が成り立つ理論的根拠は何か。
さいころを $360$ 回投げるとき、$1$ の目が出る回数が $50$ 回以下である確率を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.41) = 0.4207$ とする。
$1$ の目が出る回数 $X \sim B\left(360, \frac{1}{6}\right)$
$\mu = 360 \times \frac{1}{6} = 60$、$\sigma = \sqrt{360 \times \frac{1}{6} \times \frac{5}{6}} = \sqrt{50} \fallingdotseq 7.07$
適用条件:$np = 60 \geq 5$、$n(1-p) = 300 \geq 5$ → 適用可
$Z = \frac{50 - 60}{7.07} \fallingdotseq -1.41$
$P(X \leq 50) \approx P(Z \leq -1.41) = 0.5 - P(0 \leq Z \leq 1.41)$
$= 0.5 - 0.4207 = 0.0793$
よって約 $7.9\%$。
ある種子の発芽率は $80\%$ である。$225$ 粒まいたとき、発芽する種子の数が $170$ 粒以上 $190$ 粒以下である確率を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.67) = 0.4525$、$P(0 \leq Z \leq 1.67) = 0.4525$ とする。
発芽数 $X \sim B(225, 0.8)$
$\mu = 225 \times 0.8 = 180$、$\sigma = \sqrt{225 \times 0.8 \times 0.2} = \sqrt{36} = 6$
$X = 170$:$Z = \frac{170 - 180}{6} = -\frac{10}{6} \fallingdotseq -1.67$
$X = 190$:$Z = \frac{190 - 180}{6} = \frac{10}{6} \fallingdotseq 1.67$
$P(170 \leq X \leq 190) \approx P(-1.67 \leq Z \leq 1.67) = 2 \times 0.4525 = 0.9050$
よって約 $90.5\%$。
不良品率 $p$ の製品を $n = 900$ 個検査したとき、不良品の数 $X$ が $P(X \leq 50) \approx 0.9750$ を満たすという。$p$ の値を求めよ。ただし $P(0 \leq Z \leq 1.96) = 0.4750$ とする。
$X \sim B(900, p) \approx N(900p, \; 900p(1-p))$ とする。
$P(X \leq 50) = 0.9750$ より $P\left(Z \leq \frac{50 - 900p}{\sqrt{900p(1-p)}}\right) = 0.975$
$P(Z \leq z_0) = 0.975$ のとき $P(0 \leq Z \leq z_0) = 0.475$ より $z_0 = 1.96$
$\frac{50 - 900p}{\sqrt{900p(1-p)}} = 1.96$、$\frac{50 - 900p}{30\sqrt{p(1-p)}} = 1.96$
$50 - 900p = 58.8\sqrt{p(1-p)}$
$p$ が小さいとして $1 - p \approx 1$ と近似すると $50 - 900p \approx 58.8\sqrt{p}$
$t = \sqrt{p}$ とおくと $50 - 900t^2 = 58.8t$、$900t^2 + 58.8t - 50 = 0$
$t = \frac{-58.8 + \sqrt{58.8^2 + 4 \times 900 \times 50}}{2 \times 900} = \frac{-58.8 + \sqrt{3457.44 + 180000}}{1800}$
$= \frac{-58.8 + \sqrt{183457.44}}{1800} \fallingdotseq \frac{-58.8 + 428.3}{1800} \fallingdotseq \frac{369.5}{1800} \fallingdotseq 0.2053$
$p = t^2 \fallingdotseq 0.042$、すなわち $p \fallingdotseq 0.04$($4\%$)
逆問題として、確率の条件からパラメータ $p$ を求める問題です。$p$ が小さいことを利用して $1-p \approx 1$ の近似を使いました。このように正規分布近似と追加の近似を組み合わせる問題は発展的ですが、考え方の流れを理解しておくことが大切です。
ある地域で選挙の投票率が $60\%$ であるとする。有権者 $n$ 人を無作為に選んだとき、投票した人の数が $n$ の $55\%$ 以上 $65\%$ 以下となる確率が $0.95$ 以上になるための $n$ の最小値を求めよ。ただし $P(0 \leq Z \leq 1.96) = 0.4750$ とする。
投票した人数 $X \sim B(n, 0.6)$。$\mu = 0.6n$、$\sigma = \sqrt{0.24n}$
$P(0.55n \leq X \leq 0.65n) \geq 0.95$ を求める。
$Z = \frac{X - 0.6n}{\sqrt{0.24n}}$ とおく。
$X = 0.55n$:$Z = \frac{0.55n - 0.6n}{\sqrt{0.24n}} = \frac{-0.05n}{\sqrt{0.24n}} = \frac{-0.05\sqrt{n}}{\sqrt{0.24}}$
$X = 0.65n$:$Z = \frac{0.05\sqrt{n}}{\sqrt{0.24}}$
$P(0.55n \leq X \leq 0.65n) \approx P\left(-\frac{0.05\sqrt{n}}{\sqrt{0.24}} \leq Z \leq \frac{0.05\sqrt{n}}{\sqrt{0.24}}\right)$
$= 2 \cdot P\left(0 \leq Z \leq \frac{0.05\sqrt{n}}{\sqrt{0.24}}\right) \geq 0.95$
$P\left(0 \leq Z \leq \frac{0.05\sqrt{n}}{\sqrt{0.24}}\right) \geq 0.475$
$\frac{0.05\sqrt{n}}{\sqrt{0.24}} \geq 1.96$ より $\sqrt{n} \geq \frac{1.96 \sqrt{0.24}}{0.05} = \frac{1.96 \times 0.4899}{0.05} \fallingdotseq 19.2$
$n \geq 19.2^2 \fallingdotseq 368.6$
よって $n$ の最小値は $369$。
標本の大きさ $n$ を求める逆問題です。区間 $[0.55n, 0.65n]$ を標準化して、$Z$ の区間幅が $1.96$ 以上になるために必要な $n$ を求めます。この種の問題は後に学ぶ信頼区間の考え方と密接に関連しています。