第9章 統計的な推測

二項分布の正規分布近似
─ $n$ が大きいとき $B(n,p) \approx N(np, np(1-p))$

二項分布 $B(n, p)$ は $n$ が大きくなるにつれて正規分布に近づくという重要な性質があります。これにより、試行回数が多い場合の二項分布の確率を正規分布表で近似計算できます。本記事ではその原理と計算方法を学びます。

1二項分布の復習と課題

確率 $p$ で成功する試行を $n$ 回独立に繰り返すとき、成功回数 $X$ は二項分布 $B(n, p)$ に従います。

二項分布 $B(n, p)$ の基本

$$P(X = k) = {}_nC_k \, p^k (1-p)^{n-k} \quad (k = 0, 1, 2, \ldots, n)$$

期待値:$E(X) = np$

分散:$V(X) = np(1-p)$

標準偏差:$\sigma(X) = \sqrt{np(1-p)}$

$n$ が大きいときの計算困難

例えば「コインを $100$ 回投げて表が $55$ 回以上出る確率」を二項分布で正確に求めるには、

$$P(X \geq 55) = \sum_{k=55}^{100} {}_{100}C_k \left(\frac{1}{2}\right)^{100}$$

を計算しなければなりません。${}_{100}C_{55}$ のような巨大な二項係数の計算は非常に大変です。そこで正規分布による近似が威力を発揮します。

なぜ正規分布に近づくのか(直感的理解)

$n$ が大きくなると、二項分布 $B(n, p)$ の確率分布のグラフ(棒グラフ)は、平均 $np$ を中心とした左右対称に近い滑らかな釣鐘型に近づきます。

これは多くの独立な $0/1$ の変数の和がなめらかな分布に近づくことの表れであり、後に学ぶ中心極限定理と深く関係しています。

2正規分布近似の定理

二項分布の正規分布近似は次のように定式化されます。

二項分布の正規分布近似

$X \sim B(n, p)$ のとき、$n$ が十分大きいならば

$$X \approx N(np, \; np(1-p))$$

すなわち、$Z = \frac{X - np}{\sqrt{np(1-p)}}$ は近似的に $N(0, 1)$ に従う。

※ 「$\approx$」は「近似的に従う」の意味です。$n$ が大きいほど近似精度は高くなります。

近似の仕組み

$X = X_1 + X_2 + \cdots + X_n$(各 $X_i$ は成功で $1$、失敗で $0$)と表せます。

各 $X_i$ は独立で $E(X_i) = p$、$V(X_i) = p(1-p)$ です。

$X$ は独立な確率変数の和なので、$n$ が大きいとき中心極限定理により

$$\frac{X - np}{\sqrt{np(1-p)}} \to N(0, 1)$$

が成り立ちます(法則収束)。これが正規分布近似の理論的根拠です。

期待値と分散の対応を確認

近似 $X \approx N(np, np(1-p))$ は、二項分布の期待値 $np$ と分散 $np(1-p)$ をそのまま正規分布のパラメータとして使うことを意味します。

つまり「平均と分散が一致する正規分布で置き換える」と考えるとわかりやすいです。

3近似計算の手順

正規分布近似を使って二項分布の確率を計算する手順をまとめます。

近似計算の3ステップ

Step 1:$\mu = np$、$\sigma = \sqrt{np(1-p)}$ を計算する

Step 2:求めたい確率の境界値を $Z = \frac{X - np}{\sqrt{np(1-p)}}$ でZ変換する

Step 3:正規分布表を用いて確率を求める

例題1:コイン投げの近似計算

問題:コインを $100$ 回投げたとき、表が $55$ 回以上出る確率を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.0) = 0.3413$ とする。

解:$X \sim B(100, 0.5)$ とする。

$\mu = np = 100 \times 0.5 = 50$

$\sigma = \sqrt{np(1-p)} = \sqrt{100 \times 0.5 \times 0.5} = \sqrt{25} = 5$

$Z = \frac{X - 50}{5}$ とおく。$X = 55$ のとき $Z = \frac{55 - 50}{5} = 1.0$

$P(X \geq 55) \approx P(Z \geq 1.0) = 0.5 - 0.3413 = 0.1587$

よって約 $15.9\%$。

例題2:不良品の確率

問題:不良品率 $3\%$ の工場で $400$ 個の製品を検査する。不良品が $8$ 個以下である確率を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.15) = 0.3749$ とする。

解:不良品の数 $X \sim B(400, 0.03)$ とする。

$\mu = 400 \times 0.03 = 12$

$\sigma = \sqrt{400 \times 0.03 \times 0.97} = \sqrt{11.64} \fallingdotseq 3.41$

$Z = \frac{X - 12}{3.41}$ とおく。$X = 8$ のとき $Z = \frac{8 - 12}{3.41} \fallingdotseq -1.17$

$P(X \leq 8) \approx P(Z \leq -1.17) = 0.5 - P(0 \leq Z \leq 1.17)$

$P(0 \leq Z \leq 1.15) = 0.3749$ より $P(X \leq 8) \approx 0.5 - 0.3749 = 0.1251$

よって約 $12.5\%$。

Z変換での符号ミスに注意

$Z = \frac{np - X}{\sqrt{np(1-p)}}$(分子の引き算の順番が逆)

$Z = \frac{X - np}{\sqrt{np(1-p)}}$($X$ から $np$ を引く)

$Z$ の値が負になることがあっても問題ありません。対称性を使って確率を求めます。

4連続性の補正

二項分布は離散分布(整数値のみをとる)ですが、正規分布は連続分布です。この違いを調整するのが連続性の補正(連続補正)です。

連続性の補正

二項分布 $B(n,p)$ に従う $X$ に対して、正規分布近似で確率を求めるとき:

$P(X \leq k)$:$P\left(Z \leq \frac{k + 0.5 - np}{\sqrt{np(1-p)}}\right)$ で近似

$P(X \geq k)$:$P\left(Z \geq \frac{k - 0.5 - np}{\sqrt{np(1-p)}}\right)$ で近似

$P(X = k)$:$P\left(\frac{k-0.5-np}{\sqrt{np(1-p)}} \leq Z \leq \frac{k+0.5-np}{\sqrt{np(1-p)}}\right)$ で近似

※ 離散値 $k$ を区間 $[k - 0.5, \; k + 0.5]$ に「広げる」と考えます。高校の問題では補正なしで出題されることも多いです。

例題3:連続性の補正ありの計算

問題:さいころを $180$ 回投げて $1$ の目が $35$ 回以上出る確率を連続補正つきで近似せよ。ただし $P(0 \leq Z \leq 0.90) = 0.3159$ とする。

解:$X \sim B\left(180, \frac{1}{6}\right)$

$\mu = 180 \times \frac{1}{6} = 30$、$\sigma = \sqrt{180 \times \frac{1}{6} \times \frac{5}{6}} = \sqrt{25} = 5$

連続補正:$P(X \geq 35) \approx P\left(Z \geq \frac{35 - 0.5 - 30}{5}\right) = P(Z \geq 0.90)$

$= 0.5 - 0.3159 = 0.1841$

(補正なし:$P\left(Z \geq \frac{35-30}{5}\right) = P(Z \geq 1.0) = 0.5 - 0.3413 = 0.1587$)

連続補正が必要かどうかの判断

高校の教科書や入試問題では連続補正を行わない場合が多いです。問題文に「連続補正を用いよ」などの指示がなければ、補正なしで計算して構いません。

ただし、$n$ がさほど大きくない場合は補正をした方がより正確な近似になります。

5近似の精度と適用条件

正規分布近似はいつでも使えるわけではありません。$n$ が小さすぎたり $p$ が $0$ や $1$ に極端に近いと精度が悪くなります。

正規分布近似の適用条件(目安)

$X \sim B(n, p)$ に対して、正規分布近似が十分な精度を持つ目安は:

$np \geq 5$ かつ $n(1-p) \geq 5$

つまり、成功の期待回数と失敗の期待回数がともに $5$ 以上であることが一つの基準です。

$n$ $p$ $np$ $n(1-p)$ 近似の適否
$100$ $0.5$ $50$ $50$ 良好
$50$ $0.1$ $5$ $45$ ぎりぎり可
$20$ $0.02$ $0.4$ $19.6$ 不適切
$400$ $0.03$ $12$ $388$ 良好
近似の使い分け

$n = 10$, $p = 0.5$ のとき正規分布近似を使う($n$ が小さいため精度が低い)

$n$ が十分大きいことを確認してから正規分布近似を適用する

$n$ が小さい場合は二項分布の公式で直接計算する方が正確です。

例題4:近似の妥当性の確認

問題:$X \sim B(200, 0.4)$ のとき、$P(70 \leq X \leq 90)$ を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.44) = 0.4251$ とする。

解:まず適用条件を確認:$np = 80 \geq 5$、$n(1-p) = 120 \geq 5$ → 適用可。

$\mu = 80$、$\sigma = \sqrt{200 \times 0.4 \times 0.6} = \sqrt{48} \fallingdotseq 6.93$

$X = 70$:$Z = \frac{70 - 80}{6.93} \fallingdotseq -1.44$

$X = 90$:$Z = \frac{90 - 80}{6.93} \fallingdotseq 1.44$

$P(70 \leq X \leq 90) \approx P(-1.44 \leq Z \leq 1.44) = 2 \times 0.4251 = 0.8502$

まとめ

  • 正規分布近似 ─ $n$ が大きいとき $B(n,p) \approx N(np, \; np(1-p))$。Z変換して正規分布表で確率を計算
  • Z変換 ─ $Z = \frac{X - np}{\sqrt{np(1-p)}}$ で標準正規分布に変換。分母は標準偏差
  • 連続性の補正 ─ 離散値 $k$ を $[k-0.5, k+0.5]$ に広げて近似精度を向上。高校では省略する場合も多い
  • 適用条件 ─ $np \geq 5$ かつ $n(1-p) \geq 5$ が目安。条件を満たさないときは二項分布で直接計算
  • 理論的背景 ─ 中心極限定理に基づく。独立な確率変数の和は正規分布に収束する

確認テスト

Q1. $X \sim B(n, p)$ を正規分布で近似するとき、近似する正規分布のパラメータは何か。

▶ クリックして解答を表示 $N(np, \; np(1-p))$。平均 $np$、分散 $np(1-p)$ の正規分布で近似する。

Q2. $X \sim B(400, 0.5)$ のとき、$\mu$ と $\sigma$ を求めよ。

▶ クリックして解答を表示 $\mu = 400 \times 0.5 = 200$、$\sigma = \sqrt{400 \times 0.5 \times 0.5} = \sqrt{100} = 10$

Q3. 正規分布近似の適用条件の目安を述べよ。

▶ クリックして解答を表示 $np \geq 5$ かつ $n(1-p) \geq 5$。成功・失敗の期待回数がともに $5$ 以上であること。

Q4. 連続性の補正で $P(X \geq 20)$ を近似するとき、$X$ の値をどのように修正するか。

▶ クリックして解答を表示 $P(X \geq 20)$ を $P(X \geq 19.5)$ として計算する($0.5$ を引く)。

Q5. 二項分布の正規分布近似が成り立つ理論的根拠は何か。

▶ クリックして解答を表示 中心極限定理。独立な確率変数の和の分布が正規分布に収束するという定理。

入試問題演習

問題 1 A 基礎 正規分布近似

さいころを $360$ 回投げるとき、$1$ の目が出る回数が $50$ 回以下である確率を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.41) = 0.4207$ とする。

解答

$1$ の目が出る回数 $X \sim B\left(360, \frac{1}{6}\right)$

$\mu = 360 \times \frac{1}{6} = 60$、$\sigma = \sqrt{360 \times \frac{1}{6} \times \frac{5}{6}} = \sqrt{50} \fallingdotseq 7.07$

適用条件:$np = 60 \geq 5$、$n(1-p) = 300 \geq 5$ → 適用可

$Z = \frac{50 - 60}{7.07} \fallingdotseq -1.41$

$P(X \leq 50) \approx P(Z \leq -1.41) = 0.5 - P(0 \leq Z \leq 1.41)$

$= 0.5 - 0.4207 = 0.0793$

よって約 $7.9\%$。

▶ 解答を見る
問題 2 B 標準 区間の確率

ある種子の発芽率は $80\%$ である。$225$ 粒まいたとき、発芽する種子の数が $170$ 粒以上 $190$ 粒以下である確率を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.67) = 0.4525$、$P(0 \leq Z \leq 1.67) = 0.4525$ とする。

解答

発芽数 $X \sim B(225, 0.8)$

$\mu = 225 \times 0.8 = 180$、$\sigma = \sqrt{225 \times 0.8 \times 0.2} = \sqrt{36} = 6$

$X = 170$:$Z = \frac{170 - 180}{6} = -\frac{10}{6} \fallingdotseq -1.67$

$X = 190$:$Z = \frac{190 - 180}{6} = \frac{10}{6} \fallingdotseq 1.67$

$P(170 \leq X \leq 190) \approx P(-1.67 \leq Z \leq 1.67) = 2 \times 0.4525 = 0.9050$

よって約 $90.5\%$。

▶ 解答を見る
問題 3 B 標準 逆問題

不良品率 $p$ の製品を $n = 900$ 個検査したとき、不良品の数 $X$ が $P(X \leq 50) \approx 0.9750$ を満たすという。$p$ の値を求めよ。ただし $P(0 \leq Z \leq 1.96) = 0.4750$ とする。

解答

$X \sim B(900, p) \approx N(900p, \; 900p(1-p))$ とする。

$P(X \leq 50) = 0.9750$ より $P\left(Z \leq \frac{50 - 900p}{\sqrt{900p(1-p)}}\right) = 0.975$

$P(Z \leq z_0) = 0.975$ のとき $P(0 \leq Z \leq z_0) = 0.475$ より $z_0 = 1.96$

$\frac{50 - 900p}{\sqrt{900p(1-p)}} = 1.96$、$\frac{50 - 900p}{30\sqrt{p(1-p)}} = 1.96$

$50 - 900p = 58.8\sqrt{p(1-p)}$

$p$ が小さいとして $1 - p \approx 1$ と近似すると $50 - 900p \approx 58.8\sqrt{p}$

$t = \sqrt{p}$ とおくと $50 - 900t^2 = 58.8t$、$900t^2 + 58.8t - 50 = 0$

$t = \frac{-58.8 + \sqrt{58.8^2 + 4 \times 900 \times 50}}{2 \times 900} = \frac{-58.8 + \sqrt{3457.44 + 180000}}{1800}$

$= \frac{-58.8 + \sqrt{183457.44}}{1800} \fallingdotseq \frac{-58.8 + 428.3}{1800} \fallingdotseq \frac{369.5}{1800} \fallingdotseq 0.2053$

$p = t^2 \fallingdotseq 0.042$、すなわち $p \fallingdotseq 0.04$($4\%$)

解説

逆問題として、確率の条件からパラメータ $p$ を求める問題です。$p$ が小さいことを利用して $1-p \approx 1$ の近似を使いました。このように正規分布近似と追加の近似を組み合わせる問題は発展的ですが、考え方の流れを理解しておくことが大切です。

▶ 解答を見る
問題 4 C 発展 連続補正+応用

ある地域で選挙の投票率が $60\%$ であるとする。有権者 $n$ 人を無作為に選んだとき、投票した人の数が $n$ の $55\%$ 以上 $65\%$ 以下となる確率が $0.95$ 以上になるための $n$ の最小値を求めよ。ただし $P(0 \leq Z \leq 1.96) = 0.4750$ とする。

解答

投票した人数 $X \sim B(n, 0.6)$。$\mu = 0.6n$、$\sigma = \sqrt{0.24n}$

$P(0.55n \leq X \leq 0.65n) \geq 0.95$ を求める。

$Z = \frac{X - 0.6n}{\sqrt{0.24n}}$ とおく。

$X = 0.55n$:$Z = \frac{0.55n - 0.6n}{\sqrt{0.24n}} = \frac{-0.05n}{\sqrt{0.24n}} = \frac{-0.05\sqrt{n}}{\sqrt{0.24}}$

$X = 0.65n$:$Z = \frac{0.05\sqrt{n}}{\sqrt{0.24}}$

$P(0.55n \leq X \leq 0.65n) \approx P\left(-\frac{0.05\sqrt{n}}{\sqrt{0.24}} \leq Z \leq \frac{0.05\sqrt{n}}{\sqrt{0.24}}\right)$

$= 2 \cdot P\left(0 \leq Z \leq \frac{0.05\sqrt{n}}{\sqrt{0.24}}\right) \geq 0.95$

$P\left(0 \leq Z \leq \frac{0.05\sqrt{n}}{\sqrt{0.24}}\right) \geq 0.475$

$\frac{0.05\sqrt{n}}{\sqrt{0.24}} \geq 1.96$ より $\sqrt{n} \geq \frac{1.96 \sqrt{0.24}}{0.05} = \frac{1.96 \times 0.4899}{0.05} \fallingdotseq 19.2$

$n \geq 19.2^2 \fallingdotseq 368.6$

よって $n$ の最小値は $369$。

解説

標本の大きさ $n$ を求める逆問題です。区間 $[0.55n, 0.65n]$ を標準化して、$Z$ の区間幅が $1.96$ 以上になるために必要な $n$ を求めます。この種の問題は後に学ぶ信頼区間の考え方と密接に関連しています。

▶ 解答を見る