コインを $n$ 回投げて表が出る回数、不良品の検査で不良品が見つかる個数など、「成功か失敗かの試行を繰り返したときの成功回数」は二項分布に従います。本記事では二項分布の定義、確率の求め方、そして期待値・分散の公式までを丁寧に解説します。
結果が「成功」か「失敗」の2通りしかない試行をベルヌーイ試行といいます。成功の確率を $p$、失敗の確率を $q = 1 - p$ とします。
ベルヌーイ試行の例:
このベルヌーイ試行を独立に $n$ 回繰り返すことを反復試行(独立試行の繰り返し)といいます。各回の結果は互いに独立で、成功確率 $p$ は毎回同じです。
各試行が独立であるとは、過去の結果が将来の結果に影響しないということです。コイン投げで5回連続表が出ても、次に表が出る確率は依然として $\frac{1}{2}$ です。
この「独立」の仮定があるからこそ、$n$ 回中 $k$ 回成功する確率を組合せと累乗の積で簡潔に表すことができます。
成功確率 $p$ のベルヌーイ試行を $n$ 回独立に繰り返すとき、成功回数を $X$ とすると、$X$ は $0, 1, 2, \ldots, n$ の値を取る確率変数になります。
$X$ が二項分布 $B(n, p)$ に従うとき、
$$P(X = k) = {}_n \mathrm{C}_k \, p^k (1-p)^{n-k} \quad (k = 0, 1, 2, \ldots, n)$$
$n$:試行回数、$p$:1回の試行での成功確率、$k$:成功回数
$n$ 回中 $k$ 回成功する確率 $P(X = k)$ は、次の3つの要素の積です。
$\sum_{k=0}^{n} P(X = k) = \sum_{k=0}^{n} {}_n \mathrm{C}_k \, p^k (1-p)^{n-k} = (p + (1-p))^n = 1$
これは二項定理 $(a+b)^n = \sum {}_n \mathrm{C}_k a^k b^{n-k}$ で $a = p$, $b = 1-p$ としたものです。確率の総和が $1$ になることが確認でき、「二項分布」の名前の由来にもなっています。
公正なコインを5回投げるとき、表がちょうど3回出る確率を求めます。
$X \sim B(5, \frac{1}{2})$ とすると、
$$P(X = 3) = {}_5 \mathrm{C}_3 \left(\frac{1}{2}\right)^3 \left(\frac{1}{2}\right)^2 = 10 \cdot \frac{1}{8} \cdot \frac{1}{4} = \frac{10}{32} = \frac{5}{16}$$
サイコロを4回振るとき、1の目がちょうど2回出る確率を求めます。
$X \sim B(4, \frac{1}{6})$ とすると、
$$P(X = 2) = {}_4 \mathrm{C}_2 \left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^2 = 6 \cdot \frac{1}{36} \cdot \frac{25}{36} = \frac{150}{1296} = \frac{25}{216}$$
$X \sim B(3, \frac{1}{3})$ の確率分布表を作ります。
| $k$ | $0$ | $1$ | $2$ | $3$ |
|---|---|---|---|---|
| $P(X=k)$ | $\frac{8}{27}$ | $\frac{12}{27}$ | $\frac{6}{27}$ | $\frac{1}{27}$ |
計算の確認:${}_3\mathrm{C}_0 (\frac{1}{3})^0 (\frac{2}{3})^3 = \frac{8}{27}$, ${}_3\mathrm{C}_1 (\frac{1}{3})^1 (\frac{2}{3})^2 = 3 \cdot \frac{4}{27} = \frac{12}{27}$, ${}_3\mathrm{C}_2 (\frac{1}{3})^2 (\frac{2}{3})^1 = 3 \cdot \frac{2}{27} = \frac{6}{27}$, ${}_3\mathrm{C}_3 (\frac{1}{3})^3 = \frac{1}{27}$。
総和:$\frac{8+12+6+1}{27} = \frac{27}{27} = 1$ で確認できました。
「少なくとも1回成功する確率」は余事象を使うと楽です。$P(X \geq 1) = 1 - P(X = 0) = 1 - (1-p)^n$ です。すべて失敗する確率を $1$ から引くだけで求まります。
二項分布 $B(n, p)$ の期待値と分散には、簡潔で美しい公式があります。
$X \sim B(n, p)$ のとき、$q = 1 - p$ として、
$$E(X) = np$$
$$V(X) = npq = np(1-p)$$
$$\sigma(X) = \sqrt{npq} = \sqrt{np(1-p)}$$
期待値は「試行回数 $\times$ 成功確率」、分散はさらに $q$ を掛けたものです。
$i$ 回目の試行の結果を表す確率変数 $X_i$ を次のように定義します。
$$X_i = \begin{cases} 1 & (\text{成功のとき}) \\ 0 & (\text{失敗のとき}) \end{cases}$$
すると $X = X_1 + X_2 + \cdots + X_n$ です。各 $X_i$ について、
$E(X_i) = 1 \cdot p + 0 \cdot (1-p) = p$
$E(X_i^2) = 1^2 \cdot p + 0^2 \cdot (1-p) = p$
$V(X_i) = E(X_i^2) - \{E(X_i)\}^2 = p - p^2 = p(1-p) = pq$
期待値の加法性より $E(X) = \sum_{i=1}^{n} E(X_i) = np$
$X_1, X_2, \ldots, X_n$ は独立なので、分散の加法性より $V(X) = \sum_{i=1}^{n} V(X_i) = npq$ $\square$
二項分布は「各試行の成功(1)・失敗(0)を足し合わせたもの」です。この見方を使えば、期待値の加法性と独立な変数の分散の加法性から、公式 $E(X) = np$, $V(X) = npq$ が自然に導けます。
前回までに学んだ「期待値・分散の線形変換」「独立な確率変数の和」が、ここで見事に合流するのです。
$X \sim B(3, \frac{1}{3})$ のとき、$E(X) = 3 \cdot \frac{1}{3} = 1$, $V(X) = 3 \cdot \frac{1}{3} \cdot \frac{2}{3} = \frac{2}{3}$
確率分布表からの直接計算で検算します。
$E(X) = 0 \cdot \frac{8}{27} + 1 \cdot \frac{12}{27} + 2 \cdot \frac{6}{27} + 3 \cdot \frac{1}{27} = \frac{0 + 12 + 12 + 3}{27} = \frac{27}{27} = 1$ ✓
$E(X^2) = 0 \cdot \frac{8}{27} + 1 \cdot \frac{12}{27} + 4 \cdot \frac{6}{27} + 9 \cdot \frac{1}{27} = \frac{0 + 12 + 24 + 9}{27} = \frac{45}{27} = \frac{5}{3}$
$V(X) = \frac{5}{3} - 1^2 = \frac{2}{3}$ ✓
二項分布 $B(n, p)$ の確率分布の形状は、$p$ の値によって変わります。
$n$ が大きくなると、分布は $p$ の値に関わらず左右対称な釣鐘型(正規分布の形)に近づきます。これは後で学ぶ「正規分布への近似」で重要になります。
ある工場で生産される製品の不良率が $5\%$ であるとします。$20$ 個の製品を無作為に選んだとき、不良品の個数 $X$ は二項分布 $B(20, 0.05)$ に従います。
$E(X) = 20 \times 0.05 = 1$(個)
$V(X) = 20 \times 0.05 \times 0.95 = 0.95$
$\sigma(X) = \sqrt{0.95} \approx 0.97$(個)
平均的には1個の不良品が見つかり、そのばらつき(標準偏差)は約0.97個であることがわかります。
$B(n, p)$ において $P(X = k)$ が最大となる $k$(最頻値)は、$(n+1)p - 1 \leq k \leq (n+1)p$ の範囲にあります。$np$ の前後の整数値が最頻値になると覚えておくとよいでしょう。
| 項目 | 公式 |
|---|---|
| 確率 | $P(X=k) = {}_n \mathrm{C}_k \, p^k (1-p)^{n-k}$ |
| 期待値 | $E(X) = np$ |
| 分散 | $V(X) = np(1-p)$ |
| 標準偏差 | $\sigma(X) = \sqrt{np(1-p)}$ |
Q1. $X \sim B(10, 0.3)$ のとき、$E(X)$ を求めよ。
Q2. $X \sim B(10, 0.3)$ のとき、$V(X)$ を求めよ。
Q3. コインを6回投げて表がちょうど4回出る確率を求めよ。
Q4. 二項分布の名前の由来を簡潔に述べよ。
Q5. $B(n, p)$ で $V(X)$ が最大になるのは $p$ がいくつのときか。
1個のサイコロを5回振るとき、6の目がちょうど2回出る確率を求めよ。
$X \sim B\left(5, \frac{1}{6}\right)$ として、
$P(X = 2) = {}_5\mathrm{C}_2 \left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^3 = 10 \cdot \frac{1}{36} \cdot \frac{125}{216} = \frac{1250}{7776} = \frac{625}{3888}$
当たりの確率が $\frac{1}{5}$ のくじを8回引くとき(毎回戻す)、少なくとも1回当たる確率を求めよ。
$X \sim B(8, \frac{1}{5})$ として、余事象を用いる。
$P(X \geq 1) = 1 - P(X = 0) = 1 - {}_8\mathrm{C}_0 \left(\frac{1}{5}\right)^0 \left(\frac{4}{5}\right)^8 = 1 - \left(\frac{4}{5}\right)^8$
$\left(\frac{4}{5}\right)^8 = \frac{65536}{390625}$ なので、
$P(X \geq 1) = 1 - \frac{65536}{390625} = \frac{325089}{390625} \approx 0.832$
「少なくとも1回」の確率は余事象(1回も当たらない)を使うのが定番です。$P(X = 0) + P(X = 1) + \cdots$ と足すよりも圧倒的に計算が楽です。
ある製品の不良率が $2\%$ であるとする。$100$ 個の製品を検査するとき、不良品の個数 $X$ の期待値、分散、標準偏差を求めよ。
$X \sim B(100, 0.02)$ なので、
$E(X) = 100 \times 0.02 = 2$(個)
$V(X) = 100 \times 0.02 \times 0.98 = 1.96$
$\sigma(X) = \sqrt{1.96} = 1.4$(個)
不良率2%で100個検査すると平均2個の不良品が見つかり、標準偏差は1.4個です。標準偏差が小さいほどばらつきが少なく、不良品の個数が予測しやすいことを意味します。
$X \sim B(n, p)$ のとき、次の問いに答えよ。
(1) $E(X) = 6$, $V(X) = 4.2$ であるとき、$n$ と $p$ の値を求めよ。
(2) (1)で求めた $n, p$ に対し、$P(X = 0)$ を求めよ。
(1) $E(X) = np = 6$, $V(X) = np(1-p) = 4.2$ より、
$\frac{V(X)}{E(X)} = \frac{np(1-p)}{np} = 1 - p = \frac{4.2}{6} = 0.7$
よって $p = 0.3$、$n = \frac{6}{0.3} = 20$
(2) $P(X = 0) = {}_{20}\mathrm{C}_0 \cdot (0.3)^0 \cdot (0.7)^{20} = (0.7)^{20}$
$(0.7)^{20} = (0.7)^{10} \cdot (0.7)^{10}$。$(0.7)^{10} \approx 0.02825$ なので、
$P(X = 0) \approx 0.02825^2 \approx 0.000798$
(1)は $\frac{V(X)}{E(X)} = 1 - p$ という関係式がポイントです。期待値と分散の比から $p$ を求め、次に $n$ を求めるという2段階の手順で解きます。(2)は20回の試行で1度も成功しない確率であり、$p = 0.3$ でも $n = 20$ なら非常に小さい確率になります。