二項分布 $B(n,p)$ に従う確率変数の期待値と分散には、美しい公式 $E(X)=np$、$V(X)=np(1-p)$ が成り立ちます。本記事ではこの公式を導出し、計算への応用方法を学びます。「独立な試行の和」という考え方が鍵となります。
前回学んだ二項分布を振り返りましょう。成功確率 $p$ の試行を $n$ 回独立に繰り返すとき、成功回数 $X$ は二項分布 $B(n,p)$ に従い、その確率関数は次の通りでした。
$$P(X=k) = {}_n C_k \, p^k (1-p)^{n-k} \quad (k=0,1,2,\ldots,n)$$この分布に従う $X$ の期待値と分散を直接計算すると、$\sum$ の中に二項係数が登場して複雑になります。しかし、「$X$ を $n$ 個の独立な確率変数の和として分解する」というアイデアを使うと、驚くほどスッキリと導けます。
$X \sim B(n,p)$ のとき:
$$E(X) = np$$
$$V(X) = np(1-p)$$
$$\sigma(X) = \sqrt{np(1-p)}$$
※ $q = 1-p$ とおくと $V(X) = npq$、$\sigma(X) = \sqrt{npq}$ とも書く。
二項分布は統計的推測の土台です。この公式を使うことで:
1. 確率変数の平均的な値(期待値)が即座にわかる
2. データのばらつき(分散・標準偏差)が計算できる
3. 後で学ぶ正規近似 $B(n,p) \approx N(np, np(1-p))$ の基礎となる
$n$ 回の独立な試行のうち、$i$ 回目の結果を表す確率変数 $X_i$ を次のように定めます。
$$X_i = \begin{cases} 1 & (i \text{ 回目が成功}) \\ 0 & (i \text{ 回目が失敗}) \end{cases}$$この $X_i$ をベルヌーイ確率変数(指示変数)といいます。各 $X_i$ は独立で、$P(X_i=1)=p$、$P(X_i=0)=1-p$ です。
成功回数 $X$ は $X_1, X_2, \ldots, X_n$ の合計として表せます。
$$X = X_1 + X_2 + \cdots + X_n$$まず各 $X_i$ の期待値を求める。
$$E(X_i) = 1 \cdot p + 0 \cdot (1-p) = p$$
期待値の線形性($E(X+Y)=E(X)+E(Y)$、独立性は不要)より:
$$E(X) = E(X_1 + X_2 + \cdots + X_n) = E(X_1) + E(X_2) + \cdots + E(X_n) = np$$
$\square$
$E(aX+bY) = aE(X) + bE(Y)$ は、$X$ と $Y$ が独立でなくても成り立つ重要な性質です。
この性質のおかげで、複雑な確率変数でも「簡単な部分に分解して足す」だけで期待値が求まります。
$$E(X) = \sum_{k=0}^{n} k \cdot {}_n C_k \, p^k (1-p)^{n-k}$$
$k=0$ の項は $0$ なので、$k=1$ からの和:
$$= \sum_{k=1}^{n} k \cdot \frac{n!}{k!(n-k)!} p^k (1-p)^{n-k}$$
$k \cdot \frac{n!}{k!} = \frac{n!}{(k-1)!} = n \cdot \frac{(n-1)!}{(k-1)!}$ を利用して:
$$= np \sum_{k=1}^{n} \frac{(n-1)!}{(k-1)!(n-k)!} p^{k-1} (1-p)^{n-k}$$
$j = k-1$ とおくと:
$$= np \sum_{j=0}^{n-1} {}_{n-1} C_j \, p^j (1-p)^{n-1-j} = np(p + 1 - p)^{n-1} = np$$
最後に二項定理 $(p+q)^{n-1} = 1$ を使った。$\square$
各 $X_i$ の分散を求めます。$E(X_i) = p$ より:
$$E(X_i^2) = 1^2 \cdot p + 0^2 \cdot (1-p) = p$$ $$V(X_i) = E(X_i^2) - \{E(X_i)\}^2 = p - p^2 = p(1-p)$$$X_1, X_2, \ldots, X_n$ は互いに独立であるから、分散の加法性が使える。
$$V(X) = V(X_1 + X_2 + \cdots + X_n) = V(X_1) + V(X_2) + \cdots + V(X_n)$$
$$= np(1-p)$$
$\square$
✗ 期待値と同様に、分散もいつでも $V(X+Y) = V(X) + V(Y)$ が成り立つ
✓ 分散の加法性 $V(X+Y) = V(X) + V(Y)$ は $X$ と $Y$ が独立なときのみ成立
期待値の線形性は無条件で使えますが、分散の加法性には独立性の条件が必要です。二項分布では各試行が独立なので問題なく使えます。
期待値の線形性(常に成立):
$$E(aX + b) = aE(X) + b$$
$$E(X + Y) = E(X) + E(Y)$$
分散の性質:
$$V(aX + b) = a^2 V(X)$$
$$V(X + Y) = V(X) + V(Y) \quad (\text{$X, Y$ が独立のとき})$$
問題:1個のサイコロを $60$ 回投げるとき、$1$ の目が出る回数 $X$ の期待値、分散、標準偏差を求めよ。
解:$X \sim B\left(60, \dfrac{1}{6}\right)$ である。
$$E(X) = 60 \times \frac{1}{6} = 10$$
$$V(X) = 60 \times \frac{1}{6} \times \frac{5}{6} = \frac{50}{6} = \frac{25}{3}$$
$$\sigma(X) = \sqrt{\frac{25}{3}} = \frac{5}{\sqrt{3}} = \frac{5\sqrt{3}}{3}$$
問題:ある工場の不良品率は $2\%$ である。$500$ 個の製品を検査するとき、不良品の個数 $X$ の期待値と標準偏差を求めよ。
解:$X \sim B(500, 0.02)$ である。
$$E(X) = 500 \times 0.02 = 10$$
$$V(X) = 500 \times 0.02 \times 0.98 = 9.8$$
$$\sigma(X) = \sqrt{9.8} \approx 3.13$$
つまり、不良品は平均 $10$ 個で、そこから標準偏差 $3.13$ 個程度のばらつきがある。
問題:1枚の硬貨を $100$ 回投げるとき、表の出る回数 $X$ について $E(X)$、$V(X)$、$\sigma(X)$ を求めよ。
解:$X \sim B\left(100, \dfrac{1}{2}\right)$ である。
$$E(X) = 100 \times \frac{1}{2} = 50$$
$$V(X) = 100 \times \frac{1}{2} \times \frac{1}{2} = 25$$
$$\sigma(X) = \sqrt{25} = 5$$
硬貨を $100$ 回投げると、表は平均 $50$ 回出ます。しかし毎回ぴったり $50$ 回とは限りません。
標準偏差 $\sigma = 5$ は「だいたい $50 \pm 5$、つまり $45$ 回から $55$ 回くらいの間に収まることが多い」ことを示しています。
| 分布 | $n$ | $p$ | $E(X)$ | $V(X)$ | $\sigma(X)$ |
|---|---|---|---|---|---|
| $B(60, 1/6)$ | $60$ | $1/6$ | $10$ | $25/3$ | $5\sqrt{3}/3$ |
| $B(500, 0.02)$ | $500$ | $0.02$ | $10$ | $9.8$ | $\approx 3.13$ |
| $B(100, 1/2)$ | $100$ | $1/2$ | $50$ | $25$ | $5$ |
$V(X) = np(1-p)$ で $n$ が一定のとき、$p(1-p)$ が最大になるのはいつでしょうか。
$p(1-p) = -p^2 + p = -(p - \frac{1}{2})^2 + \frac{1}{4}$ より、$p = \frac{1}{2}$ のとき最大値 $\frac{1}{4}$ をとります。
$p = \frac{1}{2}$(成功と失敗が半々)のとき、ばらつきは最も大きくなります。
$p$ が $0$ や $1$ に近いほど結果が偏り、ばらつきは小さくなります。
このことは直感的にも理解できます。コイン投げ($p=0.5$)は結果が読めませんが、ほぼ確実に成功する試行($p=0.99$)はばらつきが小さくなります。
$X_1 \sim B(n_1, p)$ と $X_2 \sim B(n_2, p)$ が独立なとき、$X_1 + X_2 \sim B(n_1 + n_2, p)$ が成り立ちます。これを再生性といいます。
$X_1 \sim B(n_1, p)$、$X_2 \sim B(n_2, p)$ が独立 $\Longrightarrow$ $X_1 + X_2 \sim B(n_1 + n_2, p)$
※ 成功確率 $p$ が同じでなければ再生性は成り立たない点に注意。
$n$ が十分大きいとき、$B(n,p)$ は正規分布 $N(np, np(1-p))$ で近似できます。これは次回以降で学ぶ重要な性質で、統計的推測の根幹をなします。
✗ 確率変数 $Y = 3X + 2$ の分散を $V(Y) = 3 \cdot V(X) + 2$ と計算する
✓ $V(Y) = V(3X+2) = 3^2 \cdot V(X) = 9V(X)$(定数の和は消え、係数は2乗になる)
Q1. $X \sim B(200, 0.3)$ のとき $E(X)$ を求めよ。
Q2. $X \sim B(100, 0.4)$ のとき $V(X)$ を求めよ。
Q3. ベルヌーイ確率変数 $X_i$($P(X_i=1)=p$)の分散は何か。
Q4. 分散の加法性 $V(X+Y) = V(X) + V(Y)$ が成り立つための条件は何か。
Q5. $n$ を固定したとき、$V(X) = np(1-p)$ が最大になる $p$ の値を求めよ。
1個のサイコロを $180$ 回投げるとき、$6$ の目が出る回数 $X$ の期待値、分散、標準偏差を求めよ。
$X \sim B\left(180, \dfrac{1}{6}\right)$ である。
$E(X) = 180 \times \dfrac{1}{6} = 30$
$V(X) = 180 \times \dfrac{1}{6} \times \dfrac{5}{6} = 25$
$\sigma(X) = \sqrt{25} = 5$
$X \sim B(n, p)$ に対して $Y = \dfrac{X}{n}$ とおく。$E(Y)$ と $V(Y)$ を $n, p$ で表せ。
$Y = \dfrac{1}{n} X$ より:
$E(Y) = \dfrac{1}{n} E(X) = \dfrac{1}{n} \cdot np = p$
$V(Y) = \dfrac{1}{n^2} V(X) = \dfrac{1}{n^2} \cdot np(1-p) = \dfrac{p(1-p)}{n}$
$Y = X/n$ は「標本比率」と呼ばれ、統計的推測で重要な量です。$n$ が大きくなると $V(Y)$ は $0$ に近づき、$Y$ は $p$ に収束します(大数の法則)。
$X \sim B(n, p)$ で $E(X) = 6$、$V(X) = 4.2$ であるとき、$n$ と $p$ を求めよ。
$E(X) = np = 6 \cdots (1)$
$V(X) = np(1-p) = 4.2 \cdots (2)$
$(2) \div (1)$:$1 - p = \dfrac{4.2}{6} = 0.7$
$p = 0.3$
$(1)$ に代入:$n \times 0.3 = 6$ より $n = 20$
よって $n = 20$、$p = 0.3$。
確率変数 $X$ が二項分布 $B(n, p)$ に従うとする。$E(X(X-1))$ を $n, p$ を用いて表せ。また、これを用いて $V(X) = np(1-p)$ を導け。
$$E(X(X-1)) = \sum_{k=0}^{n} k(k-1) {}_n C_k \, p^k (1-p)^{n-k}$$
$k=0,1$ の項は $0$ なので $k=2$ から。
$k(k-1) \cdot {}_n C_k = k(k-1) \cdot \dfrac{n!}{k!(n-k)!} = \dfrac{n!}{(k-2)!(n-k)!} = n(n-1) \cdot {}_{n-2} C_{k-2}$
$$= n(n-1)p^2 \sum_{k=2}^{n} {}_{n-2} C_{k-2} \, p^{k-2} (1-p)^{n-k}$$
$j = k-2$ とおくと:
$$= n(n-1)p^2 \sum_{j=0}^{n-2} {}_{n-2} C_j \, p^j (1-p)^{n-2-j} = n(n-1)p^2$$
$E(X^2) = E(X(X-1)) + E(X) = n(n-1)p^2 + np$
$V(X) = E(X^2) - \{E(X)\}^2 = n(n-1)p^2 + np - n^2 p^2$
$= n^2 p^2 - np^2 + np - n^2 p^2 = np - np^2 = np(1-p)$
$E(X(X-1))$ は階乗モーメントと呼ばれ、分散を求めるのに便利です。$E(X^2) = E(X(X-1)) + E(X)$ という関係を使うことで、二項係数の処理が簡潔になります。