高校の数学Bでは、確率変数 $X$ に対して期待値 $E(X)$ や分散 $V(X)$ の公式を学び、それらを使って二項分布の計算などを行います。
しかし、「確率変数とは何か」「なぜ $E(aX + b) = aE(X) + b$ が成り立つのか」といった問いに、高校の教科書は正面からは答えていません。
大学数学では、確率変数を標本空間から実数への関数として定義します。
この「関数」という視点に立つと、期待値は確率で重みをつけた加重平均として自然に定まり、
期待値の線形性や分散の計算公式は、すべて定義から論理的に証明できる定理になります。
高校で「公式」として暗記していたものが「なぜそうなるのか」まで見通せるようになるのです。
高校の数学B「統計的な推測」では、確率変数と期待値・分散を次のように扱います。
確率変数 $X$ がとりうる値を $x_1, x_2, \dots, x_n$ とし、各値をとる確率を $p_1, p_2, \dots, p_n$ とするとき、期待値(平均)は
$$E(X) = \sum_{i=1}^{n} x_i p_i$$
と定義されます。「各値にその確率をかけて合計する」という計算です。
分散は「各値が期待値からどれだけ離れているか」の平均として
$$V(X) = \sum_{i=1}^{n} (x_i - E(X))^2 \, p_i$$
と定義され、計算に便利な公式として
$$V(X) = E(X^2) - \{E(X)\}^2$$
を使います。さらに、以下の性質を「公式」として暗記します。
これらの公式は計算上非常に便利であり、高校の範囲ではこれで十分です。 しかし、「確率変数 $X$ とはそもそも何なのか」「なぜ期待値には線形性があるのか」「$V(X) = E(X^2) - \{E(X)\}^2$ はなぜ成り立つのか」といった問いは、高校では深く扱いません。 次のセクションでは、大学数学がこれらの問いにどう答えるかを見ていきます。
大学の確率論では、確率変数を単なる「値が確率的に変わる変数」ではなく、標本空間 $\Omega$ から実数 $\mathbb{R}$ への関数として定義します。 この視点の転換が、高校の公式のすべてに論理的な根拠を与えます。
標本空間とは、 📖 第12章 §1 で導入した「起こりうる結果の全体」のことです。 たとえばサイコロ1個を振る試行では $\Omega = \{1, 2, 3, 4, 5, 6\}$ です。 「出た目の値」を $X$ とすると、$X$ は $\Omega$ の各要素に実数を対応させる関数です。$X(1) = 1$, $X(2) = 2$, $\dots$, $X(6) = 6$ という具合です。
この一見単純な言い換えが、実は強力な帰結をもたらします。$X$ が関数であれば、$2X$, $X + 3$, $X^2$ なども関数として自然に定義でき、それらの期待値も同じ枠組みで計算できるからです。
この記事を読み終えると、以下のことができるようになります。
1. 確率変数を「標本空間から実数への関数」として定義し、具体例で確認できる
2. 期待値の線形性 $E(aX + b) = aE(X) + b$ を定義から証明できる
3. 分散の計算公式 $V(X) = E(X^2) - \{E(X)\}^2$ を期待値の線形性から導出できる
4. 独立な確率変数の和の分散 $V(X + Y) = V(X) + V(Y)$ がなぜ「独立」を必要とするか説明できる
5. 二項分布 $B(n, p)$ の期待値 $np$ と分散 $np(1-p)$ を、ベルヌーイ確率変数の和として導出できる
ここからは、まず確率変数を関数として厳密に定義し(セクション3)、次にその定義に基づいて期待値の理論を展開し(セクション4)、さらに分散の理論を構築します(セクション5)。最後に、これらの道具を使って二項分布の公式を導出します(セクション6)。
確率変数を定義するには、まず確率空間の概念が必要です。 📖 第12章 §1 で導入したように、確率空間は $(\Omega, \mathcal{F}, P)$ の3つの組です。$\Omega$ は標本空間(起こりうる結果の全体)、$\mathcal{F}$ は事象の集合族、$P$ は確率測度です。 この記事では離散的な場合($\Omega$ が有限または可算無限)を扱うので、$\mathcal{F}$ は $\Omega$ のすべての部分集合の族と考えて構いません。
確率変数の定義は次の通りです。
確率空間 $(\Omega, \mathcal{F}, P)$ 上の(離散型)確率変数とは、標本空間 $\Omega$ から実数 $\mathbb{R}$ への関数
$$X \colon \Omega \to \mathbb{R}$$
のことです。$X$ が値 $x$ をとる確率とは、$P(\{\omega \in \Omega \mid X(\omega) = x\})$ のことであり、これを $P(X = x)$ と略記します。
なぜ関数として定義するのか。それは、「ランダムに変わる値」を数学的に扱うには、「何がランダムの源なのか」を明確にする必要があるからです。 ランダムの源は標本空間 $\Omega$ の中にあり、確率変数 $X$ はその結果を数値に変換する「翻訳器」の役割を果たします。
例1(サイコロ1個): $\Omega = \{1, 2, 3, 4, 5, 6\}$ として、各目が出る確率は $\frac{1}{6}$ とします。
確率変数 $X$ を「出た目の値」とすると、$X(\omega) = \omega$ です。つまり $X(1) = 1, X(2) = 2, \dots, X(6) = 6$ です。 これは最も素朴な確率変数で、標本空間の要素をそのまま返す関数です。
一方、「出た目が偶数なら1、奇数なら0」という確率変数 $Y$ を考えることもできます。
$$Y(\omega) = \begin{cases} 1 & (\omega = 2, 4, 6) \\ 0 & (\omega = 1, 3, 5) \end{cases}$$
$Y$ がとりうる値は $0$ と $1$ の2つで、$P(Y = 1) = \frac{3}{6} = \frac{1}{2}$、$P(Y = 0) = \frac{1}{2}$ です。 同じ標本空間 $\Omega$ から、異なる確率変数を自由に作れることがわかります。
例2(コイン2枚): $\Omega = \{(H,H), (H,T), (T,H), (T,T)\}$($H$:表、$T$:裏)で、各結果の確率は $\frac{1}{4}$ とします。 $X$ を「表の出た枚数」とすると、
$$X((H,H)) = 2, \quad X((H,T)) = 1, \quad X((T,H)) = 1, \quad X((T,T)) = 0$$
です。$P(X = 0) = \frac{1}{4}$, $P(X = 1) = \frac{2}{4} = \frac{1}{2}$, $P(X = 2) = \frac{1}{4}$ となります。
$X$ が確率変数($\Omega$ から $\mathbb{R}$ への関数)であれば、$g(X)$ もまた確率変数です。 ここで $g \colon \mathbb{R} \to \mathbb{R}$ は任意の関数です。 なぜなら、合成 $g \circ X \colon \Omega \to \mathbb{R}$ もまた $\Omega$ から $\mathbb{R}$ への関数だからです。
たとえば、サイコロの例で $X$ を出た目の値とすると、$X^2$ は「出た目の2乗」を返す確率変数であり、$2X + 3$ は「出た目の2倍に3を足した値」を返す確率変数です。 この「確率変数の関数もまた確率変数」という性質が、次のセクションで期待値の理論を展開するための土台になります。
確率変数が関数として定義されたので、その「平均的な値」を定義できます。
離散型確率変数 $X$ がとりうる値を $x_1, x_2, \dots$ とするとき、$X$ の期待値を
$$E(X) = \sum_{i} x_i \, P(X = x_i)$$
と定義します。ただし、この和が絶対収束する($\sum_{i} |x_i| \, P(X = x_i) < \infty$)場合に限ります。
期待値は $\mu$ や $\mu_X$ とも書きます。各値 $x_i$ を確率 $P(X = x_i)$ で重みづけした加重平均です。
これは高校で学ぶ公式 $E(X) = \sum x_i p_i$ と同じ形ですが、大学では「$p_i$ が確率測度 $P$ から来ている」ことを意識します。 また、絶対収束の条件は、$X$ のとりうる値が無限個ある場合に和の値が順序に依存しないことを保証するためのものです。有限個の場合は常に満たされます。
セクション3で「確率変数の関数もまた確率変数」であることを確認しました。 ここでその事実が直接使われます。$g(X)$ の期待値を求めるとき、$g(X)$ の確率分布を改めて求めなくても、次の公式で直接計算できます。
$X$ を離散型確率変数、$g \colon \mathbb{R} \to \mathbb{R}$ を関数とするとき、
$$E(g(X)) = \sum_{i} g(x_i) \, P(X = x_i)$$
が成り立ちます。
この法則は Law of the Unconscious Statistician(LOTUS)と呼ばれます。$g(X)$ の分布を求め直さなくても、$X$ の分布だけから $E(g(X))$ を計算できるという便利な性質です。
たとえば、$E(X^2)$ を計算するのに「$X^2$ がとりうる値とその確率」を改めて求める必要はなく、$\sum x_i^2 \, P(X = x_i)$ を計算すればよいのです。 この法則があるからこそ、分散の計算で $E(X^2)$ をスムーズに扱えます。
いよいよ、高校で「公式」として暗記していた期待値の線形性を、定義から証明します。
示すこと:定数 $a, b$ と確率変数 $X$ に対して、$E(aX + b) = aE(X) + b$ が成り立つ。
方針:$aX + b$ を $g(X) = aX + b$ とみなし、LOTUS を適用した後、$\Sigma$ の線形性を使います。
LOTUS により、
$$E(aX + b) = \sum_{i} (ax_i + b) \, P(X = x_i)$$
$\Sigma$ を分配して、
$$= \sum_{i} ax_i \, P(X = x_i) + \sum_{i} b \, P(X = x_i)$$
定数 $a$, $b$ を $\Sigma$ の外に出すと、
$$= a \sum_{i} x_i \, P(X = x_i) + b \sum_{i} P(X = x_i)$$
ここで、第1項の $\sum_{i} x_i P(X = x_i)$ は $E(X)$ の定義そのものです。第2項の $\sum_{i} P(X = x_i)$ は「$X$ がとりうるすべての値の確率の合計」であり、確率の公理から $1$ です。したがって、
$$= aE(X) + b$$
が得られます。 $\square$
この証明を振り返ると、使ったのは $\Sigma$ の分配法則(有限和や絶対収束する和では自由に分配できる)と、確率の合計が1であるという公理だけです。 つまり、期待値の線形性は$\Sigma$ の線形性と確率の公理の直接的な帰結であり、暗記する「公式」ではなく自然に導かれる性質なのです。
期待値の線形性は、1つの確率変数の $aX + b$ だけでなく、2つの確率変数の和 $X + Y$ にも拡張できます。
確率変数 $X$, $Y$ に対して(独立であるかどうかにかかわらず)、
$$E(X + Y) = E(X) + E(Y)$$
が成り立ちます。
この性質は独立性を仮定しない点が重要です。期待値の加法性は無条件に成り立ちます。
方針:$X + Y$ も $\Omega$ 上の関数なので、期待値を $\Omega$ 上の和として直接計算します。
$\Omega = \{\omega_1, \omega_2, \dots, \omega_n\}$(有限の場合)とし、$\omega_k$ が起こる確率を $P(\{\omega_k\})$ とします。期待値の定義を標本空間上の和として書くと、
$$E(X + Y) = \sum_{k=1}^{n} (X(\omega_k) + Y(\omega_k)) \, P(\{\omega_k\})$$
$\Sigma$ を分配して、
$$= \sum_{k=1}^{n} X(\omega_k) \, P(\{\omega_k\}) + \sum_{k=1}^{n} Y(\omega_k) \, P(\{\omega_k\})$$
$$= E(X) + E(Y)$$
独立性は一切使っていません。$\Sigma$ の分配法則のみです。 $\square$
この結果と $E(aX + b) = aE(X) + b$ を組み合わせると、$E(a_1 X_1 + a_2 X_2 + \cdots + a_n X_n) = a_1 E(X_1) + a_2 E(X_2) + \cdots + a_n E(X_n)$ が得られます。 これが期待値の完全な線形性であり、セクション6で二項分布の期待値を導出する際の鍵になります。
誤:「期待値の線形性があるから、積についても $E(XY) = E(X)E(Y)$ が成り立つ」
正:$E(XY) = E(X)E(Y)$ が成り立つのは $X$ と $Y$ が独立なときだけです。期待値は和に対しては無条件に線形ですが、積に対しては独立性が必要です。
反例:$X$ がサイコロの出目($1$~$6$ で各確率 $\frac{1}{6}$)とし、$Y = X$ とします。$E(X) = \frac{7}{2}$ なので $E(X)E(Y) = \frac{49}{4}$ ですが、$E(XY) = E(X^2) = \frac{1}{6}(1 + 4 + 9 + 16 + 25 + 36) = \frac{91}{6} \ne \frac{49}{4}$ です。
ここまでで、期待値の定義とその線形性(加法性を含む)が確立されました。次に、この期待値の理論を使って、分散の構造を明らかにします。
期待値は「確率変数の中心がどこにあるか」を表します。分散は「その中心からどれだけばらつくか」を定量化する量です。
確率変数 $X$ の期待値を $\mu = E(X)$ とするとき、$X$ の分散を
$$V(X) = E((X - \mu)^2)$$
と定義します。また、標準偏差を $\sigma(X) = \sqrt{V(X)}$ と定義します。
$V(X)$ は $(X - \mu)^2$ の期待値、つまり「偏差の2乗の平均」です。$X - \mu$ そのものの期待値は $E(X - \mu) = E(X) - \mu = 0$ になってしまうため、2乗をとって符号の打ち消しを防いでいます。
高校で計算に便利な公式として使っていた $V(X) = E(X^2) - \{E(X)\}^2$ を、セクション4で証明した期待値の線形性を使って導出します。
示すこと:$V(X) = E(X^2) - \mu^2$(ただし $\mu = E(X)$)。
方針:定義 $V(X) = E((X - \mu)^2)$ を展開し、期待値の線形性を適用します。
$(X - \mu)^2$ を展開すると、
$$(X - \mu)^2 = X^2 - 2\mu X + \mu^2$$
両辺の期待値をとります。期待値の線形性(セクション4で証明済み)により、
$$E((X - \mu)^2) = E(X^2) - 2\mu E(X) + \mu^2$$
$E(X) = \mu$ を代入すると、
$$= E(X^2) - 2\mu \cdot \mu + \mu^2 = E(X^2) - 2\mu^2 + \mu^2 = E(X^2) - \mu^2$$
したがって、
$$V(X) = E(X^2) - \{E(X)\}^2$$
が得られました。 $\square$
この導出のポイントは、$(X - \mu)^2$ を展開した後に期待値の線形性を使って各項を分離したことです。 セクション4で証明した定理が、ここで道具として機能しています。
続いて、もう一つの重要な公式を導出します。
$Y = aX + b$ とおきます。まず $Y$ の期待値を求めると、セクション4の結果から
$$E(Y) = aE(X) + b = a\mu + b$$
分散の定義に代入します。
$$V(Y) = E((Y - E(Y))^2) = E((aX + b - a\mu - b)^2) = E((a(X - \mu))^2)$$
$$= E(a^2(X - \mu)^2) = a^2 E((X - \mu)^2) = a^2 V(X)$$
最後のステップでは $E(cZ) = cE(Z)$($c$ は定数)を使いました。これも期待値の線形性の特殊な場合です。 $\square$
定数 $b$ を足しても分散は変わらず、定数 $a$ を掛けると分散は $a^2$ 倍になる。この結果は直感とも合います。 データ全体に同じ値を足しても「ばらつき」は変わりませんが、全体を $a$ 倍すれば広がりも $a$ 倍、2乗量としてのばらつきは $a^2$ 倍になるのです。
期待値の加法性 $E(X + Y) = E(X) + E(Y)$ は独立性によらず成り立ちました。 では、分散についてはどうでしょうか。
確率変数 $X$ と $Y$ が独立であるとき、
$$V(X + Y) = V(X) + V(Y)$$
が成り立ちます。
期待値の加法性とは異なり、分散の加法性には独立性が必要です。独立でない場合は $V(X + Y) = V(X) + V(Y) + 2\,\mathrm{Cov}(X, Y)$ となります($\mathrm{Cov}(X, Y)$ は共分散)。
方針:$V(X + Y) = E((X+Y)^2) - \{E(X+Y)\}^2$ を展開し、独立性から $E(XY) = E(X)E(Y)$ を使います。
$\mu_X = E(X)$, $\mu_Y = E(Y)$ とおきます。先に証明した分散の計算公式を $X + Y$ に適用すると、
$$V(X + Y) = E((X + Y)^2) - \{E(X + Y)\}^2$$
右辺の第1項を展開します。
$$E((X + Y)^2) = E(X^2 + 2XY + Y^2) = E(X^2) + 2E(XY) + E(Y^2)$$
右辺の第2項は、
$$\{E(X + Y)\}^2 = (\mu_X + \mu_Y)^2 = \mu_X^2 + 2\mu_X \mu_Y + \mu_Y^2$$
差をとると、
$$V(X + Y) = (E(X^2) - \mu_X^2) + (E(Y^2) - \mu_Y^2) + 2(E(XY) - \mu_X \mu_Y)$$
$$= V(X) + V(Y) + 2(E(XY) - E(X)E(Y))$$
$X$ と $Y$ が独立なとき $E(XY) = E(X)E(Y)$ が成り立つので、最後の項は $0$ です。したがって、
$$V(X + Y) = V(X) + V(Y)$$
が得られます。 $\square$
期待値と分散の性質を対比すると、それぞれの構造がよく見えます。
期待値(1次の量):$E(X + Y) = E(X) + E(Y)$ は常に成立。独立性は不要。
分散(2次の量):$V(X + Y) = V(X) + V(Y)$ は $X$, $Y$ が独立のときのみ成立。一般には $2\,\mathrm{Cov}(X,Y)$ の「交差項」が現れる。
この違いは、期待値が $\Sigma$ の1次式(線形な操作)であるのに対し、分散が2乗を含む2次の量であることに起因します。
ここまでで、期待値の線形性と分散の加法性(独立な場合)という2つの主要な道具が揃いました。 次のセクションでは、これらを具体的に活用して、二項分布の期待値と分散を導出します。
二項分布の期待値・分散を導くために、まず最も単純な確率変数を定義します。
確率変数 $X_i$ が
$$P(X_i = 1) = p, \quad P(X_i = 0) = 1 - p = q$$
を満たすとき、$X_i$ をベルヌーイ確率変数(パラメータ $p$)と呼びます。
「成功なら1、失敗なら0」を返す最もシンプルな確率変数です。コイン投げで表なら1、裏なら0とする場合がその例です。
ベルヌーイ確率変数 $X_i$ の期待値と分散を計算しておきます。
$$E(X_i) = 1 \cdot p + 0 \cdot q = p$$
$$E(X_i^2) = 1^2 \cdot p + 0^2 \cdot q = p$$
$$V(X_i) = E(X_i^2) - \{E(X_i)\}^2 = p - p^2 = p(1 - p) = pq$$
とりうる値が $0$ と $1$ しかないため、計算は非常にシンプルです。
高校で学ぶ二項分布 $B(n, p)$ は、「成功確率 $p$ の試行を独立に $n$ 回繰り返したとき、成功回数 $S$ が従う分布」です。 ここで、$S$ を次のように表すことができます。
$$S = X_1 + X_2 + \cdots + X_n$$
ただし $X_1, X_2, \dots, X_n$ は独立なベルヌーイ確率変数(パラメータ $p$)で、$X_i = 1$ は「$i$ 回目の試行が成功」を、$X_i = 0$ は「失敗」を意味します。 成功回数 $S$ は「$1$ の個数を数えた合計」ですから、確かにベルヌーイ確率変数の和になっています。
期待値の加法性(セクション4)を使えば、$S$ の期待値は即座に求まります。
$S = X_1 + X_2 + \cdots + X_n$ であり、各 $X_i$ は独立なベルヌーイ確率変数(パラメータ $p$)です。
期待値の加法性により、
$$E(S) = E(X_1) + E(X_2) + \cdots + E(X_n) = \underbrace{p + p + \cdots + p}_{n} = np$$
したがって、$B(n, p)$ に従う確率変数の期待値は $np$ です。 $\square$
高校では $E(S) = np$ を公式として覚えますが、上の導出を見れば、「$n$ 回の独立試行の成功回数は、各試行の成功確率の合計である」という自然な事実にすぎないことがわかります。
$X_1, X_2, \dots, X_n$ は独立なので、分散の加法性(セクション5)が使えます。
$X_1, X_2, \dots, X_n$ は独立なので、分散の加法性により、
$$V(S) = V(X_1) + V(X_2) + \cdots + V(X_n) = \underbrace{pq + pq + \cdots + pq}_{n} = npq$$
ただし $q = 1 - p$ です。したがって、$B(n, p)$ に従う確率変数の分散は $np(1-p)$ です。 $\square$
高校で暗記していた公式 $E(S) = np$, $V(S) = np(1 - p)$ が、期待値の加法性と分散の加法性(独立な場合)から自然に導出されました。 注目すべきは、二項係数 $\binom{n}{k}$ が一切登場しなかったことです。 高校の方法では $P(S = k) = \binom{n}{k} p^k q^{n-k}$ を使って $\sum k \binom{n}{k} p^k q^{n-k}$ を直接計算する必要があり、技巧的な式変形が求められます。 大学のアプローチでは、二項分布をベルヌーイ確率変数の和に「分解」することで、計算が劇的に簡潔になるのです。
例:公正なコインを10回投げたときの表の回数 $S$ について、期待値と分散を求めます。
$S \sim B(10, \frac{1}{2})$ なので、
$$E(S) = 10 \cdot \frac{1}{2} = 5$$
$$V(S) = 10 \cdot \frac{1}{2} \cdot \frac{1}{2} = \frac{10}{4} = 2.5$$
$$\sigma(S) = \sqrt{2.5} \approx 1.58$$
期待値5回を中心に、標準偏差約1.58回のばらつきがあるということです。 「10回投げて表が3回から7回の範囲に入る」のは、$5 \pm 1.58$ のおよそ $\pm 1.3$ 標準偏差の範囲であり、確率的にはよくある結果だと判断できます。
大学の確率論では、期待値や分散を体系的に求める道具としてモーメント母関数(moment generating function, MGF)を使うことがあります。確率変数 $X$ の MGF は $M_X(t) = E(e^{tX})$ と定義され、$M_X(t)$ を $t$ で微分して $t = 0$ を代入すると各次のモーメント $E(X), E(X^2), \dots$ が得られます。独立な確率変数の和の MGF は各 MGF の積になるため、二項分布の MGF をベルヌーイ確率変数の MGF から直接構成することもできます。この話題は 📖 第12章 §4 で中心極限定理を扱う際に再び登場します。
Q1. 確率変数の数学的な定義を述べてください。
Q2. $E(X + Y) = E(X) + E(Y)$ が成り立つために、$X$ と $Y$ の独立性は必要ですか。
Q3. $V(X + Y) = V(X) + V(Y)$ が成り立つために、$X$ と $Y$ にどのような条件が必要ですか。
Q4. 二項分布 $B(n, p)$ の期待値 $np$ を導出する際に、二項係数は必要ですか。理由も含めて答えてください。
確率変数 $X$ の確率分布が次の表で与えられています。
| $X$ | $1$ | $2$ | $3$ | $4$ |
|---|---|---|---|---|
| $P(X = x)$ | $\frac{1}{10}$ | $\frac{3}{10}$ | $\frac{4}{10}$ | $\frac{2}{10}$ |
(1) $E(X)$ を求めてください。
(2) $E(X^2)$ を求めてください。
(3) $V(X)$ を求めてください。
(1) $E(X) = 1 \cdot \frac{1}{10} + 2 \cdot \frac{3}{10} + 3 \cdot \frac{4}{10} + 4 \cdot \frac{2}{10} = \frac{1 + 6 + 12 + 8}{10} = \frac{27}{10} = 2.7$
(2) $E(X^2) = 1^2 \cdot \frac{1}{10} + 2^2 \cdot \frac{3}{10} + 3^2 \cdot \frac{4}{10} + 4^2 \cdot \frac{2}{10} = \frac{1 + 12 + 36 + 32}{10} = \frac{81}{10} = 8.1$
(3) $V(X) = E(X^2) - \{E(X)\}^2 = 8.1 - 2.7^2 = 8.1 - 7.29 = 0.81$
LOTUS を使って $E(X^2)$ を計算し、分散の計算公式 $V(X) = E(X^2) - \{E(X)\}^2$ を適用しました。$V(X)$ を定義式 $\sum (x_i - \mu)^2 p_i$ で直接計算しても同じ値 $0.81$ が得られることを確認してみてください。
確率変数 $X$ の期待値が $E(X) = 5$、分散が $V(X) = 4$ であるとき、$Y = 3X - 2$ の期待値と分散を求めてください。
$E(Y) = 3E(X) - 2 = 3 \cdot 5 - 2 = 13$
$V(Y) = 3^2 V(X) = 9 \cdot 4 = 36$
$E(aX + b) = aE(X) + b$ と $V(aX + b) = a^2 V(X)$ を適用しました。$a = 3$, $b = -2$ です。分散には定数項 $b = -2$ が影響しない点に注意してください。
ある工場で生産される製品の不良率は $5\%$ です。この製品を200個検査するとき、不良品の個数を $S$ とします。
(1) $S$ が従う分布を答えてください。
(2) $E(S)$ と $V(S)$ を求めてください。
(3) 標準偏差 $\sigma(S)$ を小数第2位まで求めてください。
(1) $S \sim B(200, 0.05)$(二項分布)
(2) $E(S) = 200 \cdot 0.05 = 10$、$V(S) = 200 \cdot 0.05 \cdot 0.95 = 9.5$
(3) $\sigma(S) = \sqrt{9.5} \approx 3.08$
各製品の検査を独立なベルヌーイ試行(成功確率 $p = 0.05$)とみなします。$S$ は200個の独立なベルヌーイ確率変数の和なので $B(200, 0.05)$ に従います。期待値は $np = 10$、分散は $np(1-p) = 9.5$ です。不良品数は平均10個、標準偏差約3.08個のばらつきをもつことがわかります。
$V(X) = E(X^2) - \{E(X)\}^2$ を期待値の定義と線形性のみを用いて証明してください。
$\mu = E(X)$ とおく。分散の定義より、
$$V(X) = E((X - \mu)^2) = E(X^2 - 2\mu X + \mu^2)$$
期待値の線形性より、
$$= E(X^2) - 2\mu E(X) + \mu^2 = E(X^2) - 2\mu^2 + \mu^2 = E(X^2) - \mu^2$$
$$= E(X^2) - \{E(X)\}^2 \quad \square$$
使った性質は (i) $(X - \mu)^2$ の展開、(ii) 期待値の線形性 $E(aX + b) = aE(X) + b$、(iii) $E(X) = \mu$ の代入の3つだけです。期待値の線形性が $\mu$ を定数として扱えることを保証しているのがポイントです。
確率変数 $X$ がサイコロ1個の出目($1$~$6$で各確率 $\frac{1}{6}$)とします。$Y = 7 - X$ とおきます。
(1) $E(X)$, $E(Y)$, $V(X)$, $V(Y)$ を求めてください。
(2) $V(X + Y)$ を直接計算してください。
(3) $V(X + Y) = V(X) + V(Y)$ は成り立ちますか。成り立たない場合、その理由を説明してください。
(1) $E(X) = \frac{1+2+3+4+5+6}{6} = \frac{7}{2}$
$E(Y) = E(7 - X) = 7 - E(X) = 7 - \frac{7}{2} = \frac{7}{2}$
$E(X^2) = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}$
$V(X) = \frac{91}{6} - \left(\frac{7}{2}\right)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12}$
$V(Y) = V(7 - X) = (-1)^2 V(X) = \frac{35}{12}$
(2) $X + Y = X + (7 - X) = 7$(定数)なので、$V(X + Y) = V(7) = 0$
(3) $V(X) + V(Y) = \frac{35}{12} + \frac{35}{12} = \frac{35}{6} \ne 0 = V(X + Y)$ であるため、成り立ちません。
$Y = 7 - X$ は $X$ から完全に決まるため、$X$ と $Y$ は独立ではありません。実際、$X$ が大きければ $Y$ は小さくなるという完全な負の相関があります。
$V(X + Y) = V(X) + V(Y) + 2\,\mathrm{Cov}(X, Y)$ の公式に当てはめると、$\mathrm{Cov}(X, Y) = -\frac{35}{12}$ となります($V(X + Y) = 0$ から逆算できます)。
この例は「分散の加法性が独立性を必要とする理由」を端的に示しています。$X$ と $Y$ が互いに打ち消し合うように動くとき、和のばらつきは各変数のばらつきの合計よりも小さくなるのです。
確率変数 $X$ の期待値を $\mu$、標準偏差を $\sigma > 0$ とします。$Z = \frac{X - \mu}{\sigma}$ とおくとき、$E(Z)$ と $V(Z)$ を求め、$Z$ を標準化された確率変数と呼ぶ理由を説明してください。
$Z = \frac{1}{\sigma} X - \frac{\mu}{\sigma}$ と書けるので、$a = \frac{1}{\sigma}$, $b = -\frac{\mu}{\sigma}$ として
$$E(Z) = \frac{1}{\sigma} E(X) - \frac{\mu}{\sigma} = \frac{\mu}{\sigma} - \frac{\mu}{\sigma} = 0$$
$$V(Z) = \frac{1}{\sigma^2} V(X) = \frac{\sigma^2}{\sigma^2} = 1$$
$Z$ は期待値0、分散1を持ちます。つまり、元の確率変数 $X$ がどのような期待値・分散を持っていても、標準化により「中心が0、ばらつきが1」の共通の尺度に変換されます。これにより異なる分布を同じスケールで比較できるようになります。この変換は 📖 第12章 §4 で中心極限定理を述べる際に不可欠な道具となります。