M-12-3 確率変数と期待値・分散の理論 | 大学数学デジタル教科書

1高校での扱い ─ 確率変数と期待値・分散の公式

高校の数学B「統計的な推測」では、確率変数と期待値・分散を次のように扱います。

確率変数 $X$ がとりうる値を $x_1, x_2, \dots, x_n$ とし、各値をとる確率を $p_1, p_2, \dots, p_n$ とするとき、期待値（平均）は

$$E(X) = \sum_{i=1}^{n} x_i p_i$$

と定義されます。「各値にその確率をかけて合計する」という計算です。

分散は「各値が期待値からどれだけ離れているか」の平均として

$$V(X) = \sum_{i=1}^{n} (x_i - E(X))^2 \, p_i$$

と定義され、計算に便利な公式として

$$V(X) = E(X^2) - \{E(X)\}^2$$

を使います。さらに、以下の性質を「公式」として暗記します。

$E(aX + b) = aE(X) + b$
$V(aX + b) = a^2 V(X)$
標準偏差 $\sigma(X) = \sqrt{V(X)}$

これらの公式は計算上非常に便利であり、高校の範囲ではこれで十分です。しかし、「確率変数 $X$ とはそもそも何なのか」「なぜ期待値には線形性があるのか」「$V(X) = E(X^2) - \{E(X)\}^2$ はなぜ成り立つのか」といった問いは、高校では深く扱いません。次のセクションでは、大学数学がこれらの問いにどう答えるかを見ていきます。

2大学の視点 ─ 確率変数は「関数」である

大学の確率論では、確率変数を単なる「値が確率的に変わる変数」ではなく、標本空間 $\Omega$ から実数 $\mathbb{R}$ への関数として定義します。この視点の転換が、高校の公式のすべてに論理的な根拠を与えます。

標本空間とは、 📖 第12章 §1 で導入した「起こりうる結果の全体」のことです。たとえばサイコロ1個を振る試行では $\Omega = \{1, 2, 3, 4, 5, 6\}$ です。「出た目の値」を $X$ とすると、$X$ は $\Omega$ の各要素に実数を対応させる関数です。$X(1) = 1$, $X(2) = 2$, $\dots$, $X(6) = 6$ という具合です。

この一見単純な言い換えが、実は強力な帰結をもたらします。$X$ が関数であれば、$2X$, $X + 3$, $X^2$ なども関数として自然に定義でき、それらの期待値も同じ枠組みで計算できるからです。

高校 vs 大学：確率変数をどう捉えるか

高校：「確率的に値が変わる変数」
確率変数は特殊な記号であり、$X = x_i$ となる確率が $p_i$ であると考える。

大学：「標本空間から実数への関数」
確率変数は $X \colon \Omega \to \mathbb{R}$ という関数であり、各標本点 $\omega$ に対して値 $X(\omega)$ を返す。

高校：期待値の性質は「公式」
$E(aX + b) = aE(X) + b$ は暗記する公式。なぜ成り立つかは深く問わない。

大学：期待値の性質は「定理」
期待値の定義から $\Sigma$ の性質を使って証明される。線形性は定理であり、暗記の対象ではない。

高校：$V(X) = E(X^2) - \{E(X)\}^2$ は計算公式
便利な公式として紹介されるが、導出過程は省略されることが多い。

大学：分散公式は期待値の線形性から導出
$V(X) = E((X - \mu)^2) = E(X^2) - \mu^2$ は期待値の定義と線形性から自然に導かれる。

確率変数を「関数」と捉えることで見えるもの

この記事を読み終えると、以下のことができるようになります。

1. 確率変数を「標本空間から実数への関数」として定義し、具体例で確認できる

2. 期待値の線形性 $E(aX + b) = aE(X) + b$ を定義から証明できる

3. 分散の計算公式 $V(X) = E(X^2) - \{E(X)\}^2$ を期待値の線形性から導出できる

4. 独立な確率変数の和の分散 $V(X + Y) = V(X) + V(Y)$ がなぜ「独立」を必要とするか説明できる

5. 二項分布 $B(n, p)$ の期待値 $np$ と分散 $np(1-p)$ を、ベルヌーイ確率変数の和として導出できる

ここからは、まず確率変数を関数として厳密に定義し（セクション3）、次にその定義に基づいて期待値の理論を展開し（セクション4）、さらに分散の理論を構築します（セクション5）。最後に、これらの道具を使って二項分布の公式を導出します（セクション6）。

3確率変数の厳密な定義

確率変数とは何か

確率変数を定義するには、まず確率空間の概念が必要です。 📖 第12章 §1 で導入したように、確率空間は $(\Omega, \mathcal{F}, P)$ の3つの組です。$\Omega$ は標本空間（起こりうる結果の全体）、$\mathcal{F}$ は事象の集合族、$P$ は確率測度です。この記事では離散的な場合（$\Omega$ が有限または可算無限）を扱うので、$\mathcal{F}$ は $\Omega$ のすべての部分集合の族と考えて構いません。

確率変数の定義は次の通りです。

定義：確率変数（離散型）

確率空間 $(\Omega, \mathcal{F}, P)$ 上の（離散型）確率変数とは、標本空間 $\Omega$ から実数 $\mathbb{R}$ への関数

$$X \colon \Omega \to \mathbb{R}$$

のことです。$X$ が値 $x$ をとる確率とは、$P(\{\omega \in \Omega \mid X(\omega) = x\})$ のことであり、これを $P(X = x)$ と略記します。

なぜ関数として定義するのか。それは、「ランダムに変わる値」を数学的に扱うには、「何がランダムの源なのか」を明確にする必要があるからです。ランダムの源は標本空間 $\Omega$ の中にあり、確率変数 $X$ はその結果を数値に変換する「翻訳器」の役割を果たします。

具体例で確認する

例1（サイコロ1個）： $\Omega = \{1, 2, 3, 4, 5, 6\}$ として、各目が出る確率は $\frac{1}{6}$ とします。

確率変数 $X$ を「出た目の値」とすると、$X(\omega) = \omega$ です。つまり $X(1) = 1, X(2) = 2, \dots, X(6) = 6$ です。これは最も素朴な確率変数で、標本空間の要素をそのまま返す関数です。

一方、「出た目が偶数なら1、奇数なら0」という確率変数 $Y$ を考えることもできます。

$$Y(\omega) = \begin{cases} 1 & (\omega = 2, 4, 6) \\ 0 & (\omega = 1, 3, 5) \end{cases}$$

$Y$ がとりうる値は $0$ と $1$ の2つで、$P(Y = 1) = \frac{3}{6} = \frac{1}{2}$、$P(Y = 0) = \frac{1}{2}$ です。同じ標本空間 $\Omega$ から、異なる確率変数を自由に作れることがわかります。

例2（コイン2枚）： $\Omega = \{(H,H), (H,T), (T,H), (T,T)\}$（$H$：表、$T$：裏）で、各結果の確率は $\frac{1}{4}$ とします。 $X$ を「表の出た枚数」とすると、

$$X((H,H)) = 2, \quad X((H,T)) = 1, \quad X((T,H)) = 1, \quad X((T,T)) = 0$$

です。$P(X = 0) = \frac{1}{4}$, $P(X = 1) = \frac{2}{4} = \frac{1}{2}$, $P(X = 2) = \frac{1}{4}$ となります。

確率変数の関数もまた確率変数

$X$ が確率変数（$\Omega$ から $\mathbb{R}$ への関数）であれば、$g(X)$ もまた確率変数です。ここで $g \colon \mathbb{R} \to \mathbb{R}$ は任意の関数です。なぜなら、合成 $g \circ X \colon \Omega \to \mathbb{R}$ もまた $\Omega$ から $\mathbb{R}$ への関数だからです。

たとえば、サイコロの例で $X$ を出た目の値とすると、$X^2$ は「出た目の2乗」を返す確率変数であり、$2X + 3$ は「出た目の2倍に3を足した値」を返す確率変数です。この「確率変数の関数もまた確率変数」という性質が、次のセクションで期待値の理論を展開するための土台になります。

4期待値の定義と線形性

期待値の定義

確率変数が関数として定義されたので、その「平均的な値」を定義できます。

定義：期待値

離散型確率変数 $X$ がとりうる値を $x_1, x_2, \dots$ とするとき、$X$ の期待値を

$$E(X) = \sum_{i} x_i \, P(X = x_i)$$

と定義します。ただし、この和が絶対収束する（$\sum_{i} |x_i| \, P(X = x_i) < \infty$）場合に限ります。

期待値は $\mu$ や $\mu_X$ とも書きます。各値 $x_i$ を確率 $P(X = x_i)$ で重みづけした加重平均です。

これは高校で学ぶ公式 $E(X) = \sum x_i p_i$ と同じ形ですが、大学では「$p_i$ が確率測度 $P$ から来ている」ことを意識します。また、絶対収束の条件は、$X$ のとりうる値が無限個ある場合に和の値が順序に依存しないことを保証するためのものです。有限個の場合は常に満たされます。

確率変数の関数の期待値

セクション3で「確率変数の関数もまた確率変数」であることを確認しました。ここでその事実が直接使われます。$g(X)$ の期待値を求めるとき、$g(X)$ の確率分布を改めて求めなくても、次の公式で直接計算できます。

定理：無意識の統計家の法則（LOTUS）

$X$ を離散型確率変数、$g \colon \mathbb{R} \to \mathbb{R}$ を関数とするとき、

$$E(g(X)) = \sum_{i} g(x_i) \, P(X = x_i)$$

が成り立ちます。

この法則は Law of the Unconscious Statistician（LOTUS）と呼ばれます。$g(X)$ の分布を求め直さなくても、$X$ の分布だけから $E(g(X))$ を計算できるという便利な性質です。

たとえば、$E(X^2)$ を計算するのに「$X^2$ がとりうる値とその確率」を改めて求める必要はなく、$\sum x_i^2 \, P(X = x_i)$ を計算すればよいのです。この法則があるからこそ、分散の計算で $E(X^2)$ をスムーズに扱えます。

期待値の線形性の証明

いよいよ、高校で「公式」として暗記していた期待値の線形性を、定義から証明します。

証明：$E(aX + b) = aE(X) + b$

示すこと：定数 $a, b$ と確率変数 $X$ に対して、$E(aX + b) = aE(X) + b$ が成り立つ。

方針：$aX + b$ を $g(X) = aX + b$ とみなし、LOTUS を適用した後、$\Sigma$ の線形性を使います。

LOTUS により、

$$E(aX + b) = \sum_{i} (ax_i + b) \, P(X = x_i)$$

$\Sigma$ を分配して、

$$= \sum_{i} ax_i \, P(X = x_i) + \sum_{i} b \, P(X = x_i)$$

定数 $a$, $b$ を $\Sigma$ の外に出すと、

$$= a \sum_{i} x_i \, P(X = x_i) + b \sum_{i} P(X = x_i)$$

ここで、第1項の $\sum_{i} x_i P(X = x_i)$ は $E(X)$ の定義そのものです。第2項の $\sum_{i} P(X = x_i)$ は「$X$ がとりうるすべての値の確率の合計」であり、確率の公理から $1$ です。したがって、

$$= aE(X) + b$$

が得られます。 $\square$

この証明を振り返ると、使ったのは $\Sigma$ の分配法則（有限和や絶対収束する和では自由に分配できる）と、確率の合計が1であるという公理だけです。つまり、期待値の線形性は$\Sigma$ の線形性と確率の公理の直接的な帰結であり、暗記する「公式」ではなく自然に導かれる性質なのです。

2つの確率変数の和の期待値

期待値の線形性は、1つの確率変数の $aX + b$ だけでなく、2つの確率変数の和 $X + Y$ にも拡張できます。

定理：期待値の加法性

確率変数 $X$, $Y$ に対して（独立であるかどうかにかかわらず）、

$$E(X + Y) = E(X) + E(Y)$$

が成り立ちます。

この性質は独立性を仮定しない点が重要です。期待値の加法性は無条件に成り立ちます。

証明：$E(X + Y) = E(X) + E(Y)$

方針：$X + Y$ も $\Omega$ 上の関数なので、期待値を $\Omega$ 上の和として直接計算します。

$\Omega = \{\omega_1, \omega_2, \dots, \omega_n\}$（有限の場合）とし、$\omega_k$ が起こる確率を $P(\{\omega_k\})$ とします。期待値の定義を標本空間上の和として書くと、

$$E(X + Y) = \sum_{k=1}^{n} (X(\omega_k) + Y(\omega_k)) \, P(\{\omega_k\})$$

$\Sigma$ を分配して、

$$= \sum_{k=1}^{n} X(\omega_k) \, P(\{\omega_k\}) + \sum_{k=1}^{n} Y(\omega_k) \, P(\{\omega_k\})$$

$$= E(X) + E(Y)$$

独立性は一切使っていません。$\Sigma$ の分配法則のみです。 $\square$

この結果と $E(aX + b) = aE(X) + b$ を組み合わせると、$E(a_1 X_1 + a_2 X_2 + \cdots + a_n X_n) = a_1 E(X_1) + a_2 E(X_2) + \cdots + a_n E(X_n)$ が得られます。これが期待値の完全な線形性であり、セクション6で二項分布の期待値を導出する際の鍵になります。

注意：$E(XY) = E(X)E(Y)$ は一般には成り立たない

誤：「期待値の線形性があるから、積についても $E(XY) = E(X)E(Y)$ が成り立つ」

正：$E(XY) = E(X)E(Y)$ が成り立つのは $X$ と $Y$ が独立なときだけです。期待値は和に対しては無条件に線形ですが、積に対しては独立性が必要です。

反例：$X$ がサイコロの出目（$1$～$6$ で各確率 $\frac{1}{6}$）とし、$Y = X$ とします。$E(X) = \frac{7}{2}$ なので $E(X)E(Y) = \frac{49}{4}$ ですが、$E(XY) = E(X^2) = \frac{1}{6}(1 + 4 + 9 + 16 + 25 + 36) = \frac{91}{6} \ne \frac{49}{4}$ です。

ここまでで、期待値の定義とその線形性（加法性を含む）が確立されました。次に、この期待値の理論を使って、分散の構造を明らかにします。

5分散の理論 ─ 「ばらつき」の数学的構造

分散の定義

期待値は「確率変数の中心がどこにあるか」を表します。分散は「その中心からどれだけばらつくか」を定量化する量です。

定義：分散と標準偏差

確率変数 $X$ の期待値を $\mu = E(X)$ とするとき、$X$ の分散を

$$V(X) = E((X - \mu)^2)$$

と定義します。また、標準偏差を $\sigma(X) = \sqrt{V(X)}$ と定義します。

$V(X)$ は $(X - \mu)^2$ の期待値、つまり「偏差の2乗の平均」です。$X - \mu$ そのものの期待値は $E(X - \mu) = E(X) - \mu = 0$ になってしまうため、2乗をとって符号の打ち消しを防いでいます。

分散の計算公式の導出

高校で計算に便利な公式として使っていた $V(X) = E(X^2) - \{E(X)\}^2$ を、セクション4で証明した期待値の線形性を使って導出します。

導出：$V(X) = E(X^2) - \{E(X)\}^2$

示すこと：$V(X) = E(X^2) - \mu^2$（ただし $\mu = E(X)$）。

方針：定義 $V(X) = E((X - \mu)^2)$ を展開し、期待値の線形性を適用します。

$(X - \mu)^2$ を展開すると、

$$(X - \mu)^2 = X^2 - 2\mu X + \mu^2$$

両辺の期待値をとります。期待値の線形性（セクション4で証明済み）により、

$$E((X - \mu)^2) = E(X^2) - 2\mu E(X) + \mu^2$$

$E(X) = \mu$ を代入すると、

$$= E(X^2) - 2\mu \cdot \mu + \mu^2 = E(X^2) - 2\mu^2 + \mu^2 = E(X^2) - \mu^2$$

したがって、

$$V(X) = E(X^2) - \{E(X)\}^2$$

が得られました。 $\square$

この導出のポイントは、$(X - \mu)^2$ を展開した後に期待値の線形性を使って各項を分離したことです。セクション4で証明した定理が、ここで道具として機能しています。

$V(aX + b) = a^2 V(X)$ の導出

続いて、もう一つの重要な公式を導出します。

導出：$V(aX + b) = a^2 V(X)$

$Y = aX + b$ とおきます。まず $Y$ の期待値を求めると、セクション4の結果から

$$E(Y) = aE(X) + b = a\mu + b$$

分散の定義に代入します。

$$V(Y) = E((Y - E(Y))^2) = E((aX + b - a\mu - b)^2) = E((a(X - \mu))^2)$$

$$= E(a^2(X - \mu)^2) = a^2 E((X - \mu)^2) = a^2 V(X)$$

最後のステップでは $E(cZ) = cE(Z)$（$c$ は定数）を使いました。これも期待値の線形性の特殊な場合です。 $\square$

定数 $b$ を足しても分散は変わらず、定数 $a$ を掛けると分散は $a^2$ 倍になる。この結果は直感とも合います。データ全体に同じ値を足しても「ばらつき」は変わりませんが、全体を $a$ 倍すれば広がりも $a$ 倍、2乗量としてのばらつきは $a^2$ 倍になるのです。

独立な確率変数の和の分散

期待値の加法性 $E(X + Y) = E(X) + E(Y)$ は独立性によらず成り立ちました。では、分散についてはどうでしょうか。

定理：独立な確率変数の分散の加法性

確率変数 $X$ と $Y$ が独立であるとき、

$$V(X + Y) = V(X) + V(Y)$$

が成り立ちます。

期待値の加法性とは異なり、分散の加法性には独立性が必要です。独立でない場合は $V(X + Y) = V(X) + V(Y) + 2\,\mathrm{Cov}(X, Y)$ となります（$\mathrm{Cov}(X, Y)$ は共分散）。

証明：$V(X + Y) = V(X) + V(Y)$（$X$, $Y$ 独立のとき）

方針：$V(X + Y) = E((X+Y)^2) - \{E(X+Y)\}^2$ を展開し、独立性から $E(XY) = E(X)E(Y)$ を使います。

$\mu_X = E(X)$, $\mu_Y = E(Y)$ とおきます。先に証明した分散の計算公式を $X + Y$ に適用すると、

$$V(X + Y) = E((X + Y)^2) - \{E(X + Y)\}^2$$

右辺の第1項を展開します。

$$E((X + Y)^2) = E(X^2 + 2XY + Y^2) = E(X^2) + 2E(XY) + E(Y^2)$$

右辺の第2項は、

$$\{E(X + Y)\}^2 = (\mu_X + \mu_Y)^2 = \mu_X^2 + 2\mu_X \mu_Y + \mu_Y^2$$

差をとると、

$$V(X + Y) = (E(X^2) - \mu_X^2) + (E(Y^2) - \mu_Y^2) + 2(E(XY) - \mu_X \mu_Y)$$

$$= V(X) + V(Y) + 2(E(XY) - E(X)E(Y))$$

$X$ と $Y$ が独立なとき $E(XY) = E(X)E(Y)$ が成り立つので、最後の項は $0$ です。したがって、

$$V(X + Y) = V(X) + V(Y)$$

が得られます。 $\square$

期待値と分散の性質の比較

期待値と分散の性質を対比すると、それぞれの構造がよく見えます。

期待値（1次の量）：$E(X + Y) = E(X) + E(Y)$ は常に成立。独立性は不要。

分散（2次の量）：$V(X + Y) = V(X) + V(Y)$ は $X$, $Y$ が独立のときのみ成立。一般には $2\,\mathrm{Cov}(X,Y)$ の「交差項」が現れる。

この違いは、期待値が $\Sigma$ の1次式（線形な操作）であるのに対し、分散が2乗を含む2次の量であることに起因します。

ここまでで、期待値の線形性と分散の加法性（独立な場合）という2つの主要な道具が揃いました。次のセクションでは、これらを具体的に活用して、二項分布の期待値と分散を導出します。

6応用 ─ 二項分布の期待値・分散を導出する

ベルヌーイ確率変数

二項分布の期待値・分散を導くために、まず最も単純な確率変数を定義します。

定義：ベルヌーイ確率変数

確率変数 $X_i$ が

$$P(X_i = 1) = p, \quad P(X_i = 0) = 1 - p = q$$

を満たすとき、$X_i$ をベルヌーイ確率変数（パラメータ $p$）と呼びます。

「成功なら1、失敗なら0」を返す最もシンプルな確率変数です。コイン投げで表なら1、裏なら0とする場合がその例です。

ベルヌーイ確率変数 $X_i$ の期待値と分散を計算しておきます。

$$E(X_i) = 1 \cdot p + 0 \cdot q = p$$

$$E(X_i^2) = 1^2 \cdot p + 0^2 \cdot q = p$$

$$V(X_i) = E(X_i^2) - \{E(X_i)\}^2 = p - p^2 = p(1 - p) = pq$$

とりうる値が $0$ と $1$ しかないため、計算は非常にシンプルです。

二項分布をベルヌーイ確率変数の和として捉える

高校で学ぶ二項分布 $B(n, p)$ は、「成功確率 $p$ の試行を独立に $n$ 回繰り返したとき、成功回数 $S$ が従う分布」です。ここで、$S$ を次のように表すことができます。

$$S = X_1 + X_2 + \cdots + X_n$$

ただし $X_1, X_2, \dots, X_n$ は独立なベルヌーイ確率変数（パラメータ $p$）で、$X_i = 1$ は「$i$ 回目の試行が成功」を、$X_i = 0$ は「失敗」を意味します。成功回数 $S$ は「$1$ の個数を数えた合計」ですから、確かにベルヌーイ確率変数の和になっています。

二項分布の期待値の導出

期待値の加法性（セクション4）を使えば、$S$ の期待値は即座に求まります。

導出：$B(n, p)$ の期待値

$S = X_1 + X_2 + \cdots + X_n$ であり、各 $X_i$ は独立なベルヌーイ確率変数（パラメータ $p$）です。

期待値の加法性により、

$$E(S) = E(X_1) + E(X_2) + \cdots + E(X_n) = \underbrace{p + p + \cdots + p}_{n} = np$$

したがって、$B(n, p)$ に従う確率変数の期待値は $np$ です。 $\square$

高校では $E(S) = np$ を公式として覚えますが、上の導出を見れば、「$n$ 回の独立試行の成功回数は、各試行の成功確率の合計である」という自然な事実にすぎないことがわかります。

二項分布の分散の導出

$X_1, X_2, \dots, X_n$ は独立なので、分散の加法性（セクション5）が使えます。

導出：$B(n, p)$ の分散

$X_1, X_2, \dots, X_n$ は独立なので、分散の加法性により、

$$V(S) = V(X_1) + V(X_2) + \cdots + V(X_n) = \underbrace{pq + pq + \cdots + pq}_{n} = npq$$

ただし $q = 1 - p$ です。したがって、$B(n, p)$ に従う確率変数の分散は $np(1-p)$ です。 $\square$

高校で暗記していた公式 $E(S) = np$, $V(S) = np(1 - p)$ が、期待値の加法性と分散の加法性（独立な場合）から自然に導出されました。注目すべきは、二項係数 $\binom{n}{k}$ が一切登場しなかったことです。高校の方法では $P(S = k) = \binom{n}{k} p^k q^{n-k}$ を使って $\sum k \binom{n}{k} p^k q^{n-k}$ を直接計算する必要があり、技巧的な式変形が求められます。大学のアプローチでは、二項分布をベルヌーイ確率変数の和に「分解」することで、計算が劇的に簡潔になるのです。

具体的な数値例

例：公正なコインを10回投げたときの表の回数 $S$ について、期待値と分散を求めます。

$S \sim B(10, \frac{1}{2})$ なので、

$$E(S) = 10 \cdot \frac{1}{2} = 5$$

$$V(S) = 10 \cdot \frac{1}{2} \cdot \frac{1}{2} = \frac{10}{4} = 2.5$$

$$\sigma(S) = \sqrt{2.5} \approx 1.58$$

期待値5回を中心に、標準偏差約1.58回のばらつきがあるということです。「10回投げて表が3回から7回の範囲に入る」のは、$5 \pm 1.58$ のおよそ $\pm 1.3$ 標準偏差の範囲であり、確率的にはよくある結果だと判断できます。

発展：モーメント母関数による導出

大学の確率論では、期待値や分散を体系的に求める道具としてモーメント母関数（moment generating function, MGF）を使うことがあります。確率変数 $X$ の MGF は $M_X(t) = E(e^{tX})$ と定義され、$M_X(t)$ を $t$ で微分して $t = 0$ を代入すると各次のモーメント $E(X), E(X^2), \dots$ が得られます。独立な確率変数の和の MGF は各 MGF の積になるため、二項分布の MGF をベルヌーイ確率変数の MGF から直接構成することもできます。この話題は 📖 第12章 §4 で中心極限定理を扱う際に再び登場します。

7つながりマップ

前提知識： 📖 M-12-1 確率の公理的定義 ─ 標本空間・事象・確率測度の定義。本記事で「確率空間 $(\Omega, \mathcal{F}, P)$」として前提にしています。
前提知識： 📖 M-12-2 条件付き確率とベイズの定理 ─ 条件付き確率と独立性の定義。本記事で「$X$ と $Y$ が独立」という条件を使っています。
発展： 📖 M-12-4 大数の法則と中心極限定理 ─ 本記事で構築した期待値・分散の理論を使い、大数の法則と中心極限定理を扱います。
関連： 📖 M-13-1 記述統計の深層 ─ データの分散と確率変数の分散の関係。標本平均・標本分散を確率変数として扱います。
関連： 📖 M-13-2 仮説検定の論理 ─ 分散の理論が検定統計量の構成に直接使われます。

✔まとめ

確率変数は関数である：確率変数 $X$ は標本空間 $\Omega$ から実数 $\mathbb{R}$ への関数 $X \colon \Omega \to \mathbb{R}$ として定義される。この視点により、確率変数の演算（和・スカラー倍・関数の合成）が自然に定まる。
期待値の線形性は定理である：$E(aX + b) = aE(X) + b$ および $E(X + Y) = E(X) + E(Y)$（独立性不要）は、$\Sigma$ の線形性と確率の公理から証明される。
分散の計算公式は期待値の線形性から導かれる：$V(X) = E(X^2) - \{E(X)\}^2$ は、定義 $V(X) = E((X - \mu)^2)$ を展開して期待値の線形性を適用することで得られる。
分散の加法性には独立性が必要：$V(X + Y) = V(X) + V(Y)$ は $X$, $Y$ が独立のときのみ成立する。一般には共分散の項が残る。
二項分布はベルヌーイ変数の和として分解できる：$B(n, p)$ の期待値 $np$ と分散 $np(1-p)$ は、期待値の加法性と分散の加法性から直ちに導かれ、二項係数の計算を一切必要としない。

9確認テスト

理解度チェック

Q1. 確率変数の数学的な定義を述べてください。

クリックして解答を表示確率変数とは、確率空間 $(\Omega, \mathcal{F}, P)$ の標本空間 $\Omega$ から実数 $\mathbb{R}$ への関数 $X \colon \Omega \to \mathbb{R}$ のことです。

Q2. $E(X + Y) = E(X) + E(Y)$ が成り立つために、$X$ と $Y$ の独立性は必要ですか。

クリックして解答を表示必要ありません。期待値の加法性は独立性によらず常に成り立ちます。これは $\Sigma$ の分配法則のみから導かれるためです。

Q3. $V(X + Y) = V(X) + V(Y)$ が成り立つために、$X$ と $Y$ にどのような条件が必要ですか。

クリックして解答を表示 $X$ と $Y$ が独立であることが必要です。一般には $V(X + Y) = V(X) + V(Y) + 2\,\mathrm{Cov}(X, Y)$ であり、独立でないとき共分散 $\mathrm{Cov}(X, Y) \ne 0$ となり得ます。

Q4. 二項分布 $B(n, p)$ の期待値 $np$ を導出する際に、二項係数は必要ですか。理由も含めて答えてください。

クリックして解答を表示必要ありません。$B(n, p)$ に従う確率変数 $S$ を $n$ 個の独立なベルヌーイ確率変数の和 $S = X_1 + \cdots + X_n$ と表し、期待値の加法性 $E(S) = E(X_1) + \cdots + E(X_n) = np$ を使えば、二項係数を一切使わずに導出できます。

10演習問題

問題1 A 期待値の計算

確率変数 $X$ の確率分布が次の表で与えられています。

$X$	$1$	$2$	$3$	$4$
$P(X = x)$	$\frac{1}{10}$	$\frac{3}{10}$	$\frac{4}{10}$	$\frac{2}{10}$

(1) $E(X)$ を求めてください。

(2) $E(X^2)$ を求めてください。

(3) $V(X)$ を求めてください。

クリックして解答を表示

解答

(1) $E(X) = 1 \cdot \frac{1}{10} + 2 \cdot \frac{3}{10} + 3 \cdot \frac{4}{10} + 4 \cdot \frac{2}{10} = \frac{1 + 6 + 12 + 8}{10} = \frac{27}{10} = 2.7$

(2) $E(X^2) = 1^2 \cdot \frac{1}{10} + 2^2 \cdot \frac{3}{10} + 3^2 \cdot \frac{4}{10} + 4^2 \cdot \frac{2}{10} = \frac{1 + 12 + 36 + 32}{10} = \frac{81}{10} = 8.1$

(3) $V(X) = E(X^2) - \{E(X)\}^2 = 8.1 - 2.7^2 = 8.1 - 7.29 = 0.81$

解説

LOTUS を使って $E(X^2)$ を計算し、分散の計算公式 $V(X) = E(X^2) - \{E(X)\}^2$ を適用しました。$V(X)$ を定義式 $\sum (x_i - \mu)^2 p_i$ で直接計算しても同じ値 $0.81$ が得られることを確認してみてください。

問題2 A 線形性の適用

確率変数 $X$ の期待値が $E(X) = 5$、分散が $V(X) = 4$ であるとき、$Y = 3X - 2$ の期待値と分散を求めてください。

クリックして解答を表示

解答

$E(Y) = 3E(X) - 2 = 3 \cdot 5 - 2 = 13$

$V(Y) = 3^2 V(X) = 9 \cdot 4 = 36$

解説

$E(aX + b) = aE(X) + b$ と $V(aX + b) = a^2 V(X)$ を適用しました。$a = 3$, $b = -2$ です。分散には定数項 $b = -2$ が影響しない点に注意してください。

問題3 B 二項分布

ある工場で生産される製品の不良率は $5\%$ です。この製品を200個検査するとき、不良品の個数を $S$ とします。

(1) $S$ が従う分布を答えてください。

(2) $E(S)$ と $V(S)$ を求めてください。

(3) 標準偏差 $\sigma(S)$ を小数第2位まで求めてください。

クリックして解答を表示

解答

(1) $S \sim B(200, 0.05)$（二項分布）

(2) $E(S) = 200 \cdot 0.05 = 10$、$V(S) = 200 \cdot 0.05 \cdot 0.95 = 9.5$

(3) $\sigma(S) = \sqrt{9.5} \approx 3.08$

解説

各製品の検査を独立なベルヌーイ試行（成功確率 $p = 0.05$）とみなします。$S$ は200個の独立なベルヌーイ確率変数の和なので $B(200, 0.05)$ に従います。期待値は $np = 10$、分散は $np(1-p) = 9.5$ です。不良品数は平均10個、標準偏差約3.08個のばらつきをもつことがわかります。

問題4 B 分散の計算公式の導出

$V(X) = E(X^2) - \{E(X)\}^2$ を期待値の定義と線形性のみを用いて証明してください。

クリックして解答を表示

解答

$\mu = E(X)$ とおく。分散の定義より、

$$V(X) = E((X - \mu)^2) = E(X^2 - 2\mu X + \mu^2)$$

期待値の線形性より、

$$= E(X^2) - 2\mu E(X) + \mu^2 = E(X^2) - 2\mu^2 + \mu^2 = E(X^2) - \mu^2$$

$$= E(X^2) - \{E(X)\}^2 \quad \square$$

解説

使った性質は (i) $(X - \mu)^2$ の展開、(ii) 期待値の線形性 $E(aX + b) = aE(X) + b$、(iii) $E(X) = \mu$ の代入の3つだけです。期待値の線形性が $\mu$ を定数として扱えることを保証しているのがポイントです。

問題5 C 独立性と分散

確率変数 $X$ がサイコロ1個の出目（$1$～$6$で各確率 $\frac{1}{6}$）とします。$Y = 7 - X$ とおきます。

(1) $E(X)$, $E(Y)$, $V(X)$, $V(Y)$ を求めてください。

(2) $V(X + Y)$ を直接計算してください。

(3) $V(X + Y) = V(X) + V(Y)$ は成り立ちますか。成り立たない場合、その理由を説明してください。

クリックして解答を表示

解答

(1) $E(X) = \frac{1+2+3+4+5+6}{6} = \frac{7}{2}$

$E(Y) = E(7 - X) = 7 - E(X) = 7 - \frac{7}{2} = \frac{7}{2}$

$E(X^2) = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}$

$V(X) = \frac{91}{6} - \left(\frac{7}{2}\right)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12}$

$V(Y) = V(7 - X) = (-1)^2 V(X) = \frac{35}{12}$

(2) $X + Y = X + (7 - X) = 7$（定数）なので、$V(X + Y) = V(7) = 0$

(3) $V(X) + V(Y) = \frac{35}{12} + \frac{35}{12} = \frac{35}{6} \ne 0 = V(X + Y)$ であるため、成り立ちません。

解説

$Y = 7 - X$ は $X$ から完全に決まるため、$X$ と $Y$ は独立ではありません。実際、$X$ が大きければ $Y$ は小さくなるという完全な負の相関があります。

$V(X + Y) = V(X) + V(Y) + 2\,\mathrm{Cov}(X, Y)$ の公式に当てはめると、$\mathrm{Cov}(X, Y) = -\frac{35}{12}$ となります（$V(X + Y) = 0$ から逆算できます）。

この例は「分散の加法性が独立性を必要とする理由」を端的に示しています。$X$ と $Y$ が互いに打ち消し合うように動くとき、和のばらつきは各変数のばらつきの合計よりも小さくなるのです。

問題6 C 標準化

確率変数 $X$ の期待値を $\mu$、標準偏差を $\sigma > 0$ とします。$Z = \frac{X - \mu}{\sigma}$ とおくとき、$E(Z)$ と $V(Z)$ を求め、$Z$ を標準化された確率変数と呼ぶ理由を説明してください。

クリックして解答を表示

解答

$Z = \frac{1}{\sigma} X - \frac{\mu}{\sigma}$ と書けるので、$a = \frac{1}{\sigma}$, $b = -\frac{\mu}{\sigma}$ として

$$E(Z) = \frac{1}{\sigma} E(X) - \frac{\mu}{\sigma} = \frac{\mu}{\sigma} - \frac{\mu}{\sigma} = 0$$

$$V(Z) = \frac{1}{\sigma^2} V(X) = \frac{\sigma^2}{\sigma^2} = 1$$

解説

$Z$ は期待値0、分散1を持ちます。つまり、元の確率変数 $X$ がどのような期待値・分散を持っていても、標準化により「中心が0、ばらつきが1」の共通の尺度に変換されます。これにより異なる分布を同じスケールで比較できるようになります。この変換は 📖 第12章 §4 で中心極限定理を述べる際に不可欠な道具となります。