統計的推測では、全体(母集団)の性質を一部のデータ(標本)から推定します。本記事では母集団・標本の基本概念と、標本平均 $\bar{X}$ の期待値・分散を学びます。さらに中心極限定理により、$n$ が大きいとき $\bar{X}$ が近似的に正規分布に従うことを理解します。
テレビの視聴率調査を想像してください。全国のすべての世帯を調べることは現実的に不可能です。そこで、一部の世帯を選んで調査し、全体の傾向を推測します。これが統計的推測の基本的な考え方です。
母集団:調査対象となる集団全体
母集団の大きさ:母集団に含まれる要素の総数 $N$
標本(サンプル):母集団から抽出された一部のデータ
標本の大きさ(サンプルサイズ):標本に含まれるデータの個数 $n$
無作為抽出(ランダムサンプリング):母集団のどの要素も等しい確率で選ばれるような抽出方法
偏った方法で標本を選ぶと、母集団の性質を正しく推定できません。例えば「都市部の世帯だけ」を調べると地方の傾向が反映されません。
無作為抽出により、標本が母集団を代表するようになり、確率論に基づく信頼性のある推定が可能になります。
標本を取り出す方法には2種類あります。
| 抽出方法 | 内容 | 特徴 |
|---|---|---|
| 復元抽出 | 取り出したものを戻してから次を取る | 各回の抽出が独立。理論的に扱いやすい |
| 非復元抽出 | 取り出したものを戻さない | 実際の調査に多い。$N$ が十分大きければ復元抽出と近似的に同じ |
高校の教科書では、特に断りがない限り復元抽出(または母集団が十分大きい非復元抽出)を前提とします。
これにより $X_1, X_2, \ldots, X_n$ が互いに独立で同じ分布に従うと仮定でき、理論が簡潔になります。
母集団の各要素に対応する確率変数の分布を母集団分布と呼びます。母集団分布を特徴づける値(平均や分散など)を母数(パラメータ)と呼びます。
母平均:$\mu = E(X)$(母集団分布の期待値)
母分散:$\sigma^2 = V(X)$(母集団分布の分散)
母標準偏差:$\sigma = \sqrt{V(X)}$
※ 母数は母集団全体から決まる「真の値」であり、通常は未知です。標本から推定するのが統計的推測の目標です。
問題:袋の中に $1, 2, 3, 4, 5$ と書かれた球が1個ずつ入っている。この母集団の母平均 $\mu$ と母分散 $\sigma^2$ を求めよ。
解:各球が選ばれる確率は $\frac{1}{5}$。
$\mu = E(X) = \frac{1+2+3+4+5}{5} = \frac{15}{5} = 3$
$E(X^2) = \frac{1^2 + 2^2 + 3^2 + 4^2 + 5^2}{5} = \frac{55}{5} = 11$
$\sigma^2 = V(X) = E(X^2) - \{E(X)\}^2 = 11 - 9 = 2$
母分散 $\sigma^2$ と標本分散 $S^2$ を混同する
母分散 $\sigma^2$ は母集団全体から決まる真の値。標本分散 $S^2$ は標本から計算される値で、$\sigma^2$ の推定に使う
記号の区別:母数はギリシャ文字($\mu, \sigma^2$)、標本統計量はラテン文字($\bar{X}, S^2$)を使うのが慣例です。
母集団から大きさ $n$ の無作為標本 $X_1, X_2, \ldots, X_n$ を抽出したとき、標本平均 $\bar{X}$ は次のように定義されます。
$$\bar{X} = \frac{X_1 + X_2 + \cdots + X_n}{n} = \frac{1}{n} \sum_{i=1}^{n} X_i$$
$\bar{X}$ は確率変数です。標本の取り方によって値が変わります。その期待値と分散を求めましょう。
母集団分布の平均を $\mu$、分散を $\sigma^2$ とするとき:
$$E(\bar{X}) = \mu$$
$$V(\bar{X}) = \frac{\sigma^2}{n}$$
$$\sigma(\bar{X}) = \frac{\sigma}{\sqrt{n}}$$
※ 標本平均の期待値は母平均に等しく(不偏性)、分散は標本の大きさ $n$ に反比例して小さくなります。
$X_1, X_2, \ldots, X_n$ は互いに独立で、すべて $E(X_i) = \mu$、$V(X_i) = \sigma^2$ を満たす。
期待値:
$E(\bar{X}) = E\left(\frac{1}{n}\sum_{i=1}^{n} X_i\right) = \frac{1}{n} \sum_{i=1}^{n} E(X_i) = \frac{1}{n} \cdot n\mu = \mu$
分散:($X_i$ が互いに独立なので)
$V(\bar{X}) = V\left(\frac{1}{n}\sum_{i=1}^{n} X_i\right) = \frac{1}{n^2} \sum_{i=1}^{n} V(X_i) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n}$
標本の大きさ $n$ を増やすと $\bar{X}$ のばらつきが小さくなります。これは直感的にも納得できます:多くのデータを集めるほど、平均値は安定して母平均 $\mu$ に近づきます。
例えば $n$ を $4$ 倍にすると、$\bar{X}$ の標準偏差は $\frac{1}{2}$ になります($\frac{\sigma}{\sqrt{4n}} = \frac{\sigma}{2\sqrt{n}}$)。
問題:母平均 $\mu = 50$、母標準偏差 $\sigma = 10$ の母集団から大きさ $n = 25$ の無作為標本を取るとき、標本平均 $\bar{X}$ の期待値と標準偏差を求めよ。
解:$E(\bar{X}) = \mu = 50$
$\sigma(\bar{X}) = \frac{\sigma}{\sqrt{n}} = \frac{10}{\sqrt{25}} = \frac{10}{5} = 2$
標本平均 $\bar{X}$ は期待値 $50$、標準偏差 $2$ となります。
統計学の最も重要な定理の一つが中心極限定理です。母集団がどのような分布であっても、標本の大きさ $n$ が十分大きければ、標本平均は近似的に正規分布に従います。
母平均 $\mu$、母分散 $\sigma^2$ の母集団から大きさ $n$ の無作為標本を取るとき、$n$ が十分大きければ:
$$\bar{X} \approx N\left(\mu, \; \frac{\sigma^2}{n}\right)$$
すなわち $Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}$ は近似的に $N(0, 1)$ に従う。
※ 母集団分布が正規分布 $N(\mu, \sigma^2)$ の場合は、$n$ の大きさによらず $\bar{X}$ は正確に $N\left(\mu, \frac{\sigma^2}{n}\right)$ に従います。
母集団の分布が何であっても成り立つという点が画期的です。
母集団が一様分布でも、二項分布でも、歪んだ分布でも、標本の大きさ $n$ が十分大きければ $\bar{X}$ は正規分布に近づきます。目安として $n \geq 30$ 程度あれば多くの場合十分です。
母集団が $N(\mu, \sigma^2)$ に従う場合は特別で、任意の $n$ について($n = 1$ でも)
$$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$$
が正確に成り立ちます。正規分布同士の和はまた正規分布になるという性質(再生性)によるものです。
母集団の大きさ $N$ が大きければ中心極限定理が使える
標本の大きさ $n$ が大きければ中心極限定理が使える
中心極限定理は標本サイズ $n$ に関する定理です。母集団の大きさ $N$ とは無関係です。
中心極限定理により、標本平均 $\bar{X}$ が正規分布に従うことを利用して確率計算ができます。
問題:母平均 $\mu = 170$、母標準偏差 $\sigma = 6$ の母集団から大きさ $n = 36$ の無作為標本を取る。標本平均 $\bar{X}$ が $168$ 以上 $172$ 以下となる確率を求めよ。ただし $P(0 \leq Z \leq 2.0) = 0.4772$ とする。
解:$E(\bar{X}) = 170$、$\sigma(\bar{X}) = \frac{6}{\sqrt{36}} = 1$
$\bar{X} \approx N(170, 1^2)$ より $Z = \frac{\bar{X} - 170}{1} = \bar{X} - 170$
$\bar{X} = 168$:$Z = -2.0$、$\bar{X} = 172$:$Z = 2.0$
$P(168 \leq \bar{X} \leq 172) = P(-2.0 \leq Z \leq 2.0) = 2 \times 0.4772 = 0.9544$
問題:母平均 $\mu = 500$、母標準偏差 $\sigma = 20$ の母集団から無作為標本を取る。$P(|\bar{X} - 500| \leq 5) \geq 0.95$ となる最小の標本の大きさ $n$ を求めよ。ただし $P(0 \leq Z \leq 1.96) = 0.4750$ とする。
解:$P(|\bar{X} - 500| \leq 5) = P\left(|Z| \leq \frac{5}{\frac{20}{\sqrt{n}}}\right) = P\left(|Z| \leq \frac{5\sqrt{n}}{20}\right) = P\left(|Z| \leq \frac{\sqrt{n}}{4}\right)$
$P(|Z| \leq z_0) \geq 0.95$ のとき $2 \cdot P(0 \leq Z \leq z_0) \geq 0.95$ より $P(0 \leq Z \leq z_0) \geq 0.475$
正規分布表から $z_0 \geq 1.96$
$\frac{\sqrt{n}}{4} \geq 1.96$ より $\sqrt{n} \geq 7.84$ より $n \geq 61.47$
よって $n$ の最小値は $62$。
Step 1:$E(\bar{X}) = \mu$、$\sigma(\bar{X}) = \frac{\sigma}{\sqrt{n}}$ を計算
Step 2:$Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}$ でZ変換
Step 3:正規分布表で確率を求める
※ この手順は前回学んだZ変換とまったく同じ流れです。分母が $\sigma$ から $\frac{\sigma}{\sqrt{n}}$ に変わっただけです。
$P\left(|\bar{X} - \mu| \leq 1.96 \times \frac{\sigma}{\sqrt{n}}\right) \approx 0.95$ を変形すると
$$P\left(\bar{X} - 1.96 \times \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + 1.96 \times \frac{\sigma}{\sqrt{n}}\right) \approx 0.95$$
これが次の記事で学ぶ信頼区間の考え方につながります。標本平均 $\bar{X}$ から母平均 $\mu$ の範囲を推定できるのです。
Q1. 母集団から偏りなく標本を取り出す方法を何と呼ぶか。
Q2. 母平均 $\mu = 80$、母分散 $\sigma^2 = 100$ のとき、大きさ $n = 25$ の標本の標本平均 $\bar{X}$ の期待値と分散を求めよ。
Q3. 標本の大きさ $n$ を $4$ 倍にすると、$\bar{X}$ の標準偏差は何倍になるか。
Q4. 中心極限定理が成り立つために必要な条件は「母集団の大きさ $N$ が大きい」ことか「標本の大きさ $n$ が大きい」ことか。
Q5. 母集団が正規分布に従う場合、中心極限定理を使わなくても $\bar{X}$ が正規分布に従うと言える理由は何か。
母平均 $40$、母標準偏差 $12$ の母集団から大きさ $n = 9$ の無作為標本を取る。標本平均 $\bar{X}$ の期待値、分散、標準偏差をそれぞれ求めよ。
$E(\bar{X}) = \mu = 40$
$V(\bar{X}) = \frac{\sigma^2}{n} = \frac{144}{9} = 16$
$\sigma(\bar{X}) = \frac{\sigma}{\sqrt{n}} = \frac{12}{3} = 4$
ある工場の製品の重さは母平均 $200$ g、母標準偏差 $10$ g である。$n = 100$ 個を無作為に抽出したとき、標本平均 $\bar{X}$ が $198$ g 以上 $201$ g 以下となる確率を求めよ。ただし $P(0 \leq Z \leq 1.0) = 0.3413$、$P(0 \leq Z \leq 2.0) = 0.4772$ とする。
$E(\bar{X}) = 200$、$\sigma(\bar{X}) = \frac{10}{\sqrt{100}} = 1$
$\bar{X} = 198$:$Z = \frac{198 - 200}{1} = -2.0$
$\bar{X} = 201$:$Z = \frac{201 - 200}{1} = 1.0$
$P(198 \leq \bar{X} \leq 201) = P(-2.0 \leq Z \leq 1.0)$
$= P(0 \leq Z \leq 2.0) + P(0 \leq Z \leq 1.0) = 0.4772 + 0.3413 = 0.8185$
母標準偏差 $\sigma = 15$ の母集団がある。標本平均 $\bar{X}$ と母平均 $\mu$ の差が $3$ 以内に収まる確率を $95\%$ 以上にしたい。必要な標本の大きさ $n$ の最小値を求めよ。ただし $P(0 \leq Z \leq 1.96) = 0.4750$ とする。
$P(|\bar{X} - \mu| \leq 3) \geq 0.95$ を求める。
$P\left(|Z| \leq \frac{3}{\frac{15}{\sqrt{n}}}\right) = P\left(|Z| \leq \frac{3\sqrt{n}}{15}\right) = P\left(|Z| \leq \frac{\sqrt{n}}{5}\right) \geq 0.95$
$\frac{\sqrt{n}}{5} \geq 1.96$ より $\sqrt{n} \geq 9.8$ より $n \geq 96.04$
よって $n$ の最小値は $97$。
袋の中に $1, 2, 3, 4, 5, 6$ と書かれた球が1個ずつ入っている。この袋から復元抽出で $n$ 個の球を取り出し、その標本平均を $\bar{X}$ とする。
(1) 母平均 $\mu$ と母分散 $\sigma^2$ を求めよ。
(2) $n = 36$ のとき、$P(\bar{X} \geq 4.0)$ を正規分布近似で求めよ。ただし $P(0 \leq Z \leq 1.75) = 0.4599$ とする。
(3) $P(|\bar{X} - \mu| \leq 0.5) \geq 0.99$ を満たす $n$ の最小値を求めよ。ただし $P(0 \leq Z \leq 2.58) = 0.4951$ とする。
(1) $\mu = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = 3.5$
$E(X^2) = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}$
$\sigma^2 = \frac{91}{6} - 3.5^2 = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12}$
(2) $\sigma(\bar{X}) = \frac{\sigma}{\sqrt{n}} = \frac{\sqrt{\frac{35}{12}}}{\sqrt{36}} = \frac{\sqrt{35}}{6\sqrt{12}} = \frac{\sqrt{35}}{12\sqrt{3}} = \frac{\sqrt{35}}{12\sqrt{3}} \cdot \frac{\sqrt{3}}{\sqrt{3}} = \frac{\sqrt{105}}{36}$
$\sigma(\bar{X}) = \sqrt{\frac{35}{12 \times 36}} = \sqrt{\frac{35}{432}} \fallingdotseq \sqrt{0.0810} \fallingdotseq 0.2847$
$Z = \frac{4.0 - 3.5}{0.2847} \fallingdotseq 1.756 \fallingdotseq 1.75$
$P(\bar{X} \geq 4.0) \approx P(Z \geq 1.75) = 0.5 - 0.4599 = 0.0401$
(3) $P\left(|Z| \leq \frac{0.5}{\sqrt{\frac{35}{12n}}}\right) \geq 0.99$ より $\frac{0.5}{\sqrt{\frac{35}{12n}}} \geq 2.58$
$\frac{0.5 \cdot \sqrt{12n}}{\sqrt{35}} \geq 2.58$ より $\sqrt{12n} \geq \frac{2.58\sqrt{35}}{0.5} = 5.16\sqrt{35} \fallingdotseq 30.53$
$12n \geq 932.1$ より $n \geq 77.7$
よって $n$ の最小値は $78$。
離散的な母集団からの標本平均についても中心極限定理が適用できます。(1)で母数を計算し、(2)(3)で標本平均の正規分布近似を利用しています。(3)は信頼区間の幅を指定して必要な標本サイズを求める問題で、次の記事で学ぶ区間推定の準備となる重要な計算です。