本記事は第9章「統計的な推測」の最終回として、確率分布・二項分布と正規分布・標本平均の分布・区間推定・仮説検定を横断する総合問題に取り組みます。入試では複数のテーマが融合した問題が出題されます。これまでの知識を整理し、体系的に使いこなす力を養いましょう。
まず第9章で学んだ内容を一覧で振り返り、各テーマの繋がりを確認します。
確率変数:$E(X) = \sum x_i p_i$、$V(X) = E(X^2) - \{E(X)\}^2$、$\sigma(X) = \sqrt{V(X)}$
aX+b の変換:$E(aX+b) = aE(X)+b$、$V(aX+b) = a^2 V(X)$
二項分布:$X \sim B(n, p)$ → $E(X) = np$、$V(X) = np(1-p)$
正規分布:$X \sim N(\mu, \sigma^2)$ → 標準化 $Z = \frac{X-\mu}{\sigma}$
標本平均:$E(\bar{X}) = \mu$、$V(\bar{X}) = \frac{\sigma^2}{n}$
信頼区間:$\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$
検定統計量:$Z_0 = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}$ または $Z_0 = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$
統計的な推測は入試で以下の特徴があります。
1. 出題パターンが比較的限られており、対策がしやすい
2. 正規分布表の読み取りや確率計算が正確にできるかが問われる
3. 公式の使い分け(推定 vs 検定、$\hat{p}$ vs $p_0$)が頻出の論点
4. 記述問題では検定の手順を正しく述べることが重要
| テーマ | よく使う道具 | 典型問題 |
|---|---|---|
| 確率分布 | $E(X)$、$V(X)$の計算 | 確率分布表の作成、期待値・分散の計算 |
| 二項分布 | $B(n,p)$、正規近似 | 二項分布の確率計算、正規近似 |
| 正規分布 | 標準化、正規分布表 | 確率の計算、逆問題 |
| 区間推定 | $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$ | 信頼区間の計算、必要標本サイズ |
| 仮説検定 | 検定統計量、棄却域 | 母比率・母平均の検定 |
二項分布の正規近似は、統計的推測の基礎となる重要なテーマです。二項分布 $B(n, p)$ で $n$ が大きいとき、$X$ はおよそ $N(np, np(1-p))$ に従います。
$X \sim B(n, p)$ のとき、$n$ が十分大きければ
$$X \approx N(np, np(1-p))$$
標準化すると $Z = \frac{X - np}{\sqrt{np(1-p)}} \approx N(0, 1)$
目安:$np \geq 5$ かつ $n(1-p) \geq 5$ のとき正規近似が使えます。
ある製品の不良品率は $5\%$ である。$400$ 個を検査するとき、不良品の個数 $X$ について以下を求めよ。
$X \sim B(400, 0.05)$。$E(X) = 400 \times 0.05 = 20$、$V(X) = 400 \times 0.05 \times 0.95 = 19$。
$np = 20 \geq 5$、$n(1-p) = 380 \geq 5$ なので正規近似が使える。
$X \approx N(20, 19)$ より、$\sigma = \sqrt{19} \approx 4.359$。
$P(X \leq 25)$ を求めるとき:$Z = \frac{25 - 20}{\sqrt{19}} = \frac{5}{4.359} \approx 1.147$
正規分布表より $P(Z \leq 1.15) \approx 0.8749$。よって $P(X \leq 25) \approx 0.875$。
$\sqrt{np(1-p)}$ の計算が煩雑になることが多いので、$np(1-p)$ を先に計算してから平方根をとりましょう。
例:$n = 400, p = 0.05$ → $np(1-p) = 400 \times 0.05 \times 0.95 = 19$ → $\sqrt{19} \approx 4.36$
独立な確率変数 $X_1, X_2, \ldots, X_n$ の和 $S = X_1 + X_2 + \cdots + X_n$ について
$$E(S) = \sum E(X_i), \quad V(S) = \sum V(X_i)$$が成り立ちます。これは標本平均の分散 $V(\bar{X}) = \frac{\sigma^2}{n}$ の導出にも使われます。
誤:$V(X + Y) = V(X) + V(Y)$ は常に成り立つ
正:$X$ と $Y$ が独立のときのみ成り立つ
期待値の加法性 $E(X + Y) = E(X) + E(Y)$ は常に成り立ちますが、分散の加法性には独立性が必要です。
母集団から標本を抽出し、その標本データから母集団の特性値を推定する一連の流れを整理します。
Step 1(設計):母集団を定め、必要な標本サイズを決める
Step 2(抽出):無作為抽出で標本 $X_1, \ldots, X_n$ を得る
Step 3(計算):標本平均 $\bar{x}$ や標本比率 $\hat{p}$ を計算する
Step 4(推定):信頼区間 $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$ を求める
Step 5(判断):必要に応じて仮説検定を行う
推定の精度(信頼区間の幅)は標本サイズ $n$ に大きく依存します。
$95\%$ 信頼区間の幅 $= 2 \times 1.96 \times \frac{\sigma}{\sqrt{n}} = \frac{3.92\sigma}{\sqrt{n}}$
幅を $\frac{1}{k}$ にするには:$n$ を $k^2$ 倍にする
例:幅を半分にするには $n$ を $4$ 倍、幅を $\frac{1}{3}$ にするには $n$ を $9$ 倍
母比率の推定では、$\hat{p}$ が未知のため事前に標本サイズを決めにくいことがあります。$\hat{p}(1-\hat{p})$ は $\hat{p} = 0.5$ のとき最大値 $0.25$ をとるので、最も保守的な(幅が最大の)見積もりとして $\hat{p} = 0.5$ を使います。
$95\%$ 信頼区間の幅を $d$ 以下にしたいとき、母比率の推定に必要な最小標本サイズは
$$n \geq \left(\frac{1.96}{d}\right)^2 \times \hat{p}(1-\hat{p})$$
$\hat{p}$ が不明な場合は $\hat{p} = 0.5$ として $n \geq \left(\frac{1.96}{d}\right)^2 \times 0.25 = \frac{0.9604}{d^2}$ とします。
推定と検定は表裏一体の関係にあります。この関係を理解することで、どちらの手法を使うべきかを適切に判断できます。
次の2つは同値です:
推定の視点:信頼度 $(1-\alpha)$ の信頼区間に $\mu_0$ が含まれない
検定の視点:有意水準 $\alpha$ の両側検定で $H_0$:$\mu = \mu_0$ を棄却する
この対応は母平均・母比率の両方で成り立ちます。
| 場面 | 適切な手法 | 理由 |
|---|---|---|
| 母平均がどの範囲にあるか知りたい | 区間推定 | 具体的な範囲が得られる |
| 特定の値と異なるか判断したい | 仮説検定 | Yes/No の明確な判断が得られる |
| 変化の方向を知りたい | 片側検定 + 推定 | 方向性と範囲の両方がわかる |
視点1:何が母数($\mu$ or $p$)で、何が標本統計量($\bar{x}$ or $\hat{p}$)かを明確にする
視点2:$\sigma$ 既知の場合は標準正規分布 $N(0,1)$ を使う
視点3:推定なら $\hat{p}$ を分母に、検定なら $p_0$ を分母に使う(母比率の場合)
誤:推定でも検定でも $\hat{p}$ を使う
正:推定では $\hat{p}$、検定では $p_0$ を分母に使う
推定は標本データから区間を構成するので $\hat{p}$ を使います。検定は帰無仮説 $H_0$ のもとでの分布を考えるので $p_0$ を使います。
統計的な推測の入試問題は、大きく次の3つに分類できます。
1. 使用する公式を最初に明示する
2. 代入する数値を一行で整理する($\bar{x} = \ldots$、$\sigma = \ldots$、$n = \ldots$)
3. 検定問題では5ステップを省略しない
4. 最終結果は日本語で明確に結論を述べる
| 記号 | 値 | 使用場面 |
|---|---|---|
| $z_{0.025}$ | $1.96$ | 95%信頼区間、5%両側検定 |
| $z_{0.005}$ | $2.576$ | 99%信頼区間、1%両側検定 |
| $z_{0.05}$ | $1.645$ | 5%片側検定 |
| $z_{0.01}$ | $2.326$ | 1%片側検定 |
統計的推測のすべてのテーマは「標本から母集団について判断する」という1つの目的に集約されます。
確率分布は判断の道具、正規分布は近似の道具、推定と検定は判断の方法です。この構造を理解していれば、どんな問題も同じ枠組みで解くことができます。
Q1. $X \sim B(100, 0.3)$ のとき、$E(X)$ と $V(X)$ を求めよ。
Q2. 母平均の信頼区間と母比率の検定で、分母に使う値はそれぞれ何か。
Q3. $95\%$ 信頼区間の幅を $\frac{1}{4}$ にするには、標本サイズを何倍にすればよいか。
Q4. 有意水準 $5\%$ の両側検定で $H_0$ を棄却できなかった。このとき $95\%$ 信頼区間について何がいえるか。
Q5. 独立な確率変数 $X, Y$ について $V(X+Y) = V(X) + V(Y)$ が成り立つ理由を述べよ。
ある試験の合格率は $60\%$ である。受験者 $225$ 人のうち、合格者数を $X$ とするとき、以下を求めよ。
(1) $X$ の期待値と標準偏差を求めよ。
(2) $X$ が $150$ 人以上となる確率を正規近似で求めよ。
(1) $X \sim B(225, 0.6)$ より
$E(X) = 225 \times 0.6 = 135$
$V(X) = 225 \times 0.6 \times 0.4 = 54$
$\sigma(X) = \sqrt{54} = 3\sqrt{6} \approx 7.35$
(2) 正規近似 $X \approx N(135, 54)$ を用いる。
$$P(X \geq 150) = P\!\left(Z \geq \frac{150 - 135}{\sqrt{54}}\right) = P\!\left(Z \geq \frac{15}{7.35}\right) = P(Z \geq 2.04)$$
正規分布表より $P(Z \leq 2.04) \approx 0.9793$
$$P(X \geq 150) = 1 - 0.9793 = 0.0207$$
よって約 $2.1\%$。
ある市の世帯年収は母標準偏差 $\sigma = 80$ 万円であることがわかっている。無作為に $256$ 世帯を調査したところ、標本平均は $\bar{x} = 520$ 万円であった。
(1) 母平均 $\mu$ の $95\%$ 信頼区間を求めよ。
(2) 全国平均が $510$ 万円のとき、この市の平均年収は全国平均と異なるといえるか。有意水準 $5\%$ で検定せよ。
(3) (1) の結果から (2) の検定結果を直接読み取れることを説明せよ。
(1) $520 \pm 1.96 \times \frac{80}{\sqrt{256}} = 520 \pm 1.96 \times 5 = 520 \pm 9.8$
$$\therefore \quad 510.2 \leq \mu \leq 529.8 \quad \text{(万円)}$$
(2) $H_0$:$\mu = 510$、$H_1$:$\mu \neq 510$
$$Z_0 = \frac{520 - 510}{80/\sqrt{256}} = \frac{10}{5} = 2.0$$
$|Z_0| = 2.0 > 1.96$ → 棄却域に入る。$H_0$ を棄却。
有意水準 $5\%$ でこの市の平均年収は全国平均と異なるといえる。
(3) $95\%$ 信頼区間は $[510.2, 529.8]$ であり、$\mu_0 = 510$ はこの区間に含まれない($510 < 510.2$)。よって有意水準 $5\%$ の両側検定で $H_0$:$\mu = 510$ は棄却される。信頼区間に帰無仮説の値が含まれないことと、検定で棄却されることは同値である。
$\mu_0 = 510$ が信頼区間の境界 $510.2$ のすぐ外にあるため、検定統計量 $Z_0 = 2.0$ も棄却域の境界 $1.96$ のすぐ外です。このように推定と検定の結果は常に一致します。
ある商品の市場シェアは以前 $25\%$ であった。マーケティング施策後、$400$ 人を無作為に調査したところ $120$ 人がこの商品を使用していた。
(1) 市場シェアの $95\%$ 信頼区間を求めよ。
(2) 市場シェアは増加したといえるか。有意水準 $5\%$ で片側検定を行え。
(3) 市場シェアの $95\%$ 信頼区間の幅を $0.04$ 以下にするには何人以上を調査すればよいか。
(1) $\hat{p} = \frac{120}{400} = 0.3$
$$0.3 \pm 1.96\sqrt{\frac{0.3 \times 0.7}{400}} = 0.3 \pm 1.96 \times \frac{\sqrt{0.21}}{20}$$
$\sqrt{0.21} \approx 0.4583$ より $\frac{0.4583}{20} = 0.02291$
$$0.3 \pm 1.96 \times 0.02291 = 0.3 \pm 0.0449$$
$$\therefore \quad 0.255 \leq p \leq 0.345$$
(2) $H_0$:$p = 0.25$、$H_1$:$p > 0.25$(右片側検定)
$$Z_0 = \frac{0.3 - 0.25}{\sqrt{\frac{0.25 \times 0.75}{400}}} = \frac{0.05}{\sqrt{0.000469}} = \frac{0.05}{0.02165} \approx 2.309$$
右片側の棄却域 $Z_0 > 1.645$。$Z_0 = 2.309 > 1.645$ → 棄却。
有意水準 $5\%$ で市場シェアは増加したといえる。
(3) 幅 $= 2 \times 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq 0.04$
$\hat{p} = 0.3$ を用いると
$$1.96 \sqrt{\frac{0.21}{n}} \leq 0.02$$
$$\sqrt{\frac{0.21}{n}} \leq \frac{0.02}{1.96} = 0.01020$$
$$\frac{0.21}{n} \leq 0.0001041$$
$$n \geq \frac{0.21}{0.0001041} \approx 2017.3$$
$$\therefore \quad n \geq 2018 \text{ 人}$$
ある工場で生産される部品の寸法 $X$ は平均 $\mu$、標準偏差 $\sigma = 0.4$ mm の正規分布に従う。規格値は $10.0 \pm 0.8$ mm($9.2$ mm 以上 $10.8$ mm 以下)である。
(1) $\mu = 10.0$ のとき、1つの部品が規格内に収まる確率を求めよ。
(2) 無作為に $100$ 個を抽出したところ $\bar{x} = 10.06$ であった。$\mu$ の $95\%$ 信頼区間を求めよ。
(3) $\mu = 10.0$ であるかどうかを有意水準 $5\%$ で両側検定せよ。
(4) (1) の規格内確率を $99.7\%$ 以上にするためには、標準偏差 $\sigma$ をいくつ以下にすればよいか。ただし $\mu = 10.0$ とする。
(1) $X \sim N(10.0, 0.16)$ のとき
$$P(9.2 \leq X \leq 10.8) = P\!\left(\frac{9.2-10.0}{0.4} \leq Z \leq \frac{10.8-10.0}{0.4}\right) = P(-2 \leq Z \leq 2)$$
$= 2 \times P(0 \leq Z \leq 2) = 2 \times 0.4772 = 0.9544$
よって規格内確率は約 $95.4\%$。
(2) $10.06 \pm 1.96 \times \frac{0.4}{\sqrt{100}} = 10.06 \pm 1.96 \times 0.04 = 10.06 \pm 0.0784$
$$\therefore \quad 9.9816 \leq \mu \leq 10.1384$$
(3) $H_0$:$\mu = 10.0$、$H_1$:$\mu \neq 10.0$
$$Z_0 = \frac{10.06 - 10.0}{0.4/\sqrt{100}} = \frac{0.06}{0.04} = 1.5$$
$|Z_0| = 1.5 < 1.96$ → 棄却域に入らない。
$H_0$ を棄却しない。有意水準 $5\%$ で $\mu = 10.0$ と異なるとはいえない。
(確認:$95\%$ 信頼区間 $[9.9816, 10.1384]$ に $\mu_0 = 10.0$ が含まれており、検定結果と一致。)
(4) $P(-z \leq Z \leq z) \geq 0.997$ より $z \geq 3$($3\sigma$ ルール)
$\frac{0.8}{\sigma} \geq 3$ より $\sigma \leq \frac{0.8}{3} \approx 0.267$ mm
$$\therefore \quad \sigma \leq \frac{4}{15} \approx 0.267 \text{ mm}$$
この問題は正規分布の確率計算、区間推定、仮説検定、品質管理($3\sigma$ ルール)を横断する総合問題です。(2)(3) の結果が推定と検定の対応関係を示していること、(4) は正規分布の性質($3\sigma$ 以内に $99.7\%$)を品質管理に応用する問題です。統計的推測の知識を総合的に活用する力が問われます。