第9章 統計的な推測

統計的な推測の総合問題
─ 第9章の集大成

本記事は第9章「統計的な推測」の最終回として、確率分布・二項分布と正規分布・標本平均の分布・区間推定・仮説検定を横断する総合問題に取り組みます。入試では複数のテーマが融合した問題が出題されます。これまでの知識を整理し、体系的に使いこなす力を養いましょう。

1第9章の全体像と知識の整理

まず第9章で学んだ内容を一覧で振り返り、各テーマの繋がりを確認します。

第9章の公式・手法一覧

確率変数:$E(X) = \sum x_i p_i$、$V(X) = E(X^2) - \{E(X)\}^2$、$\sigma(X) = \sqrt{V(X)}$

aX+b の変換:$E(aX+b) = aE(X)+b$、$V(aX+b) = a^2 V(X)$

二項分布:$X \sim B(n, p)$ → $E(X) = np$、$V(X) = np(1-p)$

正規分布:$X \sim N(\mu, \sigma^2)$ → 標準化 $Z = \frac{X-\mu}{\sigma}$

標本平均:$E(\bar{X}) = \mu$、$V(\bar{X}) = \frac{\sigma^2}{n}$

信頼区間:$\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$

検定統計量:$Z_0 = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}$ または $Z_0 = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$

入試における統計分野の位置づけ

統計的な推測は入試で以下の特徴があります。

1. 出題パターンが比較的限られており、対策がしやすい

2. 正規分布表の読み取りや確率計算が正確にできるかが問われる

3. 公式の使い分け(推定 vs 検定、$\hat{p}$ vs $p_0$)が頻出の論点

4. 記述問題では検定の手順を正しく述べることが重要

テーマ よく使う道具 典型問題
確率分布 $E(X)$、$V(X)$の計算 確率分布表の作成、期待値・分散の計算
二項分布 $B(n,p)$、正規近似 二項分布の確率計算、正規近似
正規分布 標準化、正規分布表 確率の計算、逆問題
区間推定 $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$ 信頼区間の計算、必要標本サイズ
仮説検定 検定統計量、棄却域 母比率・母平均の検定

2確率分布と正規分布の融合

二項分布の正規近似は、統計的推測の基礎となる重要なテーマです。二項分布 $B(n, p)$ で $n$ が大きいとき、$X$ はおよそ $N(np, np(1-p))$ に従います。

二項分布から正規近似への流れ

二項分布の正規近似

$X \sim B(n, p)$ のとき、$n$ が十分大きければ

$$X \approx N(np, np(1-p))$$

標準化すると $Z = \frac{X - np}{\sqrt{np(1-p)}} \approx N(0, 1)$

目安:$np \geq 5$ かつ $n(1-p) \geq 5$ のとき正規近似が使えます。

融合問題の例

ある製品の不良品率は $5\%$ である。$400$ 個を検査するとき、不良品の個数 $X$ について以下を求めよ。

解答の流れ

$X \sim B(400, 0.05)$。$E(X) = 400 \times 0.05 = 20$、$V(X) = 400 \times 0.05 \times 0.95 = 19$。

$np = 20 \geq 5$、$n(1-p) = 380 \geq 5$ なので正規近似が使える。

$X \approx N(20, 19)$ より、$\sigma = \sqrt{19} \approx 4.359$。

$P(X \leq 25)$ を求めるとき:$Z = \frac{25 - 20}{\sqrt{19}} = \frac{5}{4.359} \approx 1.147$

正規分布表より $P(Z \leq 1.15) \approx 0.8749$。よって $P(X \leq 25) \approx 0.875$。

正規近似における計算のコツ

$\sqrt{np(1-p)}$ の計算が煩雑になることが多いので、$np(1-p)$ を先に計算してから平方根をとりましょう。

例:$n = 400, p = 0.05$ → $np(1-p) = 400 \times 0.05 \times 0.95 = 19$ → $\sqrt{19} \approx 4.36$

確率変数の和と分散

独立な確率変数 $X_1, X_2, \ldots, X_n$ の和 $S = X_1 + X_2 + \cdots + X_n$ について

$$E(S) = \sum E(X_i), \quad V(S) = \sum V(X_i)$$

が成り立ちます。これは標本平均の分散 $V(\bar{X}) = \frac{\sigma^2}{n}$ の導出にも使われます。

分散の加法性の条件

誤:$V(X + Y) = V(X) + V(Y)$ は常に成り立つ

正:$X$ と $Y$ が独立のときのみ成り立つ

期待値の加法性 $E(X + Y) = E(X) + E(Y)$ は常に成り立ちますが、分散の加法性には独立性が必要です。

3標本調査と推定の融合

母集団から標本を抽出し、その標本データから母集団の特性値を推定する一連の流れを整理します。

母集団 → 標本 → 推定の流れ

統計的推測の全体の流れ

Step 1(設計):母集団を定め、必要な標本サイズを決める

Step 2(抽出):無作為抽出で標本 $X_1, \ldots, X_n$ を得る

Step 3(計算):標本平均 $\bar{x}$ や標本比率 $\hat{p}$ を計算する

Step 4(推定):信頼区間 $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$ を求める

Step 5(判断):必要に応じて仮説検定を行う

標本サイズと推定精度の関係

推定の精度(信頼区間の幅)は標本サイズ $n$ に大きく依存します。

標本サイズと信頼区間の幅の関係

$95\%$ 信頼区間の幅 $= 2 \times 1.96 \times \frac{\sigma}{\sqrt{n}} = \frac{3.92\sigma}{\sqrt{n}}$

幅を $\frac{1}{k}$ にするには:$n$ を $k^2$ 倍にする

例:幅を半分にするには $n$ を $4$ 倍、幅を $\frac{1}{3}$ にするには $n$ を $9$ 倍

母比率の推定と標本サイズ

母比率の推定では、$\hat{p}$ が未知のため事前に標本サイズを決めにくいことがあります。$\hat{p}(1-\hat{p})$ は $\hat{p} = 0.5$ のとき最大値 $0.25$ をとるので、最も保守的な(幅が最大の)見積もりとして $\hat{p} = 0.5$ を使います。

標本サイズの事前設計

$95\%$ 信頼区間の幅を $d$ 以下にしたいとき、母比率の推定に必要な最小標本サイズは

$$n \geq \left(\frac{1.96}{d}\right)^2 \times \hat{p}(1-\hat{p})$$

$\hat{p}$ が不明な場合は $\hat{p} = 0.5$ として $n \geq \left(\frac{1.96}{d}\right)^2 \times 0.25 = \frac{0.9604}{d^2}$ とします。

4推定と検定の融合

推定と検定は表裏一体の関係にあります。この関係を理解することで、どちらの手法を使うべきかを適切に判断できます。

推定と検定の対応関係

推定と検定の同値関係

次の2つは同値です:

推定の視点:信頼度 $(1-\alpha)$ の信頼区間に $\mu_0$ が含まれない

検定の視点:有意水準 $\alpha$ の両側検定で $H_0$:$\mu = \mu_0$ を棄却する

この対応は母平均・母比率の両方で成り立ちます。

使い分けの指針

場面 適切な手法 理由
母平均がどの範囲にあるか知りたい 区間推定 具体的な範囲が得られる
特定の値と異なるか判断したい 仮説検定 Yes/No の明確な判断が得られる
変化の方向を知りたい 片側検定 + 推定 方向性と範囲の両方がわかる

融合問題のアプローチ

総合問題を解くための3つの視点

視点1:何が母数($\mu$ or $p$)で、何が標本統計量($\bar{x}$ or $\hat{p}$)かを明確にする

視点2:$\sigma$ 既知の場合は標準正規分布 $N(0,1)$ を使う

視点3:推定なら $\hat{p}$ を分母に、検定なら $p_0$ を分母に使う(母比率の場合)

推定と検定で分母が変わる

誤:推定でも検定でも $\hat{p}$ を使う

正:推定では $\hat{p}$、検定では $p_0$ を分母に使う

推定は標本データから区間を構成するので $\hat{p}$ を使います。検定は帰無仮説 $H_0$ のもとでの分布を考えるので $p_0$ を使います。

5総合問題の攻略戦略

入試問題の分類と対策

統計的な推測の入試問題は、大きく次の3つに分類できます。

  1. 計算問題:信頼区間や検定統計量の計算。公式の正確な適用が鍵。
  2. 論述問題:検定の手順を記述する、信頼区間の解釈を説明する。論理的な文章力が求められる。
  3. 融合問題:確率分布 → 正規近似 → 推定・検定 と複数ステップにまたがる問題。全体の流れを見通す力が必要。
答案作成の鉄則

1. 使用する公式を最初に明示する

2. 代入する数値を一行で整理する($\bar{x} = \ldots$、$\sigma = \ldots$、$n = \ldots$)

3. 検定問題では5ステップを省略しない

4. 最終結果は日本語で明確に結論を述べる

覚えておくべき数値

記号 使用場面
$z_{0.025}$ $1.96$ 95%信頼区間、5%両側検定
$z_{0.005}$ $2.576$ 99%信頼区間、1%両側検定
$z_{0.05}$ $1.645$ 5%片側検定
$z_{0.01}$ $2.326$ 1%片側検定
第9章を貫く核心的な考え方

統計的推測のすべてのテーマは「標本から母集団について判断する」という1つの目的に集約されます。

確率分布は判断の道具、正規分布は近似の道具、推定と検定は判断の方法です。この構造を理解していれば、どんな問題も同じ枠組みで解くことができます。

*まとめ

  • 確率分布の基礎:$E(X), V(X)$ の計算。$E(aX+b) = aE(X)+b$、$V(aX+b)=a^2V(X)$。二項分布 $B(n,p)$ の期待値 $np$、分散 $np(1-p)$。
  • 正規近似:$B(n,p)$ で $n$ が大きいとき $N(np, np(1-p))$ に近似。標本平均 $\bar{X}$ も正規分布に従う(中心極限定理)。
  • 信頼区間:母平均 $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$、母比率 $\hat{p} \pm z \cdot \sqrt{\hat{p}(1-\hat{p})/n}$。幅は $\frac{1}{\sqrt{n}}$ に比例。
  • 仮説検定:$H_0/H_1$ 設定 → 有意水準 → 検定統計量 → 棄却域 → 結論。両側と片側の使い分けに注意。
  • 推定と検定の関係:有意水準 $\alpha$ の両側検定で棄却 $\Leftrightarrow$ 信頼度 $(1-\alpha)$ の信頼区間に $\mu_0$ が含まれない。

確認テスト

Q1. $X \sim B(100, 0.3)$ のとき、$E(X)$ と $V(X)$ を求めよ。

▶ クリックして解答を表示 $E(X) = 100 \times 0.3 = 30$、$V(X) = 100 \times 0.3 \times 0.7 = 21$。

Q2. 母平均の信頼区間と母比率の検定で、分母に使う値はそれぞれ何か。

▶ クリックして解答を表示 母平均の信頼区間では $\sigma$(母標準偏差)を使い、母比率の検定では $p_0$(帰無仮説の値)を使う。母比率の信頼区間では $\hat{p}$ を使う。

Q3. $95\%$ 信頼区間の幅を $\frac{1}{4}$ にするには、標本サイズを何倍にすればよいか。

▶ クリックして解答を表示 $16$ 倍。幅は $\frac{1}{\sqrt{n}}$ に比例するので、幅を $\frac{1}{4}$ にするには $n$ を $4^2 = 16$ 倍にする。

Q4. 有意水準 $5\%$ の両側検定で $H_0$ を棄却できなかった。このとき $95\%$ 信頼区間について何がいえるか。

▶ クリックして解答を表示 $95\%$ 信頼区間に帰無仮説で仮定した値 $\mu_0$(または $p_0$)が含まれる。棄却しない $\Leftrightarrow$ 信頼区間に含まれる。

Q5. 独立な確率変数 $X, Y$ について $V(X+Y) = V(X) + V(Y)$ が成り立つ理由を述べよ。

▶ クリックして解答を表示 $V(X+Y) = E\{(X+Y)^2\} - \{E(X+Y)\}^2$ を展開すると、独立のとき $E(XY) = E(X)E(Y)$ となるため共分散の項が $0$ になり、$V(X) + V(Y)$ に等しくなる。

入試問題演習

問題 1 A 基礎 二項分布+正規近似

ある試験の合格率は $60\%$ である。受験者 $225$ 人のうち、合格者数を $X$ とするとき、以下を求めよ。

(1) $X$ の期待値と標準偏差を求めよ。

(2) $X$ が $150$ 人以上となる確率を正規近似で求めよ。

解答

(1) $X \sim B(225, 0.6)$ より

$E(X) = 225 \times 0.6 = 135$

$V(X) = 225 \times 0.6 \times 0.4 = 54$

$\sigma(X) = \sqrt{54} = 3\sqrt{6} \approx 7.35$

(2) 正規近似 $X \approx N(135, 54)$ を用いる。

$$P(X \geq 150) = P\!\left(Z \geq \frac{150 - 135}{\sqrt{54}}\right) = P\!\left(Z \geq \frac{15}{7.35}\right) = P(Z \geq 2.04)$$

正規分布表より $P(Z \leq 2.04) \approx 0.9793$

$$P(X \geq 150) = 1 - 0.9793 = 0.0207$$

よって約 $2.1\%$。

▶ 解答を見る
問題 2 B 標準 推定+検定の融合

ある市の世帯年収は母標準偏差 $\sigma = 80$ 万円であることがわかっている。無作為に $256$ 世帯を調査したところ、標本平均は $\bar{x} = 520$ 万円であった。

(1) 母平均 $\mu$ の $95\%$ 信頼区間を求めよ。

(2) 全国平均が $510$ 万円のとき、この市の平均年収は全国平均と異なるといえるか。有意水準 $5\%$ で検定せよ。

(3) (1) の結果から (2) の検定結果を直接読み取れることを説明せよ。

解答

(1) $520 \pm 1.96 \times \frac{80}{\sqrt{256}} = 520 \pm 1.96 \times 5 = 520 \pm 9.8$

$$\therefore \quad 510.2 \leq \mu \leq 529.8 \quad \text{(万円)}$$

(2) $H_0$:$\mu = 510$、$H_1$:$\mu \neq 510$

$$Z_0 = \frac{520 - 510}{80/\sqrt{256}} = \frac{10}{5} = 2.0$$

$|Z_0| = 2.0 > 1.96$ → 棄却域に入る。$H_0$ を棄却。

有意水準 $5\%$ でこの市の平均年収は全国平均と異なるといえる。

(3) $95\%$ 信頼区間は $[510.2, 529.8]$ であり、$\mu_0 = 510$ はこの区間に含まれない($510 < 510.2$)。よって有意水準 $5\%$ の両側検定で $H_0$:$\mu = 510$ は棄却される。信頼区間に帰無仮説の値が含まれないことと、検定で棄却されることは同値である。

解説

$\mu_0 = 510$ が信頼区間の境界 $510.2$ のすぐ外にあるため、検定統計量 $Z_0 = 2.0$ も棄却域の境界 $1.96$ のすぐ外です。このように推定と検定の結果は常に一致します。

▶ 解答を見る
問題 3 B 標準 母比率の推定+検定

ある商品の市場シェアは以前 $25\%$ であった。マーケティング施策後、$400$ 人を無作為に調査したところ $120$ 人がこの商品を使用していた。

(1) 市場シェアの $95\%$ 信頼区間を求めよ。

(2) 市場シェアは増加したといえるか。有意水準 $5\%$ で片側検定を行え。

(3) 市場シェアの $95\%$ 信頼区間の幅を $0.04$ 以下にするには何人以上を調査すればよいか。

解答

(1) $\hat{p} = \frac{120}{400} = 0.3$

$$0.3 \pm 1.96\sqrt{\frac{0.3 \times 0.7}{400}} = 0.3 \pm 1.96 \times \frac{\sqrt{0.21}}{20}$$

$\sqrt{0.21} \approx 0.4583$ より $\frac{0.4583}{20} = 0.02291$

$$0.3 \pm 1.96 \times 0.02291 = 0.3 \pm 0.0449$$

$$\therefore \quad 0.255 \leq p \leq 0.345$$

(2) $H_0$:$p = 0.25$、$H_1$:$p > 0.25$(右片側検定)

$$Z_0 = \frac{0.3 - 0.25}{\sqrt{\frac{0.25 \times 0.75}{400}}} = \frac{0.05}{\sqrt{0.000469}} = \frac{0.05}{0.02165} \approx 2.309$$

右片側の棄却域 $Z_0 > 1.645$。$Z_0 = 2.309 > 1.645$ → 棄却。

有意水準 $5\%$ で市場シェアは増加したといえる。

(3) 幅 $= 2 \times 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq 0.04$

$\hat{p} = 0.3$ を用いると

$$1.96 \sqrt{\frac{0.21}{n}} \leq 0.02$$

$$\sqrt{\frac{0.21}{n}} \leq \frac{0.02}{1.96} = 0.01020$$

$$\frac{0.21}{n} \leq 0.0001041$$

$$n \geq \frac{0.21}{0.0001041} \approx 2017.3$$

$$\therefore \quad n \geq 2018 \text{ 人}$$

▶ 解答を見る
問題 4 C 発展 確率分布+推定+検定の総合

ある工場で生産される部品の寸法 $X$ は平均 $\mu$、標準偏差 $\sigma = 0.4$ mm の正規分布に従う。規格値は $10.0 \pm 0.8$ mm($9.2$ mm 以上 $10.8$ mm 以下)である。

(1) $\mu = 10.0$ のとき、1つの部品が規格内に収まる確率を求めよ。

(2) 無作為に $100$ 個を抽出したところ $\bar{x} = 10.06$ であった。$\mu$ の $95\%$ 信頼区間を求めよ。

(3) $\mu = 10.0$ であるかどうかを有意水準 $5\%$ で両側検定せよ。

(4) (1) の規格内確率を $99.7\%$ 以上にするためには、標準偏差 $\sigma$ をいくつ以下にすればよいか。ただし $\mu = 10.0$ とする。

解答

(1) $X \sim N(10.0, 0.16)$ のとき

$$P(9.2 \leq X \leq 10.8) = P\!\left(\frac{9.2-10.0}{0.4} \leq Z \leq \frac{10.8-10.0}{0.4}\right) = P(-2 \leq Z \leq 2)$$

$= 2 \times P(0 \leq Z \leq 2) = 2 \times 0.4772 = 0.9544$

よって規格内確率は約 $95.4\%$。

(2) $10.06 \pm 1.96 \times \frac{0.4}{\sqrt{100}} = 10.06 \pm 1.96 \times 0.04 = 10.06 \pm 0.0784$

$$\therefore \quad 9.9816 \leq \mu \leq 10.1384$$

(3) $H_0$:$\mu = 10.0$、$H_1$:$\mu \neq 10.0$

$$Z_0 = \frac{10.06 - 10.0}{0.4/\sqrt{100}} = \frac{0.06}{0.04} = 1.5$$

$|Z_0| = 1.5 < 1.96$ → 棄却域に入らない。

$H_0$ を棄却しない。有意水準 $5\%$ で $\mu = 10.0$ と異なるとはいえない。

(確認:$95\%$ 信頼区間 $[9.9816, 10.1384]$ に $\mu_0 = 10.0$ が含まれており、検定結果と一致。)

(4) $P(-z \leq Z \leq z) \geq 0.997$ より $z \geq 3$($3\sigma$ ルール)

$\frac{0.8}{\sigma} \geq 3$ より $\sigma \leq \frac{0.8}{3} \approx 0.267$ mm

$$\therefore \quad \sigma \leq \frac{4}{15} \approx 0.267 \text{ mm}$$

解説

この問題は正規分布の確率計算、区間推定、仮説検定、品質管理($3\sigma$ ルール)を横断する総合問題です。(2)(3) の結果が推定と検定の対応関係を示していること、(4) は正規分布の性質($3\sigma$ 以内に $99.7\%$)を品質管理に応用する問題です。統計的推測の知識を総合的に活用する力が問われます。

採点のポイント
  • (1) 標準化の計算と正規分布表の読み取り(3点)
  • (2) 信頼区間の公式の適用(3点)
  • (3) 検定の5ステップと結論(4点)
  • (4) $3\sigma$ ルールの適用と $\sigma$ の算出(3点)
▶ 解答を見る