高校の数学Bでは、仮説検定を「帰無仮説を立て、有意水準と比較して棄却するかどうかを判断する」手続きとして学びます。
計算手順を追えば答えは出ますが、「なぜこの手続きで結論が出せるのか」「p値とは一体何を表す量なのか」について深く問われることはありません。
大学の統計学では、仮説検定の論理構造を背理法の確率版として捉えます。
帰無仮説が正しいと仮定したとき、観測データ以上に極端な結果が生じる確率がp値です。
この確率が非常に小さければ、「帰無仮説のもとではこのデータは起こりにくい」と判断し、帰無仮説を棄却します。
この論理構造を正確に理解すると、p値にまつわる典型的な誤解(「p値は帰無仮説が正しい確率」など)がなぜ誤りなのかが明確になります。
高校の数学Bでは、仮説検定を次のような手順で学びます。
たとえば、「あるコインが公正かどうか(表が出る確率が $0.5$ かどうか)」を調べるために100回投げたところ、表が65回出たとします。 帰無仮説 $H_0$: $p = 0.5$ のもとで、65回以上表が出る確率を計算し、その確率が有意水準より小さければ「このコインは公正でない」と結論します。
この手順は正しく機能しますが、「なぜ確率が小さいと帰無仮説を棄却してよいのか」「棄却しないとは帰無仮説が正しいという意味なのか」といった問いに対して、手順だけでは十分な答えが得られません。 次のセクションでは、仮説検定の背後にある論理構造を見ていきます。
高校の数学Iで学ぶ背理法は、「命題 $P$ を否定して矛盾を導けば、$P$ が正しい」という論法です。 仮説検定はこの背理法を確率的な状況に拡張したものです。
背理法では矛盾(確率0の事象)を導きますが、現実のデータでは「確率0」のような完全な矛盾は起こりません。 代わりに、「帰無仮説が正しいとしたら、このデータが実現する確率は非常に小さい」という確率的な矛盾を利用します。 「非常に小さい」の基準が有意水準 $\alpha$ であり、この基準を下回る確率を持つデータが観測されたとき、帰無仮説を棄却します。
背理法との決定的な違いは、最後の行にあります。 背理法では矛盾が導かれれば結論は論理的に確実ですが、仮説検定では「確率が小さい」だけであり、帰無仮説が正しいのに偶然データが極端になっている可能性が残ります。 この可能性が第1種の過誤であり、その確率の上限が有意水準 $\alpha$ です。
仮説検定の論理を正確に理解すると、次のことが明確になります。
ここまでで、仮説検定が背理法の確率版であるという全体像を把握しました。 次のセクションでは、この構造を数式で定式化し、検定統計量とp値を厳密に定義します。
セクション2で見た「帰無仮説のもとでデータが極端かどうか」を数値化するために、検定統計量とp値を定義します。
検定統計量とは、観測データを1つの数値に要約したもので、帰無仮説からの「ずれ」を測る尺度です。 高校で学んだ正規分布を用いる検定(母平均の検定)を例にとります。
母平均 $\mu$ に関する帰無仮説 $H_0$: $\mu = \mu_0$ を検定する場合を考えます。 母分散 $\sigma^2$ が既知で、大きさ $n$ の標本の標本平均を $\bar{X}$ とすると、$H_0$ のもとでは 📖 M-12-4 で学んだように、
$$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$$
は標準正規分布 $N(0, 1)$ に従います。この $Z$ が検定統計量です。
$Z$ の意味は明確です。$\bar{X} - \mu_0$ は標本平均と帰無仮説が主張する値との差であり、$\sigma / \sqrt{n}$ は標本平均の標準偏差(標準誤差)です。 したがって、$Z$ は「標本平均が帰無仮説の値から標準誤差の何倍ずれているか」を表しています。
母分散 $\sigma^2$ が既知のとき、帰無仮説 $H_0$: $\mu = \mu_0$ に対する検定統計量は
$$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$$
です。$H_0$ が正しければ $Z \sim N(0, 1)$ です。ここで $\bar{X}$ は標本平均、$n$ は標本の大きさ、$\sigma$ は母標準偏差です。
$|Z|$ が大きいほど、データは帰無仮説から大きくずれていることになります。
検定統計量を定義したので、次にp値を定義します。p値は、セクション2で述べた「帰無仮説のもとでデータが極端である度合い」を確率として定量化したものです。
対立仮説の形によってp値の定義が異なります。両側検定($H_1$: $\mu \ne \mu_0$)の場合を考えます。 観測データから計算した検定統計量の値を $z_{\mathrm{obs}}$ と書くと、p値は次のように定義されます。
帰無仮説 $H_0$ のもとで、観測された検定統計量の値 $z_{\mathrm{obs}}$ 以上に極端な値が得られる確率をp値と定義します。両側検定の場合、
$$p = P(|Z| \ge |z_{\mathrm{obs}}| \mid H_0)$$
ここで $Z \sim N(0, 1)$ です。正規分布の対称性から、
$$p = 2P(Z \ge |z_{\mathrm{obs}}|) = 2\{1 - \Phi(|z_{\mathrm{obs}}|)\}$$
と計算できます。$\Phi$ は標準正規分布の累積分布関数です。
p値は「帰無仮説が正しいという仮定のもとで、実際に観測されたデータと同程度かそれ以上に極端なデータが得られる確率」です。帰無仮説の正しさそのものの確率ではありません。
片側検定の場合も同様に定義できます。たとえば $H_1$: $\mu > \mu_0$ のとき、
$$p = P(Z \ge z_{\mathrm{obs}} \mid H_0) = 1 - \Phi(z_{\mathrm{obs}})$$
です。片側検定では「帰無仮説からの一方向のずれ」のみに注目するため、p値は一方の裾の確率だけで計算されます。
p値を計算したら、あらかじめ定めた有意水準 $\alpha$ と比較します。
有意水準 $\alpha$ は、検定を行う前に(データを見る前に)設定する必要があります。 $\alpha = 0.05$ が慣習的に用いられますが、この値に数学的な必然性はなく、状況に応じて $\alpha = 0.01$ や $\alpha = 0.10$ を使うこともあります。
ここまでで、検定統計量とp値を厳密に定義し、棄却の判定基準を明確にしました。 次のセクションでは、p値の正しい解釈と、それにまつわる典型的な誤解について詳しく見ていきます。
セクション3でp値を「帰無仮説のもとで、観測データ以上に極端な結果が生じる確率」と定義しました。 この定義は正確ですが、しばしば誤って解釈されます。 p値の誤解は、統計学の中で最も広く見られる誤りの1つであり、研究の誤った解釈につながることもあります。
p値の定義を、条件付き確率の言葉で改めて明確にします。 📖 M-12-2 で学んだ条件付き確率の記法を使えば、p値は
$$p = P(\,|Z| \ge |z_{\mathrm{obs}}| \mid H_0\,)$$
と書けます。ここで重要なのは、条件 $H_0$ の部分です。 p値は「$H_0$ が正しいという条件のもとで」計算される確率です。 これは「$H_0$ が正しい確率」そのものとはまったく異なります。
この違いを理解するために、次の類推を考えてみます。
「この人が医師であるとして、大学を卒業している確率」はほぼ $1$ です。 しかし、「この人が大学を卒業しているとして、医師である確率」はずっと小さな値です。 条件付き確率は条件を入れ替えると、一般に値が変わります。 同様に、$P(|Z| \ge |z_{\mathrm{obs}}| \mid H_0)$ と $P(H_0 \mid |Z| \ge |z_{\mathrm{obs}}|)$ はまったく別の量です。
誤解1:「$p = 0.03$ は、帰無仮説が正しい確率が $3\%$ である」
正しい解釈:p値は $P(H_0 \mid \mathrm{data})$ ではなく $P(\mathrm{data} \mid H_0)$ に基づく量です。帰無仮説が正しい確率を求めるにはベイズの定理と事前確率が必要であり、p値だけからは求められません。
誤解2:「$p = 0.03$ は、帰無仮説を棄却して間違っている確率が $3\%$ である」
正しい解釈:p値は「$H_0$ が正しいと仮定したとき」の確率です。棄却が間違っている確率(すなわち $H_0$ が実際に正しい確率)とは異なります。
誤解3:「$p > 0.05$ なら、帰無仮説は正しい」
正しい解釈:$H_0$ を棄却しないことは、$H_0$ が正しいことの証明ではありません。データが $H_0$ を否定する十分な証拠を提供しなかっただけです。
誤解4:「p値が小さいほど、効果が大きい」
正しい解釈:p値は効果の大きさ(effect size)とは別の量です。標本の大きさ $n$ を増やせば、ごく小さな効果でもp値を小さくすることができます。
誤解4を具体的に確認します。検定統計量 $Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$ において、真の母平均が $\mu = \mu_0 + \delta$($\delta$ は帰無仮説からのずれ)であるとします。 このとき、
$$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} \approx \frac{\delta}{\sigma / \sqrt{n}} = \frac{\delta \sqrt{n}}{\sigma}$$
です($\bar{X}$ は真の平均 $\mu = \mu_0 + \delta$ 付近に集中するため)。 この式から、$\delta$ が非常に小さくても、$n$ を十分大きくすれば $|Z|$ を任意に大きくでき、したがってp値を任意に小さくできることがわかります。 つまり、p値の小ささは「効果の大きさ」ではなく「帰無仮説からのずれと標本サイズの組み合わせ」を反映しています。
p値が語ること:帰無仮説が正しいと仮定した場合に、観測データと同程度かそれ以上に極端なデータが生じる確率。つまり、帰無仮説とデータの整合性の度合いです。
p値が語らないこと:帰無仮説が正しい確率、対立仮説が正しい確率、効果の大きさ、結果の再現可能性。これらを知るには、p値以外の情報(効果量、信頼区間、事前確率など)が必要です。
p値の正確な意味を理解した上で、次にこの検定手続き全体の性能を評価する枠組みを見ていきます。 具体的には、検定が犯しうる2種類の誤りとそれらの確率について定式化します。
セクション2で「仮説検定の結論には誤りの可能性がある」と述べました。 この誤りには2種類あり、それぞれが検定の性能を特徴づけます。
検定の結論と現実の組み合わせを整理すると、次の4つの場合が生じます。
| $H_0$ が実際に正しい | $H_0$ が実際に正しくない | |
|---|---|---|
| $H_0$ を棄却 | 第1種の過誤(偽陽性) | 正しい判断 |
| $H_0$ を棄却しない | 正しい判断 | 第2種の過誤(偽陰性) |
第1種の過誤(Type I error):$H_0$ が実際に正しいのに $H_0$ を棄却する誤りです。その確率を $\alpha$ で表します。
$$\alpha = P(\,H_0 \text{ を棄却} \mid H_0 \text{ が正しい}\,)$$
第2種の過誤(Type II error):$H_0$ が実際に正しくないのに $H_0$ を棄却しない誤りです。その確率を $\beta$ で表します。
$$\beta = P(\,H_0 \text{ を棄却しない} \mid H_0 \text{ が正しくない}\,)$$
有意水準として設定する $\alpha$ は、第1種の過誤の確率の上限です。つまり「$H_0$ が正しいときに、誤って棄却してしまう確率が $\alpha$ 以下になるように検定を設計する」ということです。
有意水準 $\alpha$ を小さくすれば第1種の過誤は起こりにくくなりますが、その代わりに第2種の過誤が起こりやすくなります。 直感的には、棄却の基準を厳しくすると「本当に差がある場合」でも見逃しやすくなるということです。
第2種の過誤の確率 $\beta$ と密接に関連する概念が検出力(power)です。
検出力とは、$H_0$ が実際に正しくないときに正しく $H_0$ を棄却する確率です。
$$1 - \beta = P(\,H_0 \text{ を棄却} \mid H_0 \text{ が正しくない}\,)$$
検出力は「本当に差がある場合に、それを検出できる確率」です。検出力が高い検定ほど、実際の差を見逃しにくい検定です。
$Z$ 検定を例に、検出力がどのような要因に依存するかを確認します。 帰無仮説 $H_0$: $\mu = \mu_0$ に対して真の母平均が $\mu = \mu_0 + \delta$($\delta \ne 0$)であるとき、 両側検定の検出力は次のように表されます。
$H_0$ のもとでの棄却域は $|Z| \ge z_{\alpha/2}$($z_{\alpha/2}$ は標準正規分布の上側 $\alpha/2$ 点)です。 真の分布のもとでは $Z$ の平均は $\frac{\delta\sqrt{n}}{\sigma}$ にずれるので、
$$1 - \beta \approx P\!\left(|Z| \ge z_{\alpha/2} \mid \mu = \mu_0 + \delta\right)$$
この近似的な関係から、検出力を高くする要因は次の3つであることがわかります。
実際の研究では、実験の前に「検出したい効果の大きさに対して十分な検出力(慣習的に $0.80$ 以上)を確保するために、標本サイズをいくつにすべきか」を計算します。これを標本サイズ設計(sample size determination)または検出力分析(power analysis)と呼びます。検出力を $1 - \beta = 0.80$、有意水準を $\alpha = 0.05$ と設定し、検出したい最小の効果量 $\delta$ を指定すれば、必要な標本サイズ $n$ が逆算できます。
ここまでで、仮説検定の論理構造(背理法の確率版)、p値の定義と正しい解釈、そして検定の性能を評価する2種類の過誤と検出力の概念を整理しました。 次のセクションでは、これらの概念を具体的な数値例に適用して、検定の全過程を実際にたどってみます。
ある工場で製造される製品の重量は、母標準偏差 $\sigma = 5$ g であることが過去のデータからわかっています。 製品の規格では平均重量が $\mu_0 = 100$ g と定められています。 品質管理のために、無作為に $n = 25$ 個の製品を抽出したところ、標本平均が $\bar{x} = 102.3$ g でした。 この工場の製品の平均重量は規格から外れているといえるかどうか、有意水準 $\alpha = 0.05$ で検定します。
ステップ1:仮説の設定
「外れているかどうか」を問うているので、両側検定を行います。
ステップ2:検定統計量の計算
セクション3で定義した $Z$ 検定の統計量を計算します。
$$z_{\mathrm{obs}} = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{102.3 - 100}{5 / \sqrt{25}} = \frac{2.3}{1} = 2.3$$
標本平均は帰無仮説の値から標準誤差の $2.3$ 倍ずれています。
ステップ3:p値の計算
セクション3で導入したp値の定義を使います。両側検定なので、
$$p = 2\{1 - \Phi(|z_{\mathrm{obs}}|)\} = 2\{1 - \Phi(2.3)\}$$
標準正規分布の累積分布関数の値は $\Phi(2.3) \approx 0.9893$ ですので、
$$p \approx 2 \times (1 - 0.9893) = 2 \times 0.0107 = 0.0214$$
ステップ4:判定
$p \approx 0.021 < 0.05 = \alpha$ なので、$H_0$ を棄却します。 「有意水準 $5\%$ で、この工場の製品の平均重量は規格値 $100$ g と異なるといえる」が結論です。
セクション4で学んだp値の正しい解釈に照らして、この結論を精密に読み解きます。
この検定の設定($n = 25$, $\sigma = 5$, $\alpha = 0.05$)で、真の平均が $\mu = 102$($\delta = 2$)のとき、検出力はどの程度でしょうか。 セクション5の議論に基づいて計算します。
$H_0$ のもとでの両側検定の棄却域は $|Z| \ge z_{0.025} = 1.96$ です。 真の平均が $\mu = 102$ のとき、$Z$ の分布は平均 $\frac{\delta\sqrt{n}}{\sigma} = \frac{2 \times 5}{5} = 2$ の正規分布に近似的に従います。 したがって、$Z' = Z - 2$ とおくと $Z' \sim N(0, 1)$ であり、
$$1 - \beta = P(Z \ge 1.96 \mid \mu = 102) + P(Z \le -1.96 \mid \mu = 102)$$
第1項は $P(Z' \ge 1.96 - 2) = P(Z' \ge -0.04) = \Phi(0.04) \approx 0.516$ です。 第2項は $P(Z' \le -1.96 - 2) = P(Z' \le -3.96) \approx 0.00004$ でほぼ $0$ です。
$$1 - \beta \approx 0.516$$
検出力は約 $51.6\%$ です。つまり、真の平均が $102$ g であっても、この検定ではそれを検出できる確率は約半分にすぎません。 検出力を $80\%$ に高めるには、セクション5で述べたように標本サイズを大きくする必要があります。
目標:$\delta = 2$, $\sigma = 5$, $\alpha = 0.05$ のもとで、検出力 $1 - \beta = 0.80$ を達成する $n$ を求めます。
方針:片側近似を用います。$\delta > 0$ の場合、棄却はほとんど上側で起こるので、$P(Z \ge z_{\alpha/2} \mid \mu = \mu_0 + \delta) \approx 1 - \beta$ と近似します。
ステップ1:$Z$ の真の分布は近似的に $N\!\left(\frac{\delta\sqrt{n}}{\sigma},\, 1\right)$ なので、
$$P(Z \ge z_{\alpha/2}) = P\!\left(Z' \ge z_{\alpha/2} - \frac{\delta\sqrt{n}}{\sigma}\right) = 1 - \beta$$
ここで $Z' \sim N(0, 1)$ です。
ステップ2:$P(Z' \ge -z_\beta) = 1 - \beta$ を満たす $z_\beta$ を用いると、$z_{\alpha/2} - \frac{\delta\sqrt{n}}{\sigma} = -z_\beta$ すなわち
$$\frac{\delta\sqrt{n}}{\sigma} = z_{\alpha/2} + z_\beta$$
ステップ3:$n$ について解くと、
$$n = \left(\frac{\sigma(z_{\alpha/2} + z_\beta)}{\delta}\right)^2$$
計算:$\alpha = 0.05$ より $z_{\alpha/2} = z_{0.025} = 1.96$、$1 - \beta = 0.80$ より $z_\beta = z_{0.20} = 0.84$ です。
$$n = \left(\frac{5 \times (1.96 + 0.84)}{2}\right)^2 = \left(\frac{5 \times 2.80}{2}\right)^2 = 7.0^2 = 49$$
したがって、$n = 49$ 個の標本が必要です。元の $n = 25$ のほぼ2倍の標本サイズが必要であることがわかります。
Q1. 仮説検定を「背理法の確率版」と呼ぶのはなぜですか。背理法との共通点と相違点を述べてください。
Q2. $p = 0.03$ のとき、「帰無仮説が正しい確率は $3\%$ である」という解釈はなぜ誤りですか。
Q3. 有意水準 $\alpha$ を $0.05$ から $0.01$ に変更すると、第1種の過誤と第2種の過誤の確率はそれぞれどう変化しますか。
Q4. ある研究で $p = 0.001$ が得られました。このことから「効果が大きい」と結論してよいですか。理由とともに答えてください。
ある製品の長さは母標準偏差 $\sigma = 2$ mm であることがわかっています。 規格値は $\mu_0 = 50$ mm です。$n = 16$ 個の標本を抽出したところ、標本平均が $\bar{x} = 51.2$ mm でした。 有意水準 $\alpha = 0.05$ で、母平均が規格値と異なるかどうかを両側検定してください。 検定統計量 $z_{\mathrm{obs}}$ とp値を求め、結論を述べてください。
検定統計量:$z_{\mathrm{obs}} = \frac{51.2 - 50}{2 / \sqrt{16}} = \frac{1.2}{0.5} = 2.4$
p値:$p = 2\{1 - \Phi(2.4)\} = 2(1 - 0.9918) = 2 \times 0.0082 = 0.0164$
$p \approx 0.016 < 0.05 = \alpha$ なので $H_0$ を棄却します。有意水準 $5\%$ で、母平均は規格値 $50$ mm と異なるといえます。
次の各記述について、正しいものには○、誤りには×をつけ、×の場合は正しい記述に修正してください。
(1) p値は、帰無仮説が正しい確率である。
(2) 有意水準 $\alpha$ は、第1種の過誤の確率の上限である。
(3) $H_0$ を棄却しないことは、$H_0$ が正しいことの証明である。
(4) 検出力とは、$H_0$ が正しくないときに正しく $H_0$ を棄却する確率である。
(1) × ── p値は「帰無仮説のもとで、観測データ以上に極端な結果が生じる確率」です。帰無仮説が正しい確率ではありません。
(2) ○
(3) × ── $H_0$ を棄却しないことは、データが $H_0$ を否定する十分な証拠を提供しなかったという意味であり、$H_0$ が正しいことの証明ではありません。
(4) ○
ある学校の生徒全体の英語テストの平均点が $\mu_0 = 60$ 点であるとされています。 母標準偏差は $\sigma = 10$ 点です。新しい教育プログラムを受けた $n = 36$ 人の標本平均が $\bar{x} = 63$ 点でした。 新しいプログラムが平均点を向上させたかどうかを、有意水準 $\alpha = 0.05$ で片側検定してください。
(1) 帰無仮説と対立仮説を設定してください。
(2) 検定統計量とp値を求めてください。
(3) 結論を述べ、p値の意味を正確に説明してください。
(1) $H_0$: $\mu = 60$, $H_1$: $\mu > 60$
(2) $z_{\mathrm{obs}} = \frac{63 - 60}{10/\sqrt{36}} = \frac{3}{10/6} = \frac{3 \times 6}{10} = 1.8$
片側検定なので、$p = 1 - \Phi(1.8) = 1 - 0.9641 = 0.0359$
(3) $p \approx 0.036 < 0.05 = \alpha$ なので $H_0$ を棄却します。有意水準 $5\%$ で、新しい教育プログラムは平均点を向上させたといえます。
p値 $0.036$ の意味:帰無仮説(母平均が $60$ 点)が正しいと仮定した場合に、$36$ 人の標本平均が $63$ 点以上となる確率が約 $3.6\%$ であるということです。これは「プログラムの効果がない確率が $3.6\%$」という意味ではありません。
問3の設定($\sigma = 10$, $\alpha = 0.05$, 片側検定)において、真の母平均が $\mu = 63$($\delta = 3$)のとき、$n = 36$ での検出力を求めてください。 また、検出力を $0.80$ に高めるには標本サイズをいくつにすればよいですか。
ヒント:片側検定の棄却域は $Z \ge z_{0.05} = 1.645$ です。必要な標本サイズの公式は $n = \left(\frac{\sigma(z_{\alpha} + z_{\beta})}{\delta}\right)^2$ です。
検出力の計算:真の平均が $\mu = 63$ のとき、$Z$ の分布は近似的に $N\!\left(\frac{3\sqrt{36}}{10}, 1\right) = N(1.8, 1)$ です。
$$1 - \beta = P(Z \ge 1.645 \mid \mu = 63) = P(Z' \ge 1.645 - 1.8) = P(Z' \ge -0.155)$$
ここで $Z' \sim N(0, 1)$ です。$\Phi(0.155) \approx 0.5616$ なので、$1 - \beta \approx 0.562$ です。
必要な標本サイズ:$z_{\alpha} = z_{0.05} = 1.645$, $z_{\beta} = z_{0.20} = 0.842$ とすると、
$$n = \left(\frac{10 \times (1.645 + 0.842)}{3}\right)^2 = \left(\frac{10 \times 2.487}{3}\right)^2 = \left(\frac{24.87}{3}\right)^2 = 8.29^2 \approx 68.7$$
したがって、$n = 69$ 以上が必要です。
ある研究者が $n = 10000$ の大規模調査を行い、帰無仮説 $H_0$: $\mu = 100$($\sigma = 15$)に対して標本平均 $\bar{x} = 100.5$ を得ました。
(1) 両側検定の検定統計量とp値を求めてください。
(2) $p < 0.001$ であることを確認し、この結果が「統計的に有意」であることを述べてください。
(3) しかし、この結果は「実用的に意味がある」とは限りません。その理由を、効果量 $\delta = 0.5$ と標本サイズ $n = 10000$ の関係から説明してください。
(1) $z_{\mathrm{obs}} = \frac{100.5 - 100}{15/\sqrt{10000}} = \frac{0.5}{0.15} \approx 3.33$
$p = 2\{1 - \Phi(3.33)\} \approx 2 \times 0.00043 = 0.00087$
(2) $p \approx 0.00087 < 0.001$ なので、有意水準 $0.1\%$ でも統計的に有意です。
(3) 効果量は $\delta = 0.5$、母標準偏差は $\sigma = 15$ なので、標準化された効果量は $d = \frac{0.5}{15} \approx 0.033$ であり、非常に小さな効果です。にもかかわらず $p < 0.001$ となったのは、標本サイズが $n = 10000$ と非常に大きいためです。
検定統計量 $Z = \frac{\delta\sqrt{n}}{\sigma}$ において、$\delta$ が小さくても $\sqrt{n}$ が大きければ $Z$ は大きくなります。この例では、帰無仮説と真の値の差はわずか $0.5$(母標準偏差の $3.3\%$ 程度)であり、実用的にほとんど意味のない差です。
これが「統計的に有意」と「実用的に意味がある」の違いです。統計的有意性はp値(帰無仮説との整合性)で判定されますが、実用的な意義は効果の大きさで判断する必要があります。