データに一律の変換を加えると、平均値や分散はどう変わるのか。
変換の仕組みを理解すれば計算が劇的に速くなり、仮説検定の考え方にも自然につながります。
データの分析では、元のデータに一律の演算(定数倍や定数の加減)を施して新しいデータを作ることがあります。 たとえば、温度を摂氏から華氏に変換する $F = 1.8C + 32$ や、テストの得点を偏差値に変換するなど、 日常でもよく使われる操作です。
変量 $x$ のデータ $x_1, x_2, \ldots, x_n$ に対して、定数 $a, b$ を用いて $y_i = ax_i + b \quad (i = 1, 2, \ldots, n)$ で新しい変量 $y$ を作ることを変量の変換(データの変換)といいます。 このとき、$y$ の統計量(平均値・分散・標準偏差)が $x$ の統計量とどう関係するかが重要です。
$y = ax + b$ という変換は、数直線上の操作として捉えると明快です。
$+b$ の部分(平行移動):すべてのデータを同じ量だけずらす。平均値は $b$ だけ移動するが、データ同士の間隔は変わらない。だから散らばりは変化しない。
$\times a$ の部分(拡大・縮小):すべてのデータを $a$ 倍する。平均値も $a$ 倍になり、データ同士の間隔も $a$ 倍になる。だから散らばりも変化する。
この2つの操作の効果を合わせれば、変換後の統計量がすべてわかります。
変量 $x$ の平均値を $\bar{x}$、分散を $s_x^2$、標準偏差を $s_x$ とする。$y = ax + b$($a, b$ は定数)で変量 $y$ を作るとき:
平均値:$\bar{y} = a\bar{x} + b$
分散:$s_y^2 = a^2 s_x^2$
標準偏差:$s_y = |a| \, s_x$
平均値の導出:
$$\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i = \frac{1}{n}\sum_{i=1}^{n}(ax_i + b) = a \cdot \frac{1}{n}\sum_{i=1}^{n} x_i + b = a\bar{x} + b$$
分散の導出:
$y$ の偏差は $y_i - \bar{y} = (ax_i + b) - (a\bar{x} + b) = a(x_i - \bar{x})$ です。 定数 $b$ は偏差を計算するときに打ち消し合います。
$$s_y^2 = \frac{1}{n}\sum_{i=1}^{n}(y_i - \bar{y})^2 = \frac{1}{n}\sum_{i=1}^{n}\{a(x_i - \bar{x})\}^2 = a^2 \cdot \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 = a^2 s_x^2$$
標準偏差の導出:
$$s_y = \sqrt{s_y^2} = \sqrt{a^2 s_x^2} = |a| \, s_x$$
$\sqrt{a^2} = |a|$ であることがポイントです。$a$ が負のときも標準偏差は正の値になります。
✕ 誤:「$y = 3x + 5$ のとき、分散は $3$ 倍、標準偏差も $3$ 倍」
○ 正:分散は $3^2 = 9$ 倍、標準偏差は $|3| = 3$ 倍。
分散は「偏差の2乗の平均」なので、偏差が $a$ 倍されると2乗で $a^2$ 倍になります。 標準偏差はその平方根なので $|a|$ 倍に戻ります。 「分散は $a^2$ 倍、標準偏差は $|a|$ 倍」をセットで覚えましょう。
✕ 誤:「$y = 2x + 100$ のとき、分散は $2^2 \times s_x^2 + 100$ になる」
○ 正:$+100$ は平均値を $100$ だけ増やすが、各データの偏差には影響しない。分散は $4s_x^2$ のまま。
分散は「平均からの散らばり具合」を測る量です。 全員のデータに同じ値を足しても、平均値も同じだけ動くので、散らばり具合は変わりません。 定数 $b$ は分散・標準偏差に影響しないと明確に覚えておきましょう。
5人のテストの得点 $x$ が $60, 70, 80, 90, 100$ のとき、平均値 $\bar{x} = 80$、分散 $s_x^2 = 200$、標準偏差 $s_x = 10\sqrt{2}$ です。
成績を $y = 0.5x + 50$(得点を半分にして50を加える)で変換すると:
実際に $y$ の値を計算すると $80, 85, 90, 95, 100$ で、平均 $90$、分散 $50$ と一致します。
$y = ax + b$ のような変換を数学ではアフィン変換(affine transformation)といいます。 平均値に対しては $\bar{y} = a\bar{x} + b$ と「そのまま同じ変換」が成り立ちます。 これは平均値が線形演算(和の平均=平均の和)だからです。
一方、分散は2乗を含む量なので、$b$ の影響が消え、$a$ の影響が $a^2$ になります。 大学の統計学では、確率変数 $X$ に対して $\mathrm{Var}(aX + b) = a^2 \mathrm{Var}(X)$ という公式として学びます。 この性質は、回帰分析や実験計画法など、あらゆる統計手法の基盤です。
データの値が大きいとき、平均値の計算で大きな数の足し算が必要になり、計算ミスが増えます。 そこで、仮平均(仮の平均値)を設定して計算を楽にするテクニックがあります。 これは、Section 1で学んだ変量の変換の考え方を直接応用したものです。
仮平均 $x_0$ を使うとは、各データから $x_0$ を引いて $y_i = x_i - x_0$ という新しいデータを作ることです。
これは $y = x - x_0$、つまり $a = 1, \, b = -x_0$ の変換です。 変換の公式から $\bar{y} = \bar{x} - x_0$ なので、$\bar{x} = \bar{y} + x_0$ です。
$y_i$ は「各データと仮平均の差」で小さな数になるため、$\bar{y}$ の計算が格段に楽になります。 最後に $x_0$ を足し戻せば元の平均値 $\bar{x}$ が得られます。
データ $x_1, x_2, \ldots, x_n$ の平均値を求めたいとします。
ある商品の20日間の販売数(個)が次のデータであるとします。
$10, \, 9, \, 11, \, 8, \, 14, \, 11, \, 12, \, 9, \, 10, \, 13, \, 12, \, 11, \, 9, \, 12, \, 8, \, 13, \, 10, \, 8, \, 7, \, 11$
Step 1:仮平均 $x_0 = 10$ とする。
Step 2:各データから $10$ を引いた偏差を求める。
$0, \, -1, \, 1, \, -2, \, 4, \, 1, \, 2, \, -1, \, 0, \, 3, \, 2, \, 1, \, -1, \, 2, \, -2, \, 3, \, 0, \, -2, \, -3, \, 1$
Step 3:偏差の合計は $0 + (-1) + 1 + (-2) + 4 + 1 + 2 + (-1) + 0 + 3 + 2 + 1 + (-1) + 2 + (-2) + 3 + 0 + (-2) + (-3) + 1 = 8$
偏差の平均 $\bar{y} = \dfrac{8}{20} = 0.4$
Step 4:$\bar{x} = x_0 + \bar{y} = 10 + 0.4 = 10.4$(個)
仮平均を使わずに計算すると、$10 + 9 + 11 + \cdots$ のように大きな数の足し算が必要ですが、 仮平均を使えば $0 + (-1) + 1 + \cdots$ のような小さな数の足し算で済みます。
仮平均 $x_0$ を使って $y_i = x_i - x_0$ とおいたとき、$a = 1$ なので $s_y^2 = 1^2 \cdot s_x^2 = s_x^2$ です。
✕ 誤:「仮平均で変換したから、分散も何か補正が必要」
○ 正:$y = x - x_0$ の変換では $a = 1$ なので、分散は変わらない。$y$ の分散がそのまま $x$ の分散になる。
仮平均は「引き算するだけ」の変換なので、散らばりには影響しません。 だからこそ、仮平均を使うと平均値だけでなく分散の計算も楽になるのです。
仮平均はどんな値でも構いませんが、データの中央付近の値、 特に最頻値や中央値に近い計算しやすい数を選ぶと、 偏差が小さくなって計算が楽になります。 度数分布表を使う場合は、最も度数の大きい階級の階級値を仮平均にとることが多いです。
「計算機があるなら仮平均は不要では?」と思うかもしれません。 しかし、現代のコンピュータでも数値の桁落ち(非常に大きな数同士の引き算で精度が失われる現象)が問題になります。
天文学で恒星の距離を扱うとき、物理学で素粒子のエネルギーを計算するとき、 数値が非常に大きい(または小さい)データの統計量を計算するには、仮平均のように 「データを平均付近にシフトしてから計算する」テクニックが不可欠です。 高校で学ぶ仮平均は、数値計算の安定性という重要な概念の入口です。
データの分析のもう1つの重要なテーマが仮説検定です。 日常生活で「このコインは公正か?」「この薬は効くのか?」といった問いに対して、 データに基づいて客観的に判断する方法です。
仮説検定の考え方は、第3章で学んだ背理法と似た論理構造を持っています。 「示したいことの反対を仮定して、矛盾(起こりにくい状況)を導く」のです。
背理法は「仮定が矛盾を導くから、仮定は偽」と結論します。 仮説検定は「仮定のもとで起こった事象の確率が非常に小さいから、仮定は疑わしい」と判断します。
背理法:命題 $P$ の否定を仮定 → 矛盾 → $P$ は真
仮説検定:主張 $A$ の反対(仮説 $B$)を立てる → $B$ のもとで実際のデータが起こる確率を計算 → 確率が基準以下なら $B$ を棄却 → $A$ が正しいと判断
背理法は「完全な矛盾」で結論しますが、仮説検定は「確率的にほぼありえない」で判断します。 だから、仮説検定には「間違う可能性」が常にあります。これが背理法との決定的な違いです。
コインを10回投げたところ、9回表が出ました。「このコインは表が出やすい」といえるでしょうか。 基準となる確率を $5\%$ として考えます。
Step 1:主張 $A$:「このコインは表が出やすい」
Step 2:仮説 $B$:「このコインは公正である」(表が出る確率 $p = \frac{1}{2}$)
Step 3:基準 $= 5\%$
Step 4:$B$ が正しいとして、10回中9回以上表が出る確率を計算する。
$$P(\text{9回以上表}) = \binom{10}{9}\left(\frac{1}{2}\right)^{10} + \binom{10}{10}\left(\frac{1}{2}\right)^{10} = \frac{10 + 1}{1024} = \frac{11}{1024} \fallingdotseq 0.0107$$
これは約 $1.07\%$ です。
Step 5:$1.07\% < 5\%$ なので、仮説 $B$「コインは公正である」を棄却する。 よって、「このコインは表が出やすい」と判断できる。
✕ 誤:「$1.07\%$ だから、このコインは確実に偏っている」
○ 正:「$1.07\%$ は基準の $5\%$ より小さいので、偶然とは考えにくい。よって表が出やすいと判断する」
仮説検定は「確実な証明」ではなく「確率的な判断」です。 公正なコインでも $1.07\%$ の確率で9回以上表が出ることはあります。 仮説検定は「そのくらい珍しいなら偶然ではないだろう」と判断する方法であり、 「絶対に偶然ではない」と断定する方法ではありません。
基準となる確率($5\%$ など)は、「どのくらい珍しければ偶然ではないと判断するか」のラインです。 $5\%$ が最もよく使われますが、これは「20回に1回くらい起こる珍しさ」に相当します。
もし基準を $1\%$ にすると、より慎重な判断になります。 上の例では $1.07\% > 1\%$ なので、基準 $1\%$ では「偶然かもしれない」と判断されます。 基準の設定によって結論が変わることがあるので、基準は検定の前に決めておく必要があります。
「コインは表が出やすい」を直接証明することは不可能です。何回表が出れば「出やすい」のか、明確な基準がないからです。
そこで逆の発想をします。「コインは公正だ」と仮定して、その仮定のもとで今回の結果(9回表)がどのくらい珍しいかを確率で計算する。 もし非常に珍しい(確率が基準以下)なら、「公正だという仮定が間違っている」と判断し、結果として「表が出やすい」を支持するのです。
これは主張を直接示すのではなく、反対の仮説を棄却することで間接的に主張を支持するという論法です。
大学の統計学では、仮説検定の用語が厳密に定義されます。 「反対の仮説」を帰無仮説($H_0$, null hypothesis)、 「主張したい仮説」を対立仮説($H_1$, alternative hypothesis)といいます。
基準となる確率は有意水準(significance level, $\alpha$)と呼ばれ、 帰無仮説を棄却するときの判断を「統計的に有意」(statistically significant)といいます。
高校の「仮説検定の考え方」は、こうした大学統計学の基礎概念を、 具体的なコインの例で体験するものです。 データサイエンスや医療統計など、現代社会で不可欠な推測統計の出発点がここにあります。
5-2で学んだ相関係数は、2つの変量の間の直線的な関係の強さを測る数値でした。 しかし、「相関がある」からといって「因果関係がある」とは限りません。 この区別は、データ分析で最も重要な注意点の1つです。
因果関係とは、一方が原因で他方が結果となる関係です。 たとえば「気温が上がるとアイスクリームの売上が増える」には因果関係があると考えられます。
一方、相関関係は「2つの変量が同時に変動する傾向がある」という事実を述べるだけで、 どちらが原因でどちらが結果かは示しません。
| パターン | 内容 | 例 |
|---|---|---|
| (1) $A \to B$ | $A$ が原因で $B$ が結果 | 勉強時間が増える → 成績が上がる |
| (2) $B \to A$ | $B$ が原因で $A$ が結果 | 因果の方向が逆の場合 |
| (3) 共通の原因 $C$ | $C$ が $A$ と $B$ の両方の原因 | 気温 $C$ が高い → アイスの売上 $A$ も水難事故 $B$ も増える |
| (4) 偶然の一致 | たまたま似た変動をしていただけ | 全く無関係な2つの時系列データ |
✕ 誤:「47都道府県の公園の数と熱中症の搬送件数に正の相関がある。だから公園が多いと熱中症が増える」
○ 正:これはパターン (3) の典型例。人口が多い都道府県ほど公園も多く、搬送件数も多い。 人口という共通の原因(交絡因子)が両方に影響しているのであり、公園が熱中症の原因ではない。
相関係数や散布図からは「2つの変量が連動している」ことしかわかりません。 因果関係の判断には、実験やより高度な統計手法(ランダム化比較試験など)が必要です。
✕ 誤:「散布図と相関係数から、$x$ が $y$ の原因であるとわかる」
○ 正:「散布図と相関係数から、$x$ と $y$ には正の相関があると考えられる」
入試の記述問題で相関と因果を混同すると減点されます。 散布図や相関係数から言えるのは「相関関係の有無と強さ」までです。 「原因」「結果」「~だから~になる」といった因果を含む表現は避けましょう。
「相関と因果は違う」ことは理解できても、では因果関係をどうやって明らかにするのでしょうか。
その答えの1つがランダム化比較試験(RCT)です。 被験者をランダムに2群に分け、一方にだけ薬を投与して効果を比較します。 ランダムに分けることで、群の間で既知・未知の要因が均一になり、 差があれば薬の効果(因果)と結論できます。
ノーベル経済学賞(2021年)の受賞テーマにもなった因果推論は、 観察データから因果関係を導くための統計学の最前線です。 高校で学ぶ「相関と因果の区別」は、この分野の出発点です。
データの分析は他の数学分野と密接に結びついています。 ここまで学んだ内容がどこから来て、どこにつながるのかを整理しましょう。
| パターン | 変換の形 | 目的 |
|---|---|---|
| 仮平均 | $y = x - x_0$ | 計算の簡略化(大きな数を小さくする) |
| 標準化 | $z = \dfrac{x - \bar{x}}{s_x}$ | 平均 $0$、標準偏差 $1$ にして比較可能にする(偏差値の基礎) |
| 単位変換 | $y = ax + b$(例:摂氏→華氏) | 異なる単位系への変換 |
| 得点調整 | $y = ax + b$(例:得点の圧縮) | テスト得点のスケール調整 |
Q1. 変量 $x$ の平均値が $20$、標準偏差が $4$ のとき、$y = 3x - 10$ で変換した変量 $y$ の平均値と標準偏差を求めてください。
Q2. 変量の変換 $y = ax + b$ で、定数 $b$ が分散に影響しないのはなぜですか。
Q3. 仮平均を使って平均値を求めるとき、「仮平均に偏差の平均を足す」のはなぜですか。変量の変換の式を使って説明してください。
Q4. 仮説検定の考え方と背理法の共通点と相違点を、それぞれ1つ答えてください。
Q5. 「アイスクリームの売上と水難事故の件数に正の相関がある」とき、「アイスクリームが水難事故の原因である」と結論できますか。理由とともに答えてください。
この記事で学んだ内容を、入試形式の問題で確認しましょう。
変量 $x$ のデータの平均値が $50$、分散が $16$ であるとき、$y = -2x + 130$ で変換した変量 $y$ の平均値、分散、標準偏差をそれぞれ求めよ。
平均値 $30$、分散 $64$、標準偏差 $8$
方針:変量の変換の公式 $\bar{y} = a\bar{x} + b$, $s_y^2 = a^2 s_x^2$, $s_y = |a| \, s_x$ を適用する。
$a = -2, \, b = 130, \, \bar{x} = 50, \, s_x^2 = 16$ より:
$\bar{y} = (-2) \times 50 + 130 = -100 + 130 = 30$
$s_y^2 = (-2)^2 \times 16 = 4 \times 16 = 64$
$s_y = |-2| \times \sqrt{16} = 2 \times 4 = 8$
※ $a = -2$ が負でも、分散は $a^2 = 4$ 倍(正)、標準偏差は $|a| = 2$ 倍(正)になることに注意。
ある工場の30日間の生産数(個)のデータについて、仮平均を $20$ として計算したところ、各データと仮平均の差の合計が $-15$ であった。このデータの平均値を求めよ。
平均値 $19.5$(個)
方針:仮平均 $x_0 = 20$ として $y_i = x_i - 20$ とおくと、$\bar{x} = x_0 + \bar{y}$。
偏差の合計が $-15$ なので、$\bar{y} = \dfrac{-15}{30} = -0.5$
$\bar{x} = 20 + (-0.5) = 19.5$(個)
あるクラスで数学のテストを行った。得点 $x$ の平均値は $60$ 点、分散は $400$ であった。 得点を $y = 0.5x + 50$ で変換して成績とした。
(1) 成績 $y$ の平均値、分散、標準偏差を求めよ。
(2) 成績 $y$ の最大値が $99$ のとき、元の得点 $x$ の最大値を求めよ。
(3) 変量 $x$ と変量 $z$(別の科目の得点)の相関係数が $r_{xz} = 0.8$ のとき、変量 $y$ と変量 $z$ の相関係数 $r_{yz}$ を求めよ。
(1) 平均値 $80$、分散 $100$、標準偏差 $10$
(2) $98$ 点
(3) $r_{yz} = 0.8$
(1) $a = 0.5, \, b = 50$ より:
$\bar{y} = 0.5 \times 60 + 50 = 80$
$s_y^2 = 0.5^2 \times 400 = 0.25 \times 400 = 100$
$s_y = 0.5 \times 20 = 10$
(2) $y = 0.5x + 50$ より $x = \dfrac{y - 50}{0.5} = 2(y - 50) = 2y - 100$。
$y$ の最大値が $99$ のとき、$x$ の最大値は $2 \times 99 - 100 = 98$ 点。
(3) $y = 0.5x + 50$ は $a = 0.5 > 0$ の変換なので、$x$ と $z$ の相関の方向は変わらない。 $y$ の偏差は $y_i - \bar{y} = 0.5(x_i - \bar{x})$ で、$z$ の偏差は変わらない。 相関係数の計算で分子の共分散は $0.5$ 倍、分母の $s_y$ も $0.5$ 倍になるので打ち消し合い、$r_{yz} = r_{xz} = 0.8$。
一般に、$a > 0$ の変換 $y = ax + b$ では相関係数は変わらない。$a < 0$ のときは相関係数の符号が反転する。
品種改良したとされる苗を10本育てたところ、そのうちの9本から多くの果実が採れた。 品種改良は効果があったと判断してよいか。仮説検定の考え方を用い、基準となる確率を $5\%$ として考察せよ。
ただし、品種改良の効果がないとき、各苗から多くの果実が採れる確率はそれぞれ $\dfrac{1}{2}$ とし、各苗は独立であるとする。
品種改良は効果があったと判断できる。
方針:「品種改良は効果がない」という仮説を立て、10本中9本以上で多くの果実が採れる確率が基準以下かを確認する。
Step 1:仮説:「品種改良は効果がなかった」(各苗で多くの果実が採れる確率は $\frac{1}{2}$)
Step 2:この仮説のもとで、10本中9本以上で多くの果実が採れる確率を求める。
$$P(X \geq 9) = \binom{10}{9}\left(\frac{1}{2}\right)^{10} + \binom{10}{10}\left(\frac{1}{2}\right)^{10} = \frac{10 + 1}{1024} = \frac{11}{1024}$$
$$\frac{11}{1024} \fallingdotseq 0.0107 = 1.07\%$$
Step 3:$1.07\% < 5\%$ なので、この結果は仮説のもとではほとんど起こりえない。
したがって、仮説「品種改良は効果がなかった」は棄却され、品種改良は効果があったと判断される。