第5章 データの分析

データの変換と仮説検定の考え方
─ 統計量の「構造」を見抜く

データに一律の変換を加えると、平均値や分散はどう変わるのか。
変換の仕組みを理解すれば計算が劇的に速くなり、仮説検定の考え方にも自然につながります。

1データの変換 $y = ax + b$ ─ 統計量はどう変わるのか

データの分析では、元のデータに一律の演算(定数倍や定数の加減)を施して新しいデータを作ることがあります。 たとえば、温度を摂氏から華氏に変換する $F = 1.8C + 32$ や、テストの得点を偏差値に変換するなど、 日常でもよく使われる操作です。

変量 $x$ のデータ $x_1, x_2, \ldots, x_n$ に対して、定数 $a, b$ を用いて $y_i = ax_i + b \quad (i = 1, 2, \ldots, n)$ で新しい変量 $y$ を作ることを変量の変換(データの変換)といいます。 このとき、$y$ の統計量(平均値・分散・標準偏差)が $x$ の統計量とどう関係するかが重要です。

💡 ここが本質:変換は「平行移動」と「拡大」の組み合わせ

$y = ax + b$ という変換は、数直線上の操作として捉えると明快です。

$+b$ の部分(平行移動):すべてのデータを同じ量だけずらす。平均値は $b$ だけ移動するが、データ同士の間隔は変わらない。だから散らばりは変化しない

$\times a$ の部分(拡大・縮小):すべてのデータを $a$ 倍する。平均値も $a$ 倍になり、データ同士の間隔も $a$ 倍になる。だから散らばりも変化する

この2つの操作の効果を合わせれば、変換後の統計量がすべてわかります。

📐 変量の変換 $y = ax + b$ と統計量の関係

変量 $x$ の平均値を $\bar{x}$、分散を $s_x^2$、標準偏差を $s_x$ とする。$y = ax + b$($a, b$ は定数)で変量 $y$ を作るとき:

平均値:$\bar{y} = a\bar{x} + b$

分散:$s_y^2 = a^2 s_x^2$

標準偏差:$s_y = |a| \, s_x$

※ 定数 $b$ の加減は平均値にのみ影響し、分散・標準偏差には影響しない。
※ 分散は $a^2$ 倍、標準偏差は $|a|$ 倍であることに注意(混同しやすい)。
▷ 変換後の統計量の導出

平均値の導出:

$$\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i = \frac{1}{n}\sum_{i=1}^{n}(ax_i + b) = a \cdot \frac{1}{n}\sum_{i=1}^{n} x_i + b = a\bar{x} + b$$

分散の導出:

$y$ の偏差は $y_i - \bar{y} = (ax_i + b) - (a\bar{x} + b) = a(x_i - \bar{x})$ です。 定数 $b$ は偏差を計算するときに打ち消し合います。

$$s_y^2 = \frac{1}{n}\sum_{i=1}^{n}(y_i - \bar{y})^2 = \frac{1}{n}\sum_{i=1}^{n}\{a(x_i - \bar{x})\}^2 = a^2 \cdot \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 = a^2 s_x^2$$

標準偏差の導出:

$$s_y = \sqrt{s_y^2} = \sqrt{a^2 s_x^2} = |a| \, s_x$$

$\sqrt{a^2} = |a|$ であることがポイントです。$a$ が負のときも標準偏差は正の値になります。

⚠️ 落とし穴:分散と標準偏差の「倍率」を混同する

✕ 誤:「$y = 3x + 5$ のとき、分散は $3$ 倍、標準偏差も $3$ 倍」

○ 正:分散は $3^2 = 9$ 倍、標準偏差は $|3| = 3$ 倍。

分散は「偏差の2乗の平均」なので、偏差が $a$ 倍されると2乗で $a^2$ 倍になります。 標準偏差はその平方根なので $|a|$ 倍に戻ります。 「分散は $a^2$ 倍、標準偏差は $|a|$ 倍」をセットで覚えましょう。

⚠️ 落とし穴:$b$ が分散に影響すると思い込む

✕ 誤:「$y = 2x + 100$ のとき、分散は $2^2 \times s_x^2 + 100$ になる」

○ 正:$+100$ は平均値を $100$ だけ増やすが、各データの偏差には影響しない。分散は $4s_x^2$ のまま。

分散は「平均からの散らばり具合」を測る量です。 全員のデータに同じ値を足しても、平均値も同じだけ動くので、散らばり具合は変わりません。 定数 $b$ は分散・標準偏差に影響しないと明確に覚えておきましょう。

具体例で確認する

5人のテストの得点 $x$ が $60, 70, 80, 90, 100$ のとき、平均値 $\bar{x} = 80$、分散 $s_x^2 = 200$、標準偏差 $s_x = 10\sqrt{2}$ です。

成績を $y = 0.5x + 50$(得点を半分にして50を加える)で変換すると:

  • $\bar{y} = 0.5 \times 80 + 50 = 90$
  • $s_y^2 = 0.5^2 \times 200 = 50$
  • $s_y = 0.5 \times 10\sqrt{2} = 5\sqrt{2}$

実際に $y$ の値を計算すると $80, 85, 90, 95, 100$ で、平均 $90$、分散 $50$ と一致します。

🔬 深掘り:アフィン変換と線形性

$y = ax + b$ のような変換を数学ではアフィン変換(affine transformation)といいます。 平均値に対しては $\bar{y} = a\bar{x} + b$ と「そのまま同じ変換」が成り立ちます。 これは平均値が線形演算(和の平均=平均の和)だからです。

一方、分散は2乗を含む量なので、$b$ の影響が消え、$a$ の影響が $a^2$ になります。 大学の統計学では、確率変数 $X$ に対して $\mathrm{Var}(aX + b) = a^2 \mathrm{Var}(X)$ という公式として学びます。 この性質は、回帰分析や実験計画法など、あらゆる統計手法の基盤です。

2仮平均を使った計算の効率化 ─ なぜ計算が楽になるのか

データの値が大きいとき、平均値の計算で大きな数の足し算が必要になり、計算ミスが増えます。 そこで、仮平均(仮の平均値)を設定して計算を楽にするテクニックがあります。 これは、Section 1で学んだ変量の変換の考え方を直接応用したものです。

💡 ここが本質:仮平均は「$y = x - x_0$ という変換」にすぎない

仮平均 $x_0$ を使うとは、各データから $x_0$ を引いて $y_i = x_i - x_0$ という新しいデータを作ることです。

これは $y = x - x_0$、つまり $a = 1, \, b = -x_0$ の変換です。 変換の公式から $\bar{y} = \bar{x} - x_0$ なので、$\bar{x} = \bar{y} + x_0$ です。

$y_i$ は「各データと仮平均の差」で小さな数になるため、$\bar{y}$ の計算が格段に楽になります。 最後に $x_0$ を足し戻せば元の平均値 $\bar{x}$ が得られます。

仮平均を使った平均値の計算手順

データ $x_1, x_2, \ldots, x_n$ の平均値を求めたいとします。

  1. 仮平均 $x_0$ を設定する:データに近い、計算しやすい値を選ぶ(最頻値や中央付近の値がよい)
  2. 偏差 $y_i = x_i - x_0$ を計算する:各データから $x_0$ を引く。小さな正負の数になる
  3. 偏差の平均 $\bar{y}$ を計算する:$\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$
  4. 元の平均値を復元する:$\bar{x} = x_0 + \bar{y}$

具体例:販売数データの平均値

ある商品の20日間の販売数(個)が次のデータであるとします。

$10, \, 9, \, 11, \, 8, \, 14, \, 11, \, 12, \, 9, \, 10, \, 13, \, 12, \, 11, \, 9, \, 12, \, 8, \, 13, \, 10, \, 8, \, 7, \, 11$

▷ 仮平均 $x_0 = 10$ を使った計算

Step 1:仮平均 $x_0 = 10$ とする。

Step 2:各データから $10$ を引いた偏差を求める。

$0, \, -1, \, 1, \, -2, \, 4, \, 1, \, 2, \, -1, \, 0, \, 3, \, 2, \, 1, \, -1, \, 2, \, -2, \, 3, \, 0, \, -2, \, -3, \, 1$

Step 3:偏差の合計は $0 + (-1) + 1 + (-2) + 4 + 1 + 2 + (-1) + 0 + 3 + 2 + 1 + (-1) + 2 + (-2) + 3 + 0 + (-2) + (-3) + 1 = 8$

偏差の平均 $\bar{y} = \dfrac{8}{20} = 0.4$

Step 4:$\bar{x} = x_0 + \bar{y} = 10 + 0.4 = 10.4$(個)

仮平均を使わずに計算すると、$10 + 9 + 11 + \cdots$ のように大きな数の足し算が必要ですが、 仮平均を使えば $0 + (-1) + 1 + \cdots$ のような小さな数の足し算で済みます。

⚠️ 落とし穴:仮平均を使ったのに分散を間違える

仮平均 $x_0$ を使って $y_i = x_i - x_0$ とおいたとき、$a = 1$ なので $s_y^2 = 1^2 \cdot s_x^2 = s_x^2$ です。

✕ 誤:「仮平均で変換したから、分散も何か補正が必要」

○ 正:$y = x - x_0$ の変換では $a = 1$ なので、分散は変わらない。$y$ の分散がそのまま $x$ の分散になる。

仮平均は「引き算するだけ」の変換なので、散らばりには影響しません。 だからこそ、仮平均を使うと平均値だけでなく分散の計算も楽になるのです。

仮平均をどう選ぶか

仮平均はどんな値でも構いませんが、データの中央付近の値、 特に最頻値中央値に近い計算しやすい数を選ぶと、 偏差が小さくなって計算が楽になります。 度数分布表を使う場合は、最も度数の大きい階級の階級値を仮平均にとることが多いです。

🔬 深掘り:コンピュータ時代にも仮平均は生きている

「計算機があるなら仮平均は不要では?」と思うかもしれません。 しかし、現代のコンピュータでも数値の桁落ち(非常に大きな数同士の引き算で精度が失われる現象)が問題になります。

天文学で恒星の距離を扱うとき、物理学で素粒子のエネルギーを計算するとき、 数値が非常に大きい(または小さい)データの統計量を計算するには、仮平均のように 「データを平均付近にシフトしてから計算する」テクニックが不可欠です。 高校で学ぶ仮平均は、数値計算の安定性という重要な概念の入口です。

3仮説検定の考え方入門 ─ 「偶然」を数値で判断する

データの分析のもう1つの重要なテーマが仮説検定です。 日常生活で「このコインは公正か?」「この薬は効くのか?」といった問いに対して、 データに基づいて客観的に判断する方法です。

仮説検定の考え方は、第3章で学んだ背理法と似た論理構造を持っています。 「示したいことの反対を仮定して、矛盾(起こりにくい状況)を導く」のです。

💡 ここが本質:仮説検定は「背理法の確率版」

背理法は「仮定が矛盾を導くから、仮定は偽」と結論します。 仮説検定は「仮定のもとで起こった事象の確率が非常に小さいから、仮定は疑わしい」と判断します。

背理法:命題 $P$ の否定を仮定 → 矛盾 → $P$ は真

仮説検定:主張 $A$ の反対(仮説 $B$)を立てる → $B$ のもとで実際のデータが起こる確率を計算 → 確率が基準以下なら $B$ を棄却 → $A$ が正しいと判断

背理法は「完全な矛盾」で結論しますが、仮説検定は「確率的にほぼありえない」で判断します。 だから、仮説検定には「間違う可能性」が常にあります。これが背理法との決定的な違いです。

仮説検定の手順

  1. 主張したい仮説 $A$ を立てる(例:「このコインは表が出やすい」)
  2. $A$ に反する仮説 $B$ を立てる(例:「このコインは公正である(表の確率 $= \frac{1}{2}$)」)
  3. 基準となる確率を決める(通常 $5\%$)
  4. $B$ が正しいと仮定して、実際に起こったデータの確率を計算する
  5. その確率が基準以下なら $B$ を棄却し、$A$ が正しいと判断する

具体例:コインの公正性

コインを10回投げたところ、9回表が出ました。「このコインは表が出やすい」といえるでしょうか。 基準となる確率を $5\%$ として考えます。

▷ 仮説検定の手順を適用する

Step 1:主張 $A$:「このコインは表が出やすい」

Step 2:仮説 $B$:「このコインは公正である」(表が出る確率 $p = \frac{1}{2}$)

Step 3:基準 $= 5\%$

Step 4:$B$ が正しいとして、10回中9回以上表が出る確率を計算する。

$$P(\text{9回以上表}) = \binom{10}{9}\left(\frac{1}{2}\right)^{10} + \binom{10}{10}\left(\frac{1}{2}\right)^{10} = \frac{10 + 1}{1024} = \frac{11}{1024} \fallingdotseq 0.0107$$

これは約 $1.07\%$ です。

Step 5:$1.07\% < 5\%$ なので、仮説 $B$「コインは公正である」を棄却する。 よって、「このコインは表が出やすい」と判断できる。

⚠️ 落とし穴:「確率が小さい=絶対にありえない」と断定する

✕ 誤:「$1.07\%$ だから、このコインは確実に偏っている」

○ 正:「$1.07\%$ は基準の $5\%$ より小さいので、偶然とは考えにくい。よって表が出やすいと判断する

仮説検定は「確実な証明」ではなく「確率的な判断」です。 公正なコインでも $1.07\%$ の確率で9回以上表が出ることはあります。 仮説検定は「そのくらい珍しいなら偶然ではないだろう」と判断する方法であり、 「絶対に偶然ではない」と断定する方法ではありません。

基準となる確率の意味

基準となる確率($5\%$ など)は、「どのくらい珍しければ偶然ではないと判断するか」のラインです。 $5\%$ が最もよく使われますが、これは「20回に1回くらい起こる珍しさ」に相当します。

もし基準を $1\%$ にすると、より慎重な判断になります。 上の例では $1.07\% > 1\%$ なので、基準 $1\%$ では「偶然かもしれない」と判断されます。 基準の設定によって結論が変わることがあるので、基準は検定の前に決めておく必要があります。

💡 ここが本質:仮説検定は「反対を否定して主張を支持する」間接的な論法

「コインは表が出やすい」を直接証明することは不可能です。何回表が出れば「出やすい」のか、明確な基準がないからです。

そこで逆の発想をします。「コインは公正だ」と仮定して、その仮定のもとで今回の結果(9回表)がどのくらい珍しいかを確率で計算する。 もし非常に珍しい(確率が基準以下)なら、「公正だという仮定が間違っている」と判断し、結果として「表が出やすい」を支持するのです。

これは主張を直接示すのではなく、反対の仮説を棄却することで間接的に主張を支持するという論法です。

🔬 深掘り:帰無仮説と対立仮説 ── 大学統計学への入口

大学の統計学では、仮説検定の用語が厳密に定義されます。 「反対の仮説」を帰無仮説($H_0$, null hypothesis)、 「主張したい仮説」を対立仮説($H_1$, alternative hypothesis)といいます。

基準となる確率は有意水準(significance level, $\alpha$)と呼ばれ、 帰無仮説を棄却するときの判断を「統計的に有意」(statistically significant)といいます。

高校の「仮説検定の考え方」は、こうした大学統計学の基礎概念を、 具体的なコインの例で体験するものです。 データサイエンスや医療統計など、現代社会で不可欠な推測統計の出発点がここにあります。

4相関と因果の区別 ─ なぜ「相関あり」では不十分なのか

5-2で学んだ相関係数は、2つの変量の間の直線的な関係の強さを測る数値でした。 しかし、「相関がある」からといって「因果関係がある」とは限りません。 この区別は、データ分析で最も重要な注意点の1つです。

因果関係とは、一方が原因で他方が結果となる関係です。 たとえば「気温が上がるとアイスクリームの売上が増える」には因果関係があると考えられます。

一方、相関関係は「2つの変量が同時に変動する傾向がある」という事実を述べるだけで、 どちらが原因でどちらが結果かは示しません。

相関があっても因果とは限らない4つのパターン

パターン内容
(1) $A \to B$$A$ が原因で $B$ が結果勉強時間が増える → 成績が上がる
(2) $B \to A$$B$ が原因で $A$ が結果因果の方向が逆の場合
(3) 共通の原因 $C$$C$ が $A$ と $B$ の両方の原因気温 $C$ が高い → アイスの売上 $A$ も水難事故 $B$ も増える
(4) 偶然の一致たまたま似た変動をしていただけ全く無関係な2つの時系列データ
⚠️ 落とし穴:「相関係数が高い=因果関係がある」と断定する

✕ 誤:「47都道府県の公園の数と熱中症の搬送件数に正の相関がある。だから公園が多いと熱中症が増える」

○ 正:これはパターン (3) の典型例。人口が多い都道府県ほど公園も多く、搬送件数も多い。 人口という共通の原因(交絡因子)が両方に影響しているのであり、公園が熱中症の原因ではない。

相関係数や散布図からは「2つの変量が連動している」ことしかわかりません。 因果関係の判断には、実験やより高度な統計手法(ランダム化比較試験など)が必要です。

⚠️ 落とし穴:入試の記述で因果を断定する表現を書いてしまう

✕ 誤:「散布図と相関係数から、$x$ が $y$ の原因であるとわかる」

○ 正:「散布図と相関係数から、$x$ と $y$ には正の相関があると考えられる」

入試の記述問題で相関と因果を混同すると減点されます。 散布図や相関係数から言えるのは「相関関係の有無と強さ」までです。 「原因」「結果」「~だから~になる」といった因果を含む表現は避けましょう。

🔬 深掘り:因果推論 ── 「なぜ」を科学的に解き明かす方法

「相関と因果は違う」ことは理解できても、では因果関係をどうやって明らかにするのでしょうか。

その答えの1つがランダム化比較試験(RCT)です。 被験者をランダムに2群に分け、一方にだけ薬を投与して効果を比較します。 ランダムに分けることで、群の間で既知・未知の要因が均一になり、 差があれば薬の効果(因果)と結論できます。

ノーベル経済学賞(2021年)の受賞テーマにもなった因果推論は、 観察データから因果関係を導くための統計学の最前線です。 高校で学ぶ「相関と因果の区別」は、この分野の出発点です。

5データの分析と他分野の融合 ─ 俯瞰マップ

データの分析は他の数学分野と密接に結びついています。 ここまで学んだ内容がどこから来て、どこにつながるのかを整理しましょう。

分野間のつながり

  • ← 5-1 データの整理と分析:平均値・分散・標準偏差の定義と計算方法。データの変換はこれらの統計量の性質を活用したテクニック。
  • ← 5-2 データの相関:散布図と相関係数。相関と因果の区別は相関係数の「使い方」に関する重要な注意点。
  • ← 3-3 命題の証明(背理法):仮説検定の考え方は背理法と同じ「反対を仮定して否定する」論理構造。ただし確率的判断である点が異なる。
  • → 第7章 確率:仮説検定で使う確率計算は、反復試行の確率(二項分布)がベース。確率の知識が検定の理解を深める。
  • → 数学B 統計的な推測:高校で学ぶ仮説検定の考え方は、正規分布を使った本格的な検定($z$ 検定、$t$ 検定)へと発展する。

データの変換が使われる典型パターン

パターン変換の形目的
仮平均$y = x - x_0$計算の簡略化(大きな数を小さくする)
標準化$z = \dfrac{x - \bar{x}}{s_x}$平均 $0$、標準偏差 $1$ にして比較可能にする(偏差値の基礎)
単位変換$y = ax + b$(例:摂氏→華氏)異なる単位系への変換
得点調整$y = ax + b$(例:得点の圧縮)テスト得点のスケール調整

📋まとめ

  • 変量の変換 $y = ax + b$ で、平均値は $\bar{y} = a\bar{x} + b$。平均値は変換がそのまま反映される(線形性)
  • 分散は $s_y^2 = a^2 s_x^2$($a^2$ 倍)、標準偏差は $s_y = |a| \, s_x$($|a|$ 倍)。定数 $b$ は散らばりに影響しない
  • 仮平均は $y = x - x_0$ という変換。偏差を小さくして計算を効率化する。分散は変わらない
  • 仮説検定は「背理法の確率版」。主張の反対(仮説)を立て、その仮説のもとで起こった事象の確率が基準以下なら仮説を棄却する
  • 仮説検定は「確率的な判断」であり、間違う可能性が常にある。「確実な証明」とは異なる
  • 相関関係と因果関係は別物。散布図・相関係数からわかるのは「連動の有無と強さ」のみ。因果の判断には実験や高度な統計手法が必要

確認テスト

Q1. 変量 $x$ の平均値が $20$、標準偏差が $4$ のとき、$y = 3x - 10$ で変換した変量 $y$ の平均値と標準偏差を求めてください。

▶ クリックして解答を表示$\bar{y} = 3 \times 20 - 10 = 50$。$s_y = |3| \times 4 = 12$。

Q2. 変量の変換 $y = ax + b$ で、定数 $b$ が分散に影響しないのはなぜですか。

▶ クリックして解答を表示$b$ はすべてのデータに同じ値を加えるだけなので、平均値も同じだけ動く。偏差 $y_i - \bar{y} = a(x_i - \bar{x})$ の計算で $b$ は打ち消し合い、散らばりには影響しないから。

Q3. 仮平均を使って平均値を求めるとき、「仮平均に偏差の平均を足す」のはなぜですか。変量の変換の式を使って説明してください。

▶ クリックして解答を表示$y = x - x_0$ とおくと $\bar{y} = \bar{x} - x_0$。これを変形すると $\bar{x} = x_0 + \bar{y}$、すなわち「仮平均 $+$ 偏差の平均 $=$ 元の平均値」。

Q4. 仮説検定の考え方と背理法の共通点と相違点を、それぞれ1つ答えてください。

▶ クリックして解答を表示共通点:どちらも「示したいことの反対を仮定して否定する」間接的な論法。相違点:背理法は完全な矛盾で結論するが、仮説検定は「確率的にほぼありえない」で判断するため、間違う可能性がある。

Q5. 「アイスクリームの売上と水難事故の件数に正の相関がある」とき、「アイスクリームが水難事故の原因である」と結論できますか。理由とともに答えてください。

▶ クリックして解答を表示結論できない。これは共通の原因(気温)によって両方が増える「疑似相関」の典型例。相関関係があっても因果関係があるとは限らない。因果関係の判断には実験などが必要。

8入試問題演習

この記事で学んだ内容を、入試形式の問題で確認しましょう。

A 基礎レベル

5-6-1 A 基礎 変量の変換 統計量の計算

変量 $x$ のデータの平均値が $50$、分散が $16$ であるとき、$y = -2x + 130$ で変換した変量 $y$ の平均値、分散、標準偏差をそれぞれ求めよ。

▶ クリックして解答・解説を表示
解答

平均値 $30$、分散 $64$、標準偏差 $8$

解説

方針:変量の変換の公式 $\bar{y} = a\bar{x} + b$, $s_y^2 = a^2 s_x^2$, $s_y = |a| \, s_x$ を適用する。

$a = -2, \, b = 130, \, \bar{x} = 50, \, s_x^2 = 16$ より:

$\bar{y} = (-2) \times 50 + 130 = -100 + 130 = 30$

$s_y^2 = (-2)^2 \times 16 = 4 \times 16 = 64$

$s_y = |-2| \times \sqrt{16} = 2 \times 4 = 8$

※ $a = -2$ が負でも、分散は $a^2 = 4$ 倍(正)、標準偏差は $|a| = 2$ 倍(正)になることに注意。

5-6-2 A 基礎 仮平均 平均値の計算

ある工場の30日間の生産数(個)のデータについて、仮平均を $20$ として計算したところ、各データと仮平均の差の合計が $-15$ であった。このデータの平均値を求めよ。

▶ クリックして解答・解説を表示
解答

平均値 $19.5$(個)

解説

方針:仮平均 $x_0 = 20$ として $y_i = x_i - 20$ とおくと、$\bar{x} = x_0 + \bar{y}$。

偏差の合計が $-15$ なので、$\bar{y} = \dfrac{-15}{30} = -0.5$

$\bar{x} = 20 + (-0.5) = 19.5$(個)

B 標準レベル

5-6-3 B 標準 変量の変換 相関係数 論述

あるクラスで数学のテストを行った。得点 $x$ の平均値は $60$ 点、分散は $400$ であった。 得点を $y = 0.5x + 50$ で変換して成績とした。

(1) 成績 $y$ の平均値、分散、標準偏差を求めよ。

(2) 成績 $y$ の最大値が $99$ のとき、元の得点 $x$ の最大値を求めよ。

(3) 変量 $x$ と変量 $z$(別の科目の得点)の相関係数が $r_{xz} = 0.8$ のとき、変量 $y$ と変量 $z$ の相関係数 $r_{yz}$ を求めよ。

▶ クリックして解答・解説を表示
解答

(1) 平均値 $80$、分散 $100$、標準偏差 $10$

(2) $98$ 点

(3) $r_{yz} = 0.8$

解説

(1) $a = 0.5, \, b = 50$ より:

$\bar{y} = 0.5 \times 60 + 50 = 80$

$s_y^2 = 0.5^2 \times 400 = 0.25 \times 400 = 100$

$s_y = 0.5 \times 20 = 10$

(2) $y = 0.5x + 50$ より $x = \dfrac{y - 50}{0.5} = 2(y - 50) = 2y - 100$。

$y$ の最大値が $99$ のとき、$x$ の最大値は $2 \times 99 - 100 = 98$ 点。

(3) $y = 0.5x + 50$ は $a = 0.5 > 0$ の変換なので、$x$ と $z$ の相関の方向は変わらない。 $y$ の偏差は $y_i - \bar{y} = 0.5(x_i - \bar{x})$ で、$z$ の偏差は変わらない。 相関係数の計算で分子の共分散は $0.5$ 倍、分母の $s_y$ も $0.5$ 倍になるので打ち消し合い、$r_{yz} = r_{xz} = 0.8$。

一般に、$a > 0$ の変換 $y = ax + b$ では相関係数は変わらない。$a < 0$ のときは相関係数の符号が反転する。

採点ポイント
  • (1) 変換公式の正しい適用(3点)
  • (2) 逆変換の式を正しく立てる(2点)
  • (3) 相関係数が変換で変わらない理由を説明(3点)

C 発展レベル

5-6-4 C 発展 仮説検定 確率計算 論述

品種改良したとされる苗を10本育てたところ、そのうちの9本から多くの果実が採れた。 品種改良は効果があったと判断してよいか。仮説検定の考え方を用い、基準となる確率を $5\%$ として考察せよ。

ただし、品種改良の効果がないとき、各苗から多くの果実が採れる確率はそれぞれ $\dfrac{1}{2}$ とし、各苗は独立であるとする。

▶ クリックして解答・解説を表示
解答

品種改良は効果があったと判断できる。

解説

方針:「品種改良は効果がない」という仮説を立て、10本中9本以上で多くの果実が採れる確率が基準以下かを確認する。

Step 1:仮説:「品種改良は効果がなかった」(各苗で多くの果実が採れる確率は $\frac{1}{2}$)

Step 2:この仮説のもとで、10本中9本以上で多くの果実が採れる確率を求める。

$$P(X \geq 9) = \binom{10}{9}\left(\frac{1}{2}\right)^{10} + \binom{10}{10}\left(\frac{1}{2}\right)^{10} = \frac{10 + 1}{1024} = \frac{11}{1024}$$

$$\frac{11}{1024} \fallingdotseq 0.0107 = 1.07\%$$

Step 3:$1.07\% < 5\%$ なので、この結果は仮説のもとではほとんど起こりえない。

したがって、仮説「品種改良は効果がなかった」は棄却され、品種改良は効果があったと判断される。

採点ポイント
  • 仮説を正しく設定する(「効果がなかった」と仮定)(3点)
  • 確率の計算が正しい(3点)
  • 基準との比較と結論の記述が適切(2点)
  • 「判断する」等の表現を使い断定しすぎない(2点)