第5章 データの分析

散布図と相関係数
─ 2つの変量の「つながり」を数値化する

「数学の成績が良い人は物理も得意?」「気温が上がるとアイスの売上は増える?」
2つの変量の間にある関係を視覚化するのが散布図、その強さを1つの数値で表すのが相関係数です。

1散布図の書き方と読み取り ─ データを「見える化」する

5-1で学んだヒストグラムや箱ひげ図は、1つの変量のデータを整理する道具でした。 しかし実際には、「2つの変量の間にどんな関係があるか」を知りたい場面がたくさんあります。

たとえば、あるクラスの生徒について「数学の点数」と「理科の点数」を調べたとしましょう。 各生徒のデータは $(x_i, y_i)$ という数値の組で表されます。 このデータの組を平面上に点としてプロットした図が散布図(相関図)です。

散布図の書き方

2つの変量 $x$, $y$ について $n$ 個のデータの組 $(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$ があるとき、 横軸に $x$、縦軸に $y$ をとり、各データの組を座標とする点を平面上にプロットします。 これが散布図です。

散布図から読み取れること

散布図を描くと、2つの変量の間の関係が視覚的にわかります。 点の散らばり方に注目してください。

  • 正の相関関係:$x$ が大きいほど $y$ も大きい傾向がある(点が右上がりに分布する)
  • 負の相関関係:$x$ が大きいほど $y$ は小さい傾向がある(点が右下がりに分布する)
  • 相関関係がない:どちらの傾向も認められない(点がばらばらに散らばる)

散布図の点が1つの直線に近づくほど、相関関係は強いといい、 広く散らばるほど相関関係は弱いといいます。

💡 ここが本質:散布図は「2次元データの分布」を見る道具

ヒストグラムが「1変量の分布の形」を見せてくれるように、散布図は「2変量の分布の形」を見せてくれます。

点が直線状に集まっていれば強い相関、楕円状に広がっていれば弱い相関、円状に散らばっていれば無相関。 この「点の散らばりの形」を視覚的に捉えることが散布図の目的です。

数値(相関係数)だけに頼らず、まず散布図を描いて全体像を把握することが、データ分析の第一歩です。

⚠️ 落とし穴:散布図の軸の取り方で見え方が変わる

✕ 誤:散布図を描けば関係が自動的にわかる

○ 正:軸のスケール(目盛りの幅)によって、同じデータでも見え方が変わります。 縦軸を極端に引き伸ばせば相関が強く見え、縮めれば弱く見えます。

散布図を読むときは、軸のスケールを確認する習慣をつけましょう。

4つの領域で傾向を読む

散布図の読み取りをより正確にするために、$x$ の平均値 $\bar{x}$ と $y$ の平均値 $\bar{y}$ を通る 縦線と横線を引いて、散布図を4つの領域に分けてみましょう。

領域$x_i - \bar{x}$ の符号$y_i - \bar{y}$ の符号積 $(x_i - \bar{x})(y_i - \bar{y})$
右上(第I象限)$+$$+$$+$(正)
左上(第II象限)$-$$+$$-$(負)
左下(第III象限)$-$$-$$+$(正)
右下(第IV象限)$+$$-$$-$(負)

正の相関があるデータは右上と左下(偏差積が正の領域)に多く集まり、 負の相関があるデータは左上と右下(偏差積が負の領域)に多く集まります。 この「偏差積」の考え方が、次のセクションで学ぶ共分散の基礎になります。

2共分散の定義と計算 ─ 「ずれの掛け算」の平均

散布図で相関の「向き」は視覚的にわかりましたが、その強さを数値で表したいところです。 そのための第一歩が共分散です。

分散が「1つの変量のばらつき」を表す指標だったことを思い出してください。 分散は偏差の2乗の平均 $s_x^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2$ でした。 これは「各データが平均からどれだけずれているか」の指標です。

では、2つの変量のずれ方の「連動」をどう測るか。 答えは、$x$ の偏差と $y$ の偏差を掛け合わせて平均することです。

📐 共分散の定義

2つの変量 $x$, $y$ の $n$ 個のデータ $(x_1, y_1), \ldots, (x_n, y_n)$ に対し、$x$ と $y$ の共分散 $s_{xy}$ は

$$s_{xy} = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$$

$(x_i - \bar{x})(y_i - \bar{y})$ を偏差積といいます。共分散は偏差積の平均値です。

※ 計算の便利な公式:$s_{xy} = \overline{xy} - \bar{x} \cdot \bar{y}$($\overline{xy}$ は $x_i y_i$ の平均値)
💡 ここが本質:共分散は「分散の2変量版」

分散 $s_x^2$ は $(x_i - \bar{x})$ と $(x_i - \bar{x})$ の積の平均。つまり同じ変量の偏差どうしを掛けたものです。

共分散 $s_{xy}$ は $(x_i - \bar{x})$ と $(y_i - \bar{y})$ の積の平均。つまり異なる変量の偏差どうしを掛けたものです。

分散が「自分自身との共分散」と見なせることに注目してください。 $s_{xx} = s_x^2$ です。分散と共分散は同じ構造を持った概念なのです。

共分散の符号が意味すること

セクション1の「4つの領域」を思い出しましょう。

  • 正の相関があるとき:データの多くが右上・左下の領域にある → 偏差積が正のものが多い → $s_{xy} > 0$
  • 負の相関があるとき:データの多くが左上・右下の領域にある → 偏差積が負のものが多い → $s_{xy} < 0$
  • 相関がないとき:正と負が打ち消し合う → $s_{xy} \approx 0$

このように、共分散の符号で相関の方向(正か負か)がわかります。 しかし、共分散には大きな弱点があります。

⚠️ 落とし穴:共分散の「大きさ」だけでは相関の強さはわからない

✕ 誤:共分散が大きいから、強い正の相関がある

○ 正:共分散の値は、変量の単位やスケールに依存します。 たとえば、身長を cm でなく mm で測れば、偏差が10倍になり、共分散も10倍になります。 しかし、相関の「強さ」は変わっていません。

共分散は相関の「方向」を教えてくれますが、「強さ」の比較には使えないのです。 この弱点を解決するのが、次のセクションの相関係数です。

共分散の計算例

次のデータで共分散を計算してみましょう。

$i$$x_i$$y_i$$x_i - \bar{x}$$y_i - \bar{y}$$(x_i - \bar{x})(y_i - \bar{y})$
123$-3$$-3$$9$
245$-1$$-1$$1$
358$0$$2$$0$
476$2$$0$$0$
578$2$$2$$4$

$\bar{x} = \dfrac{2+4+5+7+7}{5} = 5$、$\bar{y} = \dfrac{3+5+8+6+8}{5} = 6$ です。

偏差積の合計は $9 + 1 + 0 + 0 + 4 = 14$。 よって共分散は $s_{xy} = \dfrac{14}{5} = 2.8$ です。 $s_{xy} > 0$ なので、正の相関があることがわかります。

🔬 深掘り:共分散と分散の類似性

分散には計算の便利な公式 $s_x^2 = \overline{x^2} - (\bar{x})^2$(「2乗の平均 $-$ 平均の2乗」)がありました。 共分散にも同様の公式があります。

$$s_{xy} = \overline{xy} - \bar{x} \cdot \bar{y}$$

「積の平均 $-$ 平均の積」です。分散の公式で $x \cdot x$ を $x \cdot y$ に置き換えた形になっています。 この類似性は偶然ではなく、分散が「自分自身との共分散」であることの反映です。 大学の統計学では、分散と共分散を分散共分散行列としてまとめて扱います。

3相関係数の定義 ─ なぜ共分散を標準偏差で割るのか

共分散は相関の方向を教えてくれますが、値のスケールが変量の単位に依存するため、 異なるデータ同士で「相関の強さ」を比較できません。 この問題を解決するために、共分散を標準化したのが相関係数です。

📐 相関係数の定義

2つの変量 $x$, $y$ の標準偏差をそれぞれ $s_x$, $s_y$、共分散を $s_{xy}$ とするとき、 $x$ と $y$ の相関係数 $r$ は

$$r = \frac{s_{xy}}{s_x \, s_y}$$

展開すると

$$r = \frac{\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(y_i - \bar{y})^2}}$$
※ $s_x > 0$ かつ $s_y > 0$ のとき(すべてのデータが同じ値でないとき)に定義されます。
💡 ここが本質:相関係数は「標準化した偏差の内積」

相関係数の定義を別の角度から見てみましょう。 各データの偏差を標準偏差で割ったもの(標準化した偏差)を $u_i = \dfrac{x_i - \bar{x}}{s_x}$, $v_i = \dfrac{y_i - \bar{y}}{s_y}$ とすると、

$$r = \frac{1}{n}\sum_{i=1}^{n} u_i \, v_i$$

つまり、相関係数は標準化した偏差どうしの積の平均です。 標準化によって単位やスケールの影響が消え、純粋に「2つの変量がどれだけ連動しているか」だけが残ります。

計算例のつづき

セクション2の例で相関係数を求めましょう。 $s_{xy} = 2.8$ でした。

$x$ の分散:$s_x^2 = \dfrac{(-3)^2 + (-1)^2 + 0^2 + 2^2 + 2^2}{5} = \dfrac{18}{5} = 3.6$ → $s_x = \sqrt{3.6}$

$y$ の分散:$s_y^2 = \dfrac{(-3)^2 + (-1)^2 + 2^2 + 0^2 + 2^2}{5} = \dfrac{18}{5} = 3.6$ → $s_y = \sqrt{3.6}$

よって $r = \dfrac{2.8}{\sqrt{3.6} \times \sqrt{3.6}} = \dfrac{2.8}{3.6} \approx 0.78$

$r \approx 0.78$ なので、やや強い正の相関があることがわかります。

⚠️ 落とし穴:相関係数の計算で $n$ を忘れる・忘れない問題

✕ 誤:$s_{xy}$ の分子に $\dfrac{1}{n}$ をつけて、$s_x s_y$ の分母に $\dfrac{1}{n}$ をつけ忘れる

○ 正:相関係数 $r = \dfrac{s_{xy}}{s_x s_y}$ の分子・分母はすべて $\dfrac{1}{n}$ で割ったものです。 したがって、$r$ を計算するときは $\dfrac{1}{n}$ が分子・分母で約分されるので、 偏差積の合計を分子に、偏差の2乗和の平方根の積を分母に書けばOKです。

$$r = \frac{\displaystyle\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\displaystyle\sum(x_i - \bar{x})^2} \cdot \sqrt{\displaystyle\sum(y_i - \bar{y})^2}}$$

変量の変換と相関係数

変量 $x$, $y$ をそれぞれ $u = ax + b$, $v = cy + d$($a$, $c$ は定数、$ac > 0$)と変換したとき、 $u$ と $v$ の相関係数は $x$ と $y$ の相関係数と等しくなります

なぜなら、正の定数を掛けたり定数を足したりしても、偏差の比率は変わらないからです。 ただし、いずれか一方だけに負の定数を掛ける($ac < 0$)と、相関の正負が逆転します。

🔬 深掘り:相関係数と「2つのベクトルのなす角」

偏差 $(x_1 - \bar{x}, x_2 - \bar{x}, \ldots, x_n - \bar{x})$ を1つのベクトル $\vec{a}$ と見なし、 偏差 $(y_1 - \bar{y}, y_2 - \bar{y}, \ldots, y_n - \bar{y})$ をベクトル $\vec{b}$ と見なすと、 相関係数はちょうど $\cos\theta$(2つのベクトルのなす角の余弦)に一致します。

$$r = \frac{\vec{a} \cdot \vec{b}}{|\vec{a}| \, |\vec{b}|} = \cos\theta$$

$\cos\theta$ の値域が $[-1, 1]$ であることを知っていれば、 相関係数が $-1 \leq r \leq 1$ であることは自然に理解できます。 大学の線形代数では、このベクトルの視点からデータ分析を体系化します。

4相関係数の性質 ─ なぜ $-1 \leq r \leq 1$ が成り立つのか

相関係数 $r$ の最も重要な性質は、常に $-1$ 以上 $1$ 以下であることです。 この性質があるからこそ、$r$ は相関の強さを比較できる「ものさし」として機能します。

📐 相関係数 $r$ の性質

[1] $-1 \leq r \leq 1$

[2] $r = 1$ のとき、散布図の点はすべて右上がりの1本の直線上に並ぶ

[3] $r = -1$ のとき、散布図の点はすべて右下がりの1本の直線上に並ぶ

[4] $r$ が $0$ に近いとき、直線的な相関関係は弱い

※ $|r| = 1$ は「すべてのデータが1つの直線上にある」ことと同値です。
💡 ここが本質:$-1 \leq r \leq 1$ はコーシー・シュワルツの不等式の帰結

なぜ $r$ は必ず $-1$ から $1$ の間に収まるのでしょうか? これは「偶然そうなっている」のではなく、数学的に厳密に証明できます。

その根拠はコーシー・シュワルツの不等式です。 任意の実数 $a_1, \ldots, a_n$ と $b_1, \ldots, b_n$ に対し、

$$\left(\sum_{i=1}^{n} a_i b_i\right)^2 \leq \left(\sum_{i=1}^{n} a_i^2\right)\left(\sum_{i=1}^{n} b_i^2\right)$$

$a_i = x_i - \bar{x}$, $b_i = y_i - \bar{y}$ とおけば、$r^2 \leq 1$ すなわち $-1 \leq r \leq 1$ が得られます。

▷ $-1 \leq r \leq 1$ の証明(コーシー・シュワルツの不等式を利用)

$a_i = x_i - \bar{x}$, $b_i = y_i - \bar{y}$ とおきます。

任意の実数 $t$ に対して、$\displaystyle\sum_{i=1}^{n}(a_i + t b_i)^2 \geq 0$ が成り立ちます(2乗の和は常に0以上)。

展開すると、

$$\sum a_i^2 + 2t\sum a_i b_i + t^2\sum b_i^2 \geq 0$$

$\displaystyle\sum b_i^2 > 0$($y$ のデータがすべて同じでない場合)のとき、これは $t$ の2次不等式です。 すべての実数 $t$ で成り立つので、判別式 $D \leq 0$ が必要です。

$$D = 4\left(\sum a_i b_i\right)^2 - 4\left(\sum a_i^2\right)\left(\sum b_i^2\right) \leq 0$$

よって $\left(\displaystyle\sum a_i b_i\right)^2 \leq \left(\displaystyle\sum a_i^2\right)\left(\displaystyle\sum b_i^2\right)$

両辺を $\left(\displaystyle\sum a_i^2\right)\left(\displaystyle\sum b_i^2\right)$ で割ると、$r^2 \leq 1$。

したがって $-1 \leq r \leq 1$

等号 $|r| = 1$ が成り立つのは、すべての $i$ で $a_i + t b_i = 0$(ある実数 $t$ が存在する)、 すなわちすべてのデータが1本の直線上にあるときに限ります。

相関の強さの判断基準

$|r|$ の値から相関の強さを判断する目安は以下の通りです(あくまで大まかな基準です)。

$|r|$ の範囲相関の強さ散布図の見え方
$0.7 \leq |r| \leq 1.0$強い相関点が直線の近くに集まる
$0.4 \leq |r| < 0.7$やや相関がある楕円状に広がるが傾向は見える
$0.2 \leq |r| < 0.4$弱い相関傾向がかろうじて見える
$0 \leq |r| < 0.2$ほぼ相関なし点が散らばっている
⚠️ 落とし穴:$r = 0$ は「無関係」を意味しない

✕ 誤:$r = 0$ だから $x$ と $y$ に何の関係もない

○ 正:$r = 0$ が意味するのは「直線的な相関関係がない」ということだけです。 曲線的な関係(たとえば $y = x^2$ のような放物線的な関係)がある場合でも、$r$ は $0$ に近くなります。

たとえば $x = -2, -1, 0, 1, 2$ に対して $y = 4, 1, 0, 1, 4$($y = x^2$)のとき、 $r = 0$ ですが、$x$ と $y$ には明確な関数関係があります。 相関係数は直線的な関係の強さだけを測る指標であることを忘れないでください。

⚠️ 落とし穴:外れ値が相関係数を大きく歪める

✕ 誤:相関係数が $0.9$ だから、全体的に強い正の相関がある

○ 正:たった1個の外れ値が、相関係数を大きく変えることがあります。 大部分のデータに相関がなくても、極端に離れた1点があるだけで $r$ が $1$ に近づいたり、 逆に強い相関があっても外れ値1点で $r$ が $0$ に近づいたりします。

相関係数の数値だけで判断せず、必ず散布図を確認するのが鉄則です。 外れ値が見つかったら、その値を除いて再計算することも検討しましょう。

🔬 深掘り:回帰直線と最小二乗法 ─ 「最も合う直線」を求める

散布図に「最もよく合う直線」を引きたいとき、どう定義するのでしょうか。 それが回帰直線です。

$n$ 個のデータ $(x_i, y_i)$ に対し、直線 $y = ax + b$ を引いたとき、 各点と直線の縦方向の差 $y_i - (ax_i + b)$ の2乗の和

$$S = \sum_{i=1}^{n} \{y_i - (ax_i + b)\}^2$$

を最小にする $a$, $b$ を求める方法が最小二乗法です。 結果は $a = \dfrac{s_{xy}}{s_x^2} = r \cdot \dfrac{s_y}{s_x}$ となり、 相関係数 $r$ が回帰直線の傾きに直結しています。

最小二乗法は統計学の最も基本的な手法であり、 データサイエンスや機械学習の「線形回帰」へと発展していきます。

5相関と因果の違い ─ 「関係がある」と「原因である」は違う

ここまで、散布図と相関係数を使って2つの変量の「関係」を調べる方法を学びました。 しかし、データ分析で最も注意すべき落とし穴がここにあります。 相関関係があるからといって、因果関係があるとは限らないのです。

因果関係とは何か

一方が原因で、もう一方がその結果であるような関係を因果関係といいます。 たとえば「気温が上がる(原因)→ アイスクリームの売上が増える(結果)」は因果関係です。

一方、「相関関係」は単に「2つの変量が連動して変化する傾向がある」という事実を述べているだけで、 その連動の理由(原因と結果の関係)までは言及していません。

💡 ここが本質:相関は「パターンの発見」、因果は「メカニズムの解明」

AとBに相関があるとき、以下の可能性があります。

(1) A が B の原因(A → B)

(2) B が A の原因(B → A)

(3) 共通の原因 C がある(C → A かつ C → B)

(4) たまたま(偶然の一致)

相関係数はこれらの区別をしてくれません。 因果関係の判断には、データの背景にあるメカニズム(なぜそうなるのか)の考察が必要です。

具体例で考える

次の例を考えてみましょう。

例1:「ごみを捨てないように」という看板が多い地域ほど、ごみのポイ捨てが多い。 看板を増やしたことがポイ捨てを増やしているのでしょうか? いいえ、元々ポイ捨てが多い地域に看板が多く設置されたと考えるのが自然です(因果の逆転)。

例2:47都道府県で「公園の数」と「熱中症による救急搬送件数」に正の相関がある。 公園が熱中症を引き起こすのでしょうか? いいえ、人口が多い都道府県ほど公園も多く、搬送件数も多い。 「人口」という共通の要因(第三変数)が両方に影響しているのです。

⚠️ 落とし穴:相関関係を因果関係と混同する(最も危険な誤り)

✕ 誤:「数学の勉強時間と英語の成績に正の相関がある。だから数学を勉強すれば英語の成績も上がる。」

○ 正:「勉強熱心な生徒は数学も英語もよく勉強する」という共通の要因(学習意欲)が 背後にある可能性があります。数学の勉強が英語の成績を直接上げるとは断定できません。

データ分析の結論を述べるときは、「相関がある」と「因果関係がある」を明確に区別する言葉遣いを心がけましょう。 「$x$ が大きいほど $y$ も大きい傾向がある」は正しいですが、 「$x$ が増えると $y$ も増える」は因果を含意するので注意が必要です。

疑似相関(見せかけの相関)

第三の変数(交絡変数)の影響によって、本来関係のない2つの変量に相関が見かけ上生じることがあります。 これを疑似相関(見せかけの相関)といいます。

上の「公園の数と熱中症搬送件数」の例では、「人口」が交絡変数です。 人口の影響を取り除けば(たとえば「人口あたりの公園数」と「人口あたりの搬送件数」を比較すれば)、 見せかけの相関は消える可能性があります。

🔬 深掘り:因果推論の科学 ─ 統計学の最前線

「相関から因果をどう導くか」は、統計学・データサイエンスの最も重要な研究テーマの1つです。 ランダム化比較試験(RCT)は因果を確かめる最も信頼性の高い方法で、 新薬の効果を調べる臨床試験などで使われています。

2021年のノーベル経済学賞は「自然実験」による因果推論の研究に贈られました。 高校で学ぶ「相関と因果の区別」は、現代科学の最前線につながる概念なのです。

📋まとめ

  • 散布図は2つの変量のデータの組を平面上にプロットした図。相関の有無・方向・強さを視覚的に把握できる
  • 共分散 $s_{xy} = \dfrac{1}{n}\displaystyle\sum(x_i - \bar{x})(y_i - \bar{y})$ は偏差積の平均。符号で相関の方向がわかるが、大きさは単位に依存する
  • 相関係数 $r = \dfrac{s_{xy}}{s_x s_y}$ は共分散を標準偏差の積で割って標準化したもの。$-1 \leq r \leq 1$ が常に成り立つ
  • $|r| = 1$ ならすべてのデータが1本の直線上に並ぶ。$r = 0$ は直線的な関係がないことを意味し、曲線的な関係がある場合もある
  • 外れ値は相関係数を大きく歪めるため、数値だけでなく必ず散布図も確認する
  • 相関関係 $\neq$ 因果関係。共通の要因(疑似相関)や因果の逆転に注意し、データの背景を考察することが重要

確認テスト

Q1. 散布図で「正の相関」があるとは、どのような傾向のことですか?

▶ クリックして解答を表示$x$ の値が大きいほど $y$ の値も大きい傾向があること。散布図では点が右上がりに分布する。

Q2. 共分散 $s_{xy}$ の計算公式 $s_{xy} = \overline{xy} - \bar{x} \cdot \bar{y}$ を使って、次のデータの共分散を求めてください。
$x$:1, 2, 3  $y$:4, 5, 9

▶ クリックして解答を表示$\bar{x} = 2$, $\bar{y} = 6$, $\overline{xy} = \dfrac{1 \cdot 4 + 2 \cdot 5 + 3 \cdot 9}{3} = \dfrac{41}{3}$。$s_{xy} = \dfrac{41}{3} - 2 \cdot 6 = \dfrac{41}{3} - 12 = \dfrac{5}{3} \approx 1.67$

Q3. 相関係数が $-1 \leq r \leq 1$ となることの根拠となる不等式の名前は何ですか?

▶ クリックして解答を表示コーシー・シュワルツの不等式。$\left(\sum a_i b_i\right)^2 \leq \left(\sum a_i^2\right)\left(\sum b_i^2\right)$

Q4. $r = 0$ のとき、「$x$ と $y$ には何の関係もない」と言えますか? 理由も答えてください。

▶ クリックして解答を表示言えない。$r = 0$ は「直線的な相関関係がない」ことを意味するだけで、$y = x^2$ のような曲線的な関係がある場合でも $r = 0$ になりうる。

Q5. 「アイスクリームの売上と水難事故の件数に正の相関がある」とき、アイスクリームの売上増加が水難事故を引き起こしていると言えますか?

▶ クリックして解答を表示言えない。「気温の上昇」という共通の要因があり、気温が上がるとアイスの売上も増え、水遊びの機会が増えて水難事故も増える。これは疑似相関(見せかけの相関)の典型例である。

8入試問題演習

この記事で学んだ内容を、入試形式の問題で確認しましょう。

A 基礎レベル

5-5-1 A 基礎 共分散 相関係数

次の表は5人の生徒の数学と英語のテストの得点である。

生徒ABCDE
数学 $x$6070805090
英語 $y$5060704080

(1) $x$ と $y$ の平均値をそれぞれ求めよ。

(2) $x$ と $y$ の共分散 $s_{xy}$ を求めよ。

(3) $x$ と $y$ の相関係数 $r$ を求めよ。

▶ クリックして解答・解説を表示
解答

(1) $\bar{x} = 70$, $\bar{y} = 60$

(2) $s_{xy} = 200$

(3) $r = 1$

解説

方針:平均値を求め、偏差と偏差積を計算し、共分散・相関係数を順に求める。

(1) $\bar{x} = \dfrac{60+70+80+50+90}{5} = \dfrac{350}{5} = 70$

$\bar{y} = \dfrac{50+60+70+40+80}{5} = \dfrac{300}{5} = 60$

(2) 偏差積:$(-10)(-10) + 0 \cdot 0 + 10 \cdot 10 + (-20)(-20) + 20 \cdot 20$ $= 100 + 0 + 100 + 400 + 400 = 1000$

$s_{xy} = \dfrac{1000}{5} = 200$

(3) $s_x^2 = \dfrac{100 + 0 + 100 + 400 + 400}{5} = 200$ → $s_x = \sqrt{200} = 10\sqrt{2}$

$s_y^2 = \dfrac{100 + 0 + 100 + 400 + 400}{5} = 200$ → $s_y = 10\sqrt{2}$

$r = \dfrac{200}{10\sqrt{2} \times 10\sqrt{2}} = \dfrac{200}{200} = 1$

※ $y = x - 10$ という完全な直線関係があるため $r = 1$ となる。

5-5-2 A 基礎 散布図 相関係数の判断

次の(ア)~(ウ)の相関係数 $r$ の値として最も適当なものを、下の選択肢から選べ。

(ア) 身長と体重のデータで、点が右上がりにやや広がって分布している

(イ) 数学と国語のデータで、点がほぼ円形に散らばっている

(ウ) 気温と暖房費のデータで、点が右下がりに比較的まとまって分布している

  • ① $r \approx -0.8$  ② $r \approx -0.3$  ③ $r \approx 0.05$  ④ $r \approx 0.6$
▶ クリックして解答・解説を表示
解答

(ア) ④ $r \approx 0.6$  (イ) ③ $r \approx 0.05$  (ウ) ① $r \approx -0.8$

解説

方針:散布図の点の分布パターンから相関の方向と強さを判断する。

(ア) 「右上がりにやや広がっている」→ 正の相関でやや強い → $r \approx 0.6$

(イ) 「ほぼ円形に散らばっている」→ 相関なし → $r \approx 0.05$

(ウ) 「右下がりに比較的まとまっている」→ 負の相関で強い → $r \approx -0.8$

ポイント:正の相関は $r > 0$(右上がり)、負の相関は $r < 0$(右下がり)。 点がまとまっているほど $|r|$ は1に近く、散らばっているほど0に近い。

B 発展レベル

5-5-3 B 発展 変量の変換 相関係数 論述

2つの変量 $x$, $y$ の相関係数が $r$ であるとする。 $u = 2x + 3$, $v = -5y + 1$ と変換したとき、$u$ と $v$ の相関係数を求めよ。

▶ クリックして解答・解説を表示
解答

$u$ と $v$ の相関係数は $-r$

解説

方針:変量の変換が共分散と標準偏差にどう影響するかを調べる。

$u = 2x + 3$ より $u_i - \bar{u} = 2(x_i - \bar{x})$。 $v = -5y + 1$ より $v_i - \bar{v} = -5(y_i - \bar{y})$。

共分散:$s_{uv} = \dfrac{1}{n}\sum(u_i - \bar{u})(v_i - \bar{v}) = \dfrac{1}{n}\sum 2(x_i - \bar{x}) \cdot (-5)(y_i - \bar{y})$ $= -10 \cdot s_{xy}$

標準偏差:$s_u = 2 s_x$, $s_v = 5 s_y$(標準偏差は正の値)

$r_{uv} = \dfrac{s_{uv}}{s_u \cdot s_v} = \dfrac{-10 \, s_{xy}}{2 s_x \cdot 5 s_y} = \dfrac{-10 \, s_{xy}}{10 \, s_x s_y} = -\dfrac{s_{xy}}{s_x s_y} = -r$

※ $x$ に正の定数($2$)、$y$ に負の定数($-5$)を掛けたので、相関の正負が逆転する。

採点ポイント
  • 偏差の変換を正しく書く(2点)
  • 共分散の変換を正しく求める(3点)
  • 標準偏差の変換を正しく求める(3点)
  • $-r$ を導出する(2点)
5-5-4 B 発展 相関と因果 考察 論述

ある調査で、「1日のスマートフォン使用時間 $x$(時間)」と「1日の読書時間 $y$(時間)」のデータを 100人分集めたところ、相関係数は $r = -0.65$ であった。

(1) $r = -0.65$ からどのようなことが読み取れるか。

(2) 「スマートフォンの使用時間を減らせば読書時間が増える」と結論づけることは適切か。理由とともに述べよ。

▶ クリックして解答・解説を表示
解答

(1) スマートフォンの使用時間が長い人ほど読書時間が短い傾向がある(やや強い負の相関がある)。

(2) 適切とは言えない。相関関係があるからといって因果関係があるとは限らない。 たとえば「自由時間の長さ」や「生活スタイル」などの第三変数が両方に影響している可能性がある。

解説

方針:相関係数の値から相関の方向と強さを読み取り、因果関係との違いを論述する。

(1) $r = -0.65$ は負の値なので負の相関を示す。$|r| = 0.65$ はやや強い相関。 よって「スマートフォンの使用時間が長いほど、読書時間が短い傾向がある」と読み取れる。

(2) 相関関係は「2つの変量が連動して変化する傾向」を示すだけで、一方が他方の原因であることは示さない。 スマートフォンを使う時間が長い人は、もともと読書よりも動画視聴などを好む生活スタイルの人かもしれない。 また、仕事や通学で忙しく自由時間が少ない人は、その少ない時間をスマートフォンに使い、読書する余裕がないのかもしれない。 因果関係の判断にはデータだけでなく、背景の考察や追加の調査が必要である。

採点ポイント
  • (1) 負の相関であることを述べる(2点)
  • (1) 相関の強さについて言及する(1点)
  • (2) 因果関係とは断定できないことを述べる(3点)
  • (2) 第三変数の可能性など具体的な理由を挙げる(4点)