第5章 データの分析

データの分析の総合問題
─ 統計量を「操る」力を身につける

共通テストでは、グラフや表を正しく読み取り、統計量の変化を素早く判断する力が問われます。
この記事では、データの追加・削除による統計量の変化、2つのデータ群の統合など、総合的な問題を原理から整理します。

1共通テスト型の読み取り問題 ─ グラフの「ワナ」を見抜く

共通テストの「データの分析」では、ヒストグラム・箱ひげ図・散布図などのグラフを見て、 統計量の大小関係や相関の強さを判断する問題が頻出です。 計算そのものよりも、グラフから何が読み取れて何が読み取れないかを 正確に把握する力が試されます。

まず、各グラフから「読み取れること」と「読み取れないこと」を整理しましょう。

グラフの種類読み取れること読み取れないこと
ヒストグラム 分布の形状、最頻値の目安、おおよその範囲 個々のデータの値、正確な平均値、正確な中央値
箱ひげ図 最小値・最大値・四分位数・中央値・四分位範囲 平均値、データの個数、分布の詳細な形状
散布図 相関の方向(正・負)・強さの目安、外れ値の有無 正確な相関係数の値、因果関係
💡 ここが本質:グラフは「見えるもの」だけを根拠にする

共通テストで最も大切な原則は、「グラフから確実に読み取れることだけを根拠にする」ことです。 推測や思い込みで答えてはいけません。

たとえば、箱ひげ図からは平均値は読み取れません。 中央値と平均値は異なる量なので、箱ひげ図の中央値の位置から平均値を推測するのは危険です。

同様に、ヒストグラムからは個々のデータの値はわかりません。 「最も度数が多い階級に平均値がある」とは限らないのです。

箱ひげ図の読み取りで間違えやすいポイント

箱ひげ図は5つの値(最小値、第1四分位数 $Q_1$、中央値 $Q_2$、第3四分位数 $Q_3$、最大値)で データの散らばりを表します。ここで注意すべきは、箱の幅はデータの密度に反比例するということです。

箱ひげ図では「$Q_1$ から $Q_2$ の間」と「$Q_2$ から $Q_3$ の間」に、 それぞれデータの約25%が含まれます。 箱が狭い部分にはデータが密集しており、広い部分にはデータがまばらに散らばっています。

⚠️ 落とし穴:箱ひげ図の「箱の広さ」をデータの個数と勘違いする

✕ 誤:「箱の右半分($Q_2$ 〜 $Q_3$)が左半分($Q_1$ 〜 $Q_2$)より広いから、右半分にデータが多い」

○ 正:箱の左半分にも右半分にも、データ全体の約25%ずつ(同数)が含まれます。 箱が広い部分はデータが「まばら」なのであり、「多い」のではありません。

箱ひげ図はデータの散らばり方を表すものであって、データの密度を直接表すものではないことを意識しましょう。

⚠️ 落とし穴:2つの箱ひげ図を比較するとき「範囲が広い方が分散が大きい」と断定する

✕ 誤:「データAの範囲はデータBの範囲より大きいから、Aの分散はBより大きい」

○ 正:範囲(最大値 $-$ 最小値)は最も極端な2つの値だけで決まる量です。 大部分のデータが平均の近くに集まっていても、1つの外れ値があるだけで範囲は大きくなります。

分散はすべてのデータの偏差の2乗の平均なので、範囲だけでは判断できません。 四分位範囲($Q_3 - Q_1$)の方が、散らばりの比較にはより適した指標です。

散布図と相関係数の読み取り

散布図を見て「正の相関」「負の相関」「相関なし」を判断するのは比較的容易ですが、 共通テストでは相関係数 $r$ の値の大小関係を問う問題がよく出ます。

重要なのは、外れ値が相関係数に大きな影響を与えるという事実です。 たとえば、全体としてはほとんど相関がなくても、1点の外れ値が離れた位置にあると、 相関係数が大きく変わることがあります。

💡 ここが本質:相関係数は「直線的な関係の強さ」だけを測る

相関係数 $r$ は2つの変量の間の直線的な関係の強さと方向を表す指標です。 $-1 \leq r \leq 1$ であり、$|r|$ が1に近いほど直線的な関係が強いことを意味します。

注意すべきは、相関係数はあくまで「直線的な関係」しか測れないということです。 たとえば $y = x^2$ のような放物線的な関係があっても、相関係数は0に近くなりえます。

また、相関関係は因果関係を意味しないという原則も忘れてはいけません。 「アイスの売上と水難事故は正の相関がある」からといって、「アイスが水難事故を引き起こす」わけではありません (気温という共通の原因がある)。

🔬 深掘り:共通テストでよくある「グラフの読み間違い」パターン集

共通テストの過去問を分析すると、以下のような「間違いを誘う」選択肢が繰り返し出題されています。

(1) 箱ひげ図で平均値を読み取ろうとする ─ 中央値は読めるが平均値は読めません。 分布が左右非対称のとき、平均値と中央値は異なります。

(2) ヒストグラムの最頻値の階級 = 中央値がある階級と思い込む ─ 分布が偏っていれば、 中央値は最頻値とは別の階級に入ることがあります。

(3) 散布図で離れた1点を無視する ─ その1点が外れ値なら、 相関係数に大きく影響します。外れ値を除くと相関が大きく変わることがあります。

(4) 「範囲が同じなら分散も同じ」と考える ─ 範囲はデータの両端だけで決まり、 分散はすべてのデータから計算されるので、範囲が同じでも分散は異なりえます。

2表・グラフの複合問題 ─ 複数の情報を組み合わせる

共通テストでは、1つの問題の中で表・ヒストグラム・箱ひげ図・散布図など 複数の情報源を組み合わせて判断させる問題が増えています。 ここでは、複合問題を解くための戦略を整理します。

度数分布表から統計量を求める

度数分布表が与えられたとき、個々のデータの値はわかりません。 そこで、各階級の階級値(階級の中央の値)を代表値として使います。

たとえば、階級が「$10$ 以上 $20$ 未満」であれば、階級値は $15$ です。 度数が $f_i$、階級値が $m_i$ のとき、平均値は次のように計算します。

$$\bar{x} = \frac{\displaystyle\sum_{i} m_i f_i}{\displaystyle\sum_{i} f_i}$$

分散も同様に、階級値を使って近似的に求めます。

$$s^2 = \frac{\displaystyle\sum_{i} m_i^2 f_i}{\displaystyle\sum_{i} f_i} - \bar{x}^2$$
⚠️ 落とし穴:度数分布表の統計量は「近似値」であることを忘れる

✕ 誤:度数分布表から計算した平均値を「正確な平均値」として扱う

○ 正:度数分布表からの計算は、各階級内のデータがすべて階級値に等しいと仮定した近似値です。 元の個々のデータから計算した値とは、一般に一致しません。

共通テストでは「この度数分布表から求めた平均値は〇〇である」のような言い回しが使われ、 近似であることが暗黙の前提になっています。

変量の変換と統計量の関係

変量 $x$ のデータに対して、$y = ax + b$($a, b$ は定数)という変換を行ったとき、 統計量がどう変わるかは、データの分析の基本中の基本です。

📐 変量の変換 $y = ax + b$ における統計量の変化

平均値:$\bar{y} = a\bar{x} + b$

分散:$s_y^2 = a^2 s_x^2$

標準偏差:$s_y = |a| \, s_x$

※ 平均値は $a$ 倍して $b$ を足す。分散は $a^2$ 倍($b$ は影響しない)。標準偏差は $|a|$ 倍($b$ は影響しない)。

なぜ分散に $b$ が影響しないのでしょうか? 分散は「平均からのズレ(偏差)の2乗の平均」です。 すべてのデータに同じ定数 $b$ を足すと、平均も $b$ だけ増えるので、偏差は変わりません。 一方、$a$ 倍すると偏差も $a$ 倍になるので、偏差の2乗は $a^2$ 倍になります。

💡 ここが本質:「散らばり」は平行移動で変わらない

データ全体を同じだけ平行移動しても($+b$)、散らばり方は変わりません。 これは直感的に当然です ── 全員の得点に10点足しても、散らばりは同じです。

一方、データ全体を $a$ 倍すると、散らばりの「幅」も $a$ 倍に広がります。 分散は偏差の2乗なので $a^2$ 倍、標準偏差は偏差そのものなので $|a|$ 倍です。

この原理を使えば、大きな数値のデータでも、$y = \dfrac{x - b}{a}$ のように変換して 計算しやすい数値に直し、あとで逆変換する「仮平均法」が使えます。

相関係数の計算と変量変換

変量 $x$, $y$ に対して $u = ax + b$, $v = cy + d$($a > 0$, $c > 0$)と変換したとき、 $u$ と $v$ の相関係数はどうなるでしょうか?

結論は、$a > 0$ かつ $c > 0$ なら相関係数は変わらないです。 相関係数は標準偏差で偏差を割って(標準化して)から計算するため、 スケールの変更は打ち消されるのです。 ただし、$a$ や $c$ が負の場合は符号が反転します。

▷ 変量変換で相関係数が変わらない理由

$u = ax + b$, $v = cy + d$($a > 0$, $c > 0$)のとき、

$u$ の偏差:$u_i - \bar{u} = a(x_i - \bar{x})$、$v$ の偏差:$v_i - \bar{v} = c(y_i - \bar{y})$

共分散:$s_{uv} = \dfrac{1}{n}\displaystyle\sum(u_i - \bar{u})(v_i - \bar{v}) = ac \cdot s_{xy}$

標準偏差:$s_u = a \, s_x$, $\;s_v = c \, s_y$

よって、相関係数は

$$r_{uv} = \frac{s_{uv}}{s_u \cdot s_v} = \frac{ac \cdot s_{xy}}{a \, s_x \cdot c \, s_y} = \frac{s_{xy}}{s_x \cdot s_y} = r_{xy}$$

$a, c$ がともに正のとき、定数 $b, d$ の加減やスケール $a, c$ の変更は相関係数に影響しません。

3データの追加・削除 ─ 統計量はどう変わるか

「データを1つ追加(または削除)したとき、平均値や分散はどう変化するか?」 これは共通テストや入試で非常に頻出のテーマです。 計算量が少なく短時間で答えられるため、正しく理解していれば確実な得点源になります。

平均値の変化を考える

$n$ 個のデータの平均値が $\bar{x}$ のとき、データの総和は $n\bar{x}$ です。 ここに新しいデータ $a$ を1つ追加すると、データは $n + 1$ 個になり、総和は $n\bar{x} + a$ になります。

$$\text{新しい平均値} = \frac{n\bar{x} + a}{n + 1}$$

では、平均値は増えるのでしょうか、減るのでしょうか? 新しい平均値と元の平均値 $\bar{x}$ の差を計算すれば一目瞭然です。

$$\frac{n\bar{x} + a}{n + 1} - \bar{x} = \frac{n\bar{x} + a - (n+1)\bar{x}}{n + 1} = \frac{a - \bar{x}}{n + 1}$$
💡 ここが本質:追加データと平均値の大小関係がすべてを決める

データ $a$ を追加したとき、平均値の変化量は $\dfrac{a - \bar{x}}{n + 1}$ です。

$a > \bar{x}$ のとき:平均値は増加する(平均より大きい値を追加したから)

$a = \bar{x}$ のとき:平均値は変化しない(ちょうど平均と同じ値を追加したから)

$a < \bar{x}$ のとき:平均値は減少する(平均より小さい値を追加したから)

これは直感的にも自然です。クラスの平均点が60点のとき、 80点の生徒が加わればクラスの平均は上がり、40点の生徒が加われば平均は下がります。

分散の変化を考える

分散の変化は、平均値の変化に比べると少し複雑です。 しかし、原理を理解すれば計算なしで判断できるケースが多くあります。

分散は「偏差の2乗の平均」、すなわち $s^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2$ です。 これは「各データが平均からどれだけ離れているかの2乗」を平均したものです。

また、分散には非常に便利な別の計算公式があります。

$$s^2 = \overline{x^2} - (\bar{x})^2$$

ここで $\overline{x^2}$ は「データの2乗の平均」です。 この公式は、データの追加・削除や統合の問題で特に威力を発揮します。

📐 分散の2つの表現

定義式:$s^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2$(偏差の2乗の平均)

計算公式:$s^2 = \overline{x^2} - (\bar{x})^2$(2乗の平均 $-$ 平均の2乗)

※ 計算公式は定義式を展開すれば導けます。入試では計算公式の方が便利な場面が多いです。

データの修正と統計量の変化

入力ミスが見つかって、あるデータの値を修正する場合を考えましょう。 たとえば、$n$ 個のデータの中の1つの値が $p$ から $q$ に変わったとします。

平均値の変化:データの総和は $q - p$ だけ変わるので、

$$\text{新しい平均値} = \bar{x} + \frac{q - p}{n}$$

分散の変化:分散の変化は、平均値の変化と偏差の2乗の総和の変化の両方に依存するため、 一般には個別に計算する必要があります。 しかし、平均値が変わらない修正(たとえば、6を10に、30を26に修正して総和が不変のとき)であれば、 偏差の2乗の総和の変化だけを見ればよいのです。

⚠️ 落とし穴:「データの総和が変わらない = 分散も変わらない」と思い込む

✕ 誤:「6を10に、30を26に修正した。$6 + 30 = 10 + 26 = 36$ で総和は不変。だから平均も分散も変わらない」

○ 正:平均値は確かに変わりません。しかし分散は「偏差の2乗の和」で決まります。 修正前の偏差の2乗の和と修正後の偏差の2乗の和を比べる必要があります。

たとえば平均が16のとき、修正前:$(6-16)^2 + (30-16)^2 = 100 + 196 = 296$、 修正後:$(10-16)^2 + (26-16)^2 = 36 + 100 = 136$。 偏差の2乗の和が減ったので、分散は減少します。

直感的にも、6と30は平均16から遠い値ですが、10と26は平均16に近い値です。 データが平均に近づけば、散らばりは小さくなります。

🔬 深掘り:データの追加・削除を「総和」で管理する方法

データの追加・削除・修正による統計量の変化を考えるとき、最も確実な方法は 「総和」と「2乗の総和」で管理することです。

$n$ 個のデータの平均 $\bar{x}$、分散 $s^2$ が与えられたとき:

・データの総和:$S = n\bar{x}$

・データの2乗の総和:$T = n \cdot \overline{x^2} = n(s^2 + \bar{x}^2)$

データを追加・削除・修正したら、$S$ と $T$ を更新し、新しいデータ数で割り直せばよいのです。 この方法なら、どんな変更にも体系的に対応できます。 大学の統計学でも、このような「十分統計量」の考え方は基本的な概念です。

42つのデータ群の統合 ─ 全体の平均・分散を求める

クラスの中の2つのグループや、2回に分けて行ったテストの結果を統合するとき、 全体の平均値や分散をどう求めるかは、入試の定番問題です。

ここで重要なのは、2つの分散の単純平均は全体の分散にならないということです。 なぜなら、2つのグループの平均値が異なる場合、 「グループ間のズレ」も散らばりの原因になるからです。

全体の平均値

グループAが $n_A$ 個のデータで平均 $\bar{x}_A$、グループBが $n_B$ 個のデータで平均 $\bar{x}_B$ のとき、 全体の平均値は加重平均(データ数で重み付けした平均)です。

$$\bar{x} = \frac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B}$$

これは、全データの総和を全データ数で割っているだけです。直感的にも自然でしょう。

全体の分散

全体の分散を求めるには、$s^2 = \overline{x^2} - (\bar{x})^2$ を使います。 まず全体の「2乗の平均」$\overline{x^2}$ を求め、そこから全体の「平均の2乗」$(\bar{x})^2$ を引きます。

▷ 2群統合時の分散の導出

グループAの分散を $s_A^2$、グループBの分散を $s_B^2$ とします。

$s_A^2 = \overline{x_A^2} - \bar{x}_A^2$ より $\overline{x_A^2} = s_A^2 + \bar{x}_A^2$

$s_B^2 = \overline{x_B^2} - \bar{x}_B^2$ より $\overline{x_B^2} = s_B^2 + \bar{x}_B^2$

全体の「2乗の平均」は:

$$\overline{x^2} = \frac{n_A \overline{x_A^2} + n_B \overline{x_B^2}}{n_A + n_B} = \frac{n_A(s_A^2 + \bar{x}_A^2) + n_B(s_B^2 + \bar{x}_B^2)}{n_A + n_B}$$

よって全体の分散は:

$$s^2 = \overline{x^2} - \bar{x}^2 = \frac{n_A(s_A^2 + \bar{x}_A^2) + n_B(s_B^2 + \bar{x}_B^2)}{n_A + n_B} - \bar{x}^2$$

ここで $\bar{x} = \dfrac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B}$ です。

📐 2群統合の平均値と分散

グループA($n_A$ 個、平均 $\bar{x}_A$、分散 $s_A^2$)とグループB($n_B$ 個、平均 $\bar{x}_B$、分散 $s_B^2$)を統合するとき:

全体の平均値:

$$\bar{x} = \frac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B}$$

全体の分散:

$$s^2 = \frac{n_A(s_A^2 + \bar{x}_A^2) + n_B(s_B^2 + \bar{x}_B^2)}{n_A + n_B} - \bar{x}^2$$
※ 分散の公式は「各グループの2乗の平均の加重平均」から「全体の平均の2乗」を引いた形です。
※ $\bar{x}_A = \bar{x}_B$ のとき(2群の平均が等しいとき)に限り、$s^2$ は各分散の加重平均になります。
💡 ここが本質:全体の分散 = 群内分散 + 群間分散

2群統合の分散の公式を変形すると、次のように解釈できます。

$$s^2 = \underbrace{\frac{n_A s_A^2 + n_B s_B^2}{n_A + n_B}}_{\text{群内分散の加重平均}} + \underbrace{\frac{n_A n_B}{(n_A + n_B)^2}(\bar{x}_A - \bar{x}_B)^2}_{\text{群間の平均値の差に由来する分散}}$$

全体の散らばりは、各グループ内部の散らばりグループ間の平均値の差による散らばりの合計です。 2つのグループの平均値が大きく異なるほど、全体の分散は各グループの分散の加重平均より大きくなります。

⚠️ 落とし穴:2つの分散を単純平均して全体の分散とする

✕ 誤:「A群の分散が24、B群の分散が28だから、全体の分散は $\dfrac{24 + 28}{2} = 26$」

○ 正:2群の平均値が異なる場合、全体の分散は各分散の加重平均よりも大きくなります。 「群間の差」に由来する追加の散らばりが生じるからです。

全体の分散を求めるには、必ず「2乗の平均」を経由して計算してください。 2群の平均が等しい場合にのみ、分散の加重平均が全体の分散に一致します。

具体例で確認する

A組(20人、平均16、分散24)とB組(60人、平均12、分散28)を統合するとき:

全体の平均値:$\bar{x} = \dfrac{20 \times 16 + 60 \times 12}{20 + 60} = \dfrac{320 + 720}{80} = 13$

全体の分散:

$$s^2 = \frac{20(24 + 16^2) + 60(28 + 12^2)}{80} - 13^2 = \frac{20 \times 280 + 60 \times 172}{80} - 169$$ $$= \frac{5600 + 10320}{80} - 169 = 199 - 169 = 30$$

各分散の加重平均は $\dfrac{20 \times 24 + 60 \times 28}{80} = \dfrac{480 + 1680}{80} = 27$ ですが、 全体の分散は $30$ とそれより大きくなっています。 差の $3$ は、A組(平均16)とB組(平均12)の平均値の差(群間分散)に由来します。

🔬 深掘り:分散の分解と大学統計学への接続

「全体の分散 = 群内分散 + 群間分散」という分解は、大学統計学の分散分析(ANOVA: Analysis of Variance)の基礎です。

分散分析では、データの変動を「グループ内の変動」と「グループ間の変動」に分けて、 グループ間に統計的に有意な差があるかを検定します。 たとえば、3種類の肥料でトマトの収穫量が異なるかを調べるとき、 全体のばらつきのうち「肥料の種類による差」がどれだけを占めるかを数値化するのがANOVAです。

さらに、大学では推定(標本から母集団の性質を推測する)や検定(仮説が正しいかデータで判断する)を学びます。 高校で学ぶ「仮説検定の考え方」は、この検定の入口に相当します。 帰無仮説を立て、その仮説のもとで計算した確率が基準より小さければ仮説を棄却する ── この論理の骨格は、大学でも全く同じです。

高校のデータの分析で身につけた「平均」「分散」「標準偏差」の計算力と直感は、 大学の推測統計学を学ぶうえで不可欠な基盤になります。

5第5章の全体俯瞰マップ ─ データの分析の全体像

第5章「データの分析」で学んだ内容を全体的に俯瞰し、各概念のつながりを整理しましょう。

概念の体系図

カテゴリ概念・統計量何を測るか
代表値平均値、中央値、最頻値データの「中心」の位置
散布度分散、標準偏差、範囲、四分位範囲データの「散らばり」の大きさ
相関共分散、相関係数2変量間の「直線的関係」の強さと方向
可視化ヒストグラム、箱ひげ図、散布図データの分布の「形」を視覚化
変換$y = ax + b$、標準化データのスケール調整、比較の容易化

つながりマップ

  • ← 5-1〜5-4 データの整理と代表値・分散:平均値・分散・標準偏差・箱ひげ図の定義と計算法。これらの基本がすべての土台です。
  • ← 5-5〜5-6 相関と変量変換:共分散・相関係数の定義、変量変換の公式。本記事の複合問題で前提となる知識です。
  • → 第7章 確率:確率変数の期待値・分散は、データの平均・分散と同じ構造を持ちます。「データの分析」は確率論の実世界版です。
  • → 数学B 統計的な推測:母集団と標本の関係、推定・検定の考え方。本記事の「仮説検定の考え方」が直接つながります。
  • → 大学の統計学:分散分析(ANOVA)、回帰分析、最小二乗法。高校の分散・相関係数がそのまま発展します。

問題パターンの整理

パターン問われること解法のポイント
A:グラフ読み取りグラフから統計量の大小を判断「読み取れるもの」と「読み取れないもの」を区別
B:変量変換$y = ax + b$ 後の統計量平均は $a$ 倍 $+ b$、分散は $a^2$ 倍、相関係数は不変
C:データ修正値の変更後の平均・分散総和と2乗の総和の変化に注目
D:データ追加・削除データ数変更後の統計量追加データと平均の大小、偏差の2乗への影響
E:2群統合全体の平均・分散総和と2乗の総和を合算。群間分散を忘れない
F:仮説検定仮説のもとでの確率判断帰無仮説を立て、確率を計算し、基準と比較

📋まとめ

  • グラフの読み取りでは「読み取れるもの」と「読み取れないもの」を区別する。箱ひげ図から平均値は読めない
  • 変量変換 $y = ax + b$ で、平均は $a\bar{x} + b$、分散は $a^2 s^2$、相関係数は不変($a, c > 0$ のとき)
  • データ追加時、平均値の変化は追加データと元の平均の大小関係で決まる。$a > \bar{x}$ なら増加、$a < \bar{x}$ なら減少
  • データ修正で総和が変わらなくても分散は変わりうる。偏差の2乗の総和の変化で判断する
  • 2群統合の分散は各分散の加重平均ではない群間の平均値の差による分散が加わる
  • 分散の計算は$s^2 = \overline{x^2} - (\bar{x})^2$(2乗の平均 $-$ 平均の2乗)が最も汎用的

確認テスト

Q1. 箱ひげ図から読み取れる統計量を5つ挙げ、読み取れない代表的な統計量を1つ挙げてください。

▶ クリックして解答を表示読み取れる:最小値、第1四分位数 $Q_1$、中央値 $Q_2$、第3四分位数 $Q_3$、最大値。読み取れない代表的な統計量:平均値。

Q2. 10個のデータの平均値が50のとき、新しいデータ60を追加すると平均値はいくつになりますか?

▶ クリックして解答を表示$\dfrac{10 \times 50 + 60}{11} = \dfrac{560}{11} \fallingdotseq 50.9$。追加データ60は元の平均50より大きいので、平均値は増加します。

Q3. 変量 $x$ の平均が20、分散が9のとき、$y = 3x - 10$ の平均値と分散を求めてください。

▶ クリックして解答を表示平均値:$\bar{y} = 3 \times 20 - 10 = 50$。分散:$s_y^2 = 3^2 \times 9 = 81$。標準偏差:$s_y = 3 \times 3 = 9$。

Q4. A群(5人、平均10)とB群(5人、平均20)を統合した全体の平均値を求めてください。

▶ クリックして解答を表示$\bar{x} = \dfrac{5 \times 10 + 5 \times 20}{5 + 5} = \dfrac{50 + 100}{10} = 15$。同数のグループなので単純平均と一致します。

Q5. 12個の月別最高気温データで、30℃を18℃に修正したとき、平均値は何℃減少しますか?

▶ クリックして解答を表示総和の減少は $30 - 18 = 12$(℃)。よって平均値の減少は $\dfrac{12}{12} = 1$(℃)。

8入試問題演習

この記事で学んだ内容を、入試形式の問題で確認しましょう。

A 基礎レベル

5-7-1 A 基礎 データ修正 平均・分散

ある都市の12か月の最高気温データ(単位:℃)の平均値は16℃であった。 入力ミスが見つかり、6℃を10℃に、30℃を26℃に修正した。

(1) 修正後の平均値を求めよ。

(2) 修正後の分散は修正前と比べて増加するか、減少するか、それとも変化しないか。理由とともに答えよ。

▶ クリックして解答・解説を表示
解答

(1) 16℃(変化しない)

(2) 減少する

解説

(1) $6 + 30 = 36$ と $10 + 26 = 36$ でデータの総和は不変。データ数も不変。よって平均値は16℃のまま変わらない。

(2) 平均値が16℃で不変なので、修正したデータの偏差の2乗の和を比較する。

修正前:$(6 - 16)^2 + (30 - 16)^2 = 100 + 196 = 296$

修正後:$(10 - 16)^2 + (26 - 16)^2 = 36 + 100 = 136$

他のデータの偏差は変わらないので、偏差の2乗の総和は $296 - 136 = 160$ だけ減少。よって分散は減少する。

直感的にも、6と30は平均16から遠い値であるのに対し、10と26は平均16に近い値なので、散らばりは小さくなる。

5-7-2 A 基礎 変量変換 統計量

変量 $x$ のデータの平均値が $\bar{x} = 21$、標準偏差が $s_x = 4$ であるとき、 $y = 5x - 3$ で定められる変量 $y$ について次を求めよ。

(1) $y$ の平均値 $\bar{y}$

(2) $y$ の標準偏差 $s_y$

▶ クリックして解答・解説を表示
解答

(1) $\bar{y} = 102$

(2) $s_y = 20$

解説

$y = ax + b$($a = 5, b = -3$)の変換を行うとき:

(1) $\bar{y} = a\bar{x} + b = 5 \times 21 + (-3) = 105 - 3 = 102$

(2) $s_y = |a| \cdot s_x = 5 \times 4 = 20$

標準偏差は定数 $b$ の加減に影響されない。$a = 5$ 倍すると散らばりも5倍に広がる。

B 標準レベル

5-7-3 B 標準 2群統合 分散

40人のクラスで数学のテストを行った。受験者32人の得点について平均値 $\bar{x} = 35$ 点、分散 $s_x^2 = 25$ であった。 欠席者8人は後日同じテストを受け、この8人の得点について平均値 $\bar{y} = 40$ 点、分散 $s_y^2 = 20$ であった。

(1) クラス40人全員の平均値を求めよ。

(2) クラス40人全員の分散を求めよ。

▶ クリックして解答・解説を表示
解答

(1) 36点

(2) 28

解説

方針:各群のデータの総和と2乗の総和を求め、全体で割り直す。

(1) 全体の平均値:$\bar{z} = \dfrac{32 \times 35 + 8 \times 40}{40} = \dfrac{1120 + 320}{40} = 36$(点)

(2) 受験者32人の「2乗の平均」:$\overline{x^2} = s_x^2 + \bar{x}^2 = 25 + 35^2 = 1250$

欠席者8人の「2乗の平均」:$\overline{y^2} = s_y^2 + \bar{y}^2 = 20 + 40^2 = 1620$

全体の「2乗の平均」:$\overline{z^2} = \dfrac{32 \times 1250 + 8 \times 1620}{40} = \dfrac{40000 + 12960}{40} = 1324$

全体の分散:$s_z^2 = \overline{z^2} - \bar{z}^2 = 1324 - 36^2 = 1324 - 1296 = 28$

なお、各分散の加重平均は $\dfrac{32 \times 25 + 8 \times 20}{40} = \dfrac{800 + 160}{40} = 24$ であり、全体の分散28はそれより大きい。差の4は群間分散に由来する。

採点ポイント
  • 全体の平均値を正しく求める(2点)
  • $\overline{x^2} = s^2 + \bar{x}^2$ の関係を正しく用いる(3点)
  • 全体の分散を正しく計算する(3点)
  • 各分散の加重平均との違いに言及(2点)

C 発展レベル

5-7-4 C 発展 データ追加 分散の変化 論述

$n$ 個のデータ $x_1, x_2, \ldots, x_n$ の平均値が $\bar{x}$、分散が $s^2$ であるとき、 新しいデータ $a$ を追加して $n + 1$ 個にした。追加後の分散を $s'^2$ とする。

(1) $a = \bar{x}$(平均値と同じ値を追加)のとき、$s'^2$ と $s^2$ の大小を比較せよ。

(2) $s'^2 = s^2$ となる $a$ の値を求めよ。

▶ クリックして解答・解説を表示
解答

(1) $s'^2 < s^2$(分散は減少する)

(2) $a = \bar{x} + s\sqrt{\dfrac{n+1}{n}}$ または $a = \bar{x} - s\sqrt{\dfrac{n+1}{n}}$

解説

方針:総和と2乗の総和で管理する。

元のデータ:総和 $S = n\bar{x}$、2乗の総和 $T = n(s^2 + \bar{x}^2)$

追加後の新しい平均:$\bar{x}' = \dfrac{S + a}{n + 1}$

追加後の新しい分散:$s'^2 = \dfrac{T + a^2}{n + 1} - \left(\dfrac{S + a}{n + 1}\right)^2$

(1) $a = \bar{x}$ のとき:

$\bar{x}' = \dfrac{n\bar{x} + \bar{x}}{n + 1} = \bar{x}$(平均は変わらない)

$s'^2 = \dfrac{n(s^2 + \bar{x}^2) + \bar{x}^2}{n + 1} - \bar{x}^2 = \dfrac{ns^2 + (n+1)\bar{x}^2}{n+1} - \bar{x}^2 = \dfrac{n}{n+1}s^2$

$\dfrac{n}{n+1} < 1$ なので、$s'^2 = \dfrac{n}{n+1}s^2 < s^2$。よって分散は減少する。

直感的にも、平均と同じ値(偏差0のデータ)を追加すれば、平均的な散らばりは小さくなります。

(2) $s'^2 = s^2$ とおいて整理します。

$\dfrac{T + a^2}{n + 1} - \left(\dfrac{S + a}{n + 1}\right)^2 = s^2$

$T = n(s^2 + \bar{x}^2)$, $S = n\bar{x}$ を代入して $(n+1)^2$ を掛け整理すると、

$(n+1)\{n(s^2 + \bar{x}^2) + a^2\} - (n\bar{x} + a)^2 = (n+1)^2 s^2$

展開して整理すると $n(a - \bar{x})^2 = (n+1)s^2$ を得ます。

よって $(a - \bar{x})^2 = \dfrac{(n+1)}{n} s^2$

$a = \bar{x} \pm s\sqrt{\dfrac{n+1}{n}}$

つまり、追加データが平均から $s\sqrt{\dfrac{n+1}{n}}$ だけ離れているとき、分散は変化しません。 これより平均に近いと分散は減り、遠いと分散は増えます。

採点ポイント
  • 総和と2乗の総和を用いた定式化(3点)
  • (1) $s'^2 = \dfrac{n}{n+1}s^2$ の導出と大小比較(3点)
  • (2) $(a - \bar{x})^2 = \dfrac{n+1}{n}s^2$ の導出(2点)
  • (2) $a$ の値を正しく求める(2点)