第5章 データの分析

分散と標準偏差
─ 「散らばり」を数値化する原理

平均値だけではデータの姿は見えません。同じ平均点でも、全員が同じくらいの点数なのか、両極端に分かれているのかは全く違う状況です。
「散らばりの大きさ」を1つの数値で表す方法 ── それが分散と標準偏差です。なぜ偏差の「2乗」を使うのか、その原理から理解しましょう。

1偏差と分散 ─ なぜ「2乗」を使うのか

データの散らばり具合を数値化するために、まず各データが平均値からどれだけ離れているかを見ます。 データの値 $x_i$ と平均値 $\bar{x}$ の差

$$x_i - \bar{x}$$

を、$x_i$ の偏差といいます。 偏差は、平均値より大きいデータでは正、小さいデータでは負になります。

直感的には、偏差の「平均」を求めれば散らばり具合がわかりそうです。 しかし、これには致命的な問題があります。

偏差の合計は常に0になる

偏差の合計を計算してみましょう。$n$ 個のデータ $x_1, x_2, \ldots, x_n$ に対して、

$$(x_1 - \bar{x}) + (x_2 - \bar{x}) + \cdots + (x_n - \bar{x}) = (x_1 + x_2 + \cdots + x_n) - n\bar{x}$$

ここで $\bar{x} = \dfrac{x_1 + x_2 + \cdots + x_n}{n}$ なので $x_1 + x_2 + \cdots + x_n = n\bar{x}$ です。 よって偏差の合計は $n\bar{x} - n\bar{x} = 0$ となり、偏差の平均も常に $0$ です。

正の偏差と負の偏差が打ち消し合ってしまう。 データがどんなにバラバラでも、偏差の平均は必ず $0$ になるのです。 これでは散らばりの指標として使えません。

💡 ここが本質:打ち消しを防ぐために「2乗」する

偏差の合計が $0$ になるのは、正と負が打ち消し合うからです。この打ち消しを防ぐには、偏差を「常に0以上の値」に変換すればよい。

その方法として最も自然なのが2乗です。$(x_i - \bar{x})^2 \geq 0$ なので、すべてのデータで0以上の値が得られます。

「絶対値 $|x_i - \bar{x}|$ ではダメなのか?」と思うかもしれません。実は絶対値でも散らばりの指標は作れます(平均偏差と呼ばれます)。しかし、2乗には「微分できる」「確率論と相性がよい」という数学的な利点があり、統計学では2乗が標準です。

分散の定義

そこで、偏差の2乗の平均値を考えます。これが分散(variance)です。 $n$ 個のデータ $x_1, x_2, \ldots, x_n$ の平均値を $\bar{x}$ とするとき、分散 $s^2$ は次のように定義されます。

📐 分散の定義式
$$s^2 = \frac{1}{n}\{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2\}$$

すなわち、分散 = 偏差の2乗の平均値

※ 分散の値は常に $0$ 以上です。$s^2 = 0$ になるのは、すべてのデータが同じ値(=平均値)のときに限ります。

分散の値が大きいほど、データは平均値の周りに広く散らばっています。 分散が小さいほど、データは平均値の近くに集まっています。

⚠️ 落とし穴:偏差を2乗する前に合計してしまう

✕ 誤:偏差の合計 $(x_1 - \bar{x}) + (x_2 - \bar{x}) + \cdots = 0$ を使って「散らばりは0」

○ 正:偏差を先に2乗してから合計する。$(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots$ を計算し、$n$ で割る

順序が大事です。「合計してから2乗」ではありません。「2乗してから合計」です。

🔬 深掘り:なぜ絶対値ではなく2乗なのか ── 数学的な理由

絶対値を使った指標 $\dfrac{1}{n}\sum|x_i - \bar{x}|$ は平均偏差(mean absolute deviation)と呼ばれ、直感的にはわかりやすい散らばりの尺度です。では、なぜ統計学では2乗が主流なのでしょうか。

理由は大きく2つあります。(1) 絶対値関数 $|x|$ は $x = 0$ で微分できないのに対し、$x^2$ はどこでも微分でき、数学的に扱いやすい。(2) 確率論で重要な正規分布は $e^{-x^2}$ の形をしており、2乗と自然に結びつく。大学の統計学では、分散を中心に理論が組み立てられます。

2分散の計算公式 ─ $\overline{x^2} - \bar{x}^2$ の正しい使い方

定義式を使って分散を計算すると、毎回「各データから平均値を引いて2乗する」作業が必要で、計算量が多くなります。 そこで、計算を簡略化する公式があります。

📐 分散の計算公式
$$s^2 = \overline{x^2} - \bar{x}^2$$

すなわち、分散 =($x^2$ の平均値)−($x$ の平均値)$^2$

※ $\overline{x^2}$ は「各データを2乗してから平均」、$\bar{x}^2$ は「平均してから2乗」。この違いに注意。
▷ 公式 $s^2 = \overline{x^2} - \bar{x}^2$ の導出

定義式を展開します。

$$s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i^2 - 2x_i\bar{x} + \bar{x}^2)$$

$$= \frac{1}{n}\sum x_i^2 - \frac{2\bar{x}}{n}\sum x_i + \frac{1}{n} \cdot n\bar{x}^2$$

ここで $\dfrac{1}{n}\sum x_i^2 = \overline{x^2}$($x^2$ の平均値)、$\dfrac{1}{n}\sum x_i = \bar{x}$($x$ の平均値)ですから、

$$s^2 = \overline{x^2} - 2\bar{x} \cdot \bar{x} + \bar{x}^2 = \overline{x^2} - \bar{x}^2$$

具体例で確認する

5つのデータ $3, 5, 7, 4, 6$ の分散を、2通りの方法で求めてみましょう。

まず平均値:$\bar{x} = \dfrac{3 + 5 + 7 + 4 + 6}{5} = \dfrac{25}{5} = 5$

定義式で計算:

$$s^2 = \frac{1}{5}\{(3-5)^2 + (5-5)^2 + (7-5)^2 + (4-5)^2 + (6-5)^2\} = \frac{4 + 0 + 4 + 1 + 1}{5} = \frac{10}{5} = 2$$

計算公式で計算:

$$\overline{x^2} = \frac{3^2 + 5^2 + 7^2 + 4^2 + 6^2}{5} = \frac{9 + 25 + 49 + 16 + 36}{5} = \frac{135}{5} = 27$$ $$s^2 = \overline{x^2} - \bar{x}^2 = 27 - 5^2 = 27 - 25 = 2$$

どちらの方法でも $s^2 = 2$ と同じ結果が得られます。計算公式のほうが、偏差を1つずつ求める手間が省けます。

💡 ここが本質:$\overline{x^2}$ と $\bar{x}^2$ は全く別物

$\overline{x^2}$:各データを先に2乗してから平均をとる(2乗の平均)

$\bar{x}^2$:先に平均をとってからその値を2乗する(平均の2乗)

一般に $\overline{x^2} \geq \bar{x}^2$ が成り立ちます(等号はすべてのデータが同じ値のときのみ)。この差が分散です。

⚠️ 落とし穴:$\overline{x^2}$ と $\bar{x}^2$ を取り違える

✕ 誤:$s^2 = \bar{x}^2 - \overline{x^2}$(引く順番が逆)

○ 正:$s^2 = \overline{x^2} - \bar{x}^2$(「2乗の平均」から「平均の2乗」を引く)

覚え方:分散は $0$ 以上なので、大きい方($\overline{x^2}$)から小さい方($\bar{x}^2$)を引きます。引く順番を間違えると負の値になってしまい、それは必ず計算ミスです。

⚠️ 落とし穴:$\overline{x^2}$ を $\overline{x}^2$ と混同する

手書きのとき、$\overline{x^2}$($x^2$ 全体にバーがかかっている)と $\bar{x}^2$($x$ だけにバーがかかっている)を区別できないことがあります。

✕ 誤:バーの範囲を曖昧にして、どちらも同じだと思い込む

○ 正:$\overline{x^2}$ は「$x$ を2乗したもの全体の平均」、$\bar{x}^2$ は「$x$ の平均の2乗」。バーがどこまでかかるかが意味を変えます。手書きではバーを長くして $x^2$ 全体を覆うようにしましょう。

🔬 深掘り:$\overline{x^2} \geq \bar{x}^2$ はコーシー・シュワルツの不等式の特殊な場合

$\overline{x^2} - \bar{x}^2 \geq 0$ という事実(分散が0以上であること)は、実は有名なコーシー・シュワルツの不等式の特殊ケースとして理解できます。

大学の線形代数では、分散を「ベクトルの内積」の言葉で表現します。データの散らばりを「ベクトルの長さ」として捉える視点は、多変量解析(主成分分析など)の基礎になります。

3データの変換 ─ $y = ax + b$ で分散はどう変わるか

変量 $x$ のデータに対して、定数 $a, b$ を使って $y = ax + b$ で新しい変量 $y$ を作ることを変量の変換といいます。 テストの点数を10倍して100点満点に換算する場合や、気温を摂氏から華氏に変換する場合がこれにあたります。

変換後の平均値・分散・標準偏差がどうなるかを、原理から考えてみましょう。

平均値の変換

$y_i = ax_i + b$ なので、$y$ の平均値は

$$\bar{y} = \frac{1}{n}\sum y_i = \frac{1}{n}\sum(ax_i + b) = a \cdot \frac{1}{n}\sum x_i + b = a\bar{x} + b$$

つまり、平均値にも同じ変換が適用されるのです。

分散の変換

$y$ の偏差を考えましょう。$y_i - \bar{y} = (ax_i + b) - (a\bar{x} + b) = a(x_i - \bar{x})$

定数 $b$ は偏差の計算で消えます。これは直感的にも正しい:データ全体に同じ値を加えても、散らばり具合は変わらないからです。

$y$ の分散は

$$s_y^2 = \frac{1}{n}\sum(y_i - \bar{y})^2 = \frac{1}{n}\sum\{a(x_i - \bar{x})\}^2 = a^2 \cdot \frac{1}{n}\sum(x_i - \bar{x})^2 = a^2 s_x^2$$
📐 変量の変換と分散・標準偏差

$y = ax + b$ のとき($a, b$ は定数)

平均値:$\bar{y} = a\bar{x} + b$

分散:$s_y^2 = a^2 s_x^2$

標準偏差:$s_y = |a| \, s_x$

※ 分散は $a^2$ 倍($b$ は無関係)。標準偏差は $|a|$ 倍($b$ は無関係)。平均値だけが $b$ の影響を受ける。
💡 ここが本質:$b$ は「位置の移動」、$a$ は「スケールの拡大・縮小」

変換 $y = ax + b$ には2つの効果があります。

$+b$(平行移動):データ全体を $b$ だけずらす。平均値は変わるが、散らばり具合は変わらない。よって分散・標準偏差は不変。

$\times a$(スケール変換):データの散らばりが $a$ 倍に拡大(縮小)される。偏差が $a$ 倍になるので、分散は $a^2$ 倍、標準偏差は $|a|$ 倍になる。

この2つの効果を分けて考えれば、公式を暗記しなくても導けます。

仮平均を使った計算テクニック

データの値が大きいとき、計算を楽にするテクニックがあります。 適当な値 $c$ を引いて $u_i = x_i - c$ とおくと($a = 1, b = -c$ の変換)、 平均値は $\bar{u} = \bar{x} - c$ となりますが、分散は $s_u^2 = s_x^2$ のまま変わりません。

たとえば $x$ のデータが $101, 103, 105, 98, 103$ のとき、$c = 100$ として $u = x - 100$ とおくと、$u$ のデータは $1, 3, 5, -2, 3$ となり、計算が格段に楽になります。

⚠️ 落とし穴:分散で $a^2$ 倍を $a$ 倍と間違える

✕ 誤:$y = 3x + 2$ のとき、$s_y^2 = 3 s_x^2$

○ 正:$s_y^2 = 3^2 \cdot s_x^2 = 9 s_x^2$

分散では偏差を2乗しているので、係数 $a$ も2乗されます。標準偏差のほうは $s_y = |a| \, s_x = 3 s_x$ です。「分散は $a^2$ 倍、標準偏差は $|a|$ 倍」を区別してください。

🔬 深掘り:標準化 ─ 平均0、標準偏差1に揃える変換

$z = \dfrac{x - \bar{x}}{s_x}$ という変換を行うと、$z$ の平均値は $0$、標準偏差は $1$ になります。これを標準化(standardization)といいます。

標準化を使えば、異なる科目の点数のように単位やスケールが違うデータを公平に比較できます。模試の偏差値は $T = 10z + 50 = 10 \cdot \dfrac{x - \bar{x}}{s_x} + 50$ と定義されており、標準化の応用です。偏差値50が平均、偏差値60は「平均より標準偏差1個分だけ上」を意味します。

4標準偏差の意味 ─ 単位を元に戻す

分散 $s^2$ はデータの散らばりを表す優れた指標ですが、1つ困った点があります。 偏差を2乗しているため、単位も2乗されるのです。

たとえば、データの単位が「cm」なら、分散の単位は「cm$^2$」になります。 身長のデータの散らばりを表すのに「cm$^2$」では、直感的にわかりにくい。

そこで、分散の正の平方根をとったものが標準偏差(standard deviation)です。

📐 標準偏差の定義
$$s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

標準偏差 = 分散の正の平方根

※ 標準偏差の単位は元のデータと同じ。データが「cm」なら標準偏差も「cm」。
💡 ここが本質:標準偏差は「典型的なズレの大きさ」

標準偏差 $s$ は、各データが平均値からどれくらい離れているかの典型的な大きさを表します。

たとえば、テストの平均点が60点、標準偏差が10点なら、「多くの生徒は平均点から10点程度の範囲にいる」というイメージです。

分散は「理論的な計算に便利」、標準偏差は「実際のデータの解釈に便利」。それぞれの長所を使い分けるのが大切です。

分散と標準偏差の使い分け

指標定義単位長所
分散 $s^2$偏差の2乗の平均元の単位の2乗計算が扱いやすい。加法性がある
標準偏差 $s$分散の正の平方根元の単位と同じ直感的に理解しやすい。データと比較しやすい
⚠️ 落とし穴:分散と標準偏差を取り違える

問題文が「分散を求めよ」と「標準偏差を求めよ」のどちらを聞いているか、必ず確認してください。

✕ 誤:「分散を求めよ」に対して $s = \sqrt{2}$ と答える(標準偏差を答えている)

○ 正:「分散を求めよ」なら $s^2 = 2$、「標準偏差を求めよ」なら $s = \sqrt{2}$

分散の記号は $s^2$、標準偏差の記号は $s$ です。問題文で聞かれている方を正確に答えましょう。

🔬 深掘り:$n$ で割るか $n-1$ で割るか ── 母分散と不偏分散

高校では分散を $\dfrac{1}{n}\sum(x_i - \bar{x})^2$ と定義しますが、大学の統計学では $\dfrac{1}{n-1}\sum(x_i - \bar{x})^2$ と定義する場面があります。前者を母分散(population variance)、後者を不偏分散(unbiased variance)と呼びます。

なぜ $n-1$ で割るのでしょうか。全体のデータ(母集団)から一部(標本)を取り出して分散を推定するとき、$n$ で割ると分散を過小評価してしまう傾向があります。$n-1$ で割ることでこの偏りを補正できるのです。$n-1$ は「自由度」と呼ばれ、平均値を求めるのに1つの情報を使ったために自由に動けるデータが1つ減ることを意味します。

高校の範囲では $n$ で割る定義を使います。入試では指示がない限り $n$ で割ってください。

5俯瞰マップ ─ 散らばりの指標の全体像

ここまで、データの散らばりを数値化する方法を学んできました。 最後に、散らばりの指標を一覧にして全体像を整理しましょう。

散らばりの指標 比較表

指標定義特徴
範囲最大値 $-$ 最小値最も簡単だが外れ値に弱い
四分位範囲$Q_3 - Q_1$外れ値に強いが情報量が少ない
分散 $s^2$偏差の2乗の平均すべてのデータを使う。計算に便利
標準偏差 $s$$\sqrt{s^2}$元の単位で解釈可能。最も広く使用
平均偏差$|$偏差$|$の平均直感的だが数学的に扱いにくい

つながりマップ

  • ← 5-1 データの整理と分析:平均値・中央値・最頻値は「代表値」。分散・標準偏差は「散らばりの指標」。代表値だけでは見えないデータの特徴を捉えるのが、この記事の内容。
  • → 5-2 データの相関:2つの変量の関係を調べる相関係数 $r$ は、共分散(偏差積の平均)を標準偏差の積で割ったもの。分散・標準偏差の概念が基礎になる。
  • → 第7章 確率:確率変数の分散・期待値は、データの分散・平均値を理論的に一般化したもの。計算公式もほぼ同じ形をしている。
  • → 数学B 統計的な推測:母集団の分散を推定する「不偏分散」、正規分布に基づく推定・検定で標準偏差が中心的な役割を果たす。
  • → 大学の統計学:分散共分散行列、主成分分析、回帰分析など、データサイエンスの全領域で分散・標準偏差が基盤となる。

📋まとめ

  • 偏差は $x_i - \bar{x}$。偏差の合計は常に $0$ になるため、散らばりの指標には使えない
  • 分散は偏差の2乗の平均。$s^2 = \dfrac{1}{n}\sum(x_i - \bar{x})^2$。打ち消しを防ぐために2乗する
  • 計算公式 $s^2 = \overline{x^2} - \bar{x}^2$。「2乗の平均」から「平均の2乗」を引く
  • 変量の変換 $y = ax + b$ のとき:$\bar{y} = a\bar{x} + b$、$s_y^2 = a^2 s_x^2$、$s_y = |a| \, s_x$。$b$ は分散に影響しない
  • 標準偏差は分散の正の平方根 $s = \sqrt{s^2}$。元のデータと同じ単位で散らばりを表す
  • 分散が $0$ になるのは、すべてのデータが同じ値のときに限る

確認テスト

Q1. データの偏差の合計が常に $0$ になるのはなぜですか?

▶ クリックして解答を表示$\sum(x_i - \bar{x}) = \sum x_i - n\bar{x} = n\bar{x} - n\bar{x} = 0$ だから。平均値の定義より、正の偏差と負の偏差が打ち消し合う。

Q2. データ $2, 4, 6, 8, 10$ の分散を求めてください。

▶ クリックして解答を表示$\bar{x} = 6$。$\overline{x^2} = \dfrac{4 + 16 + 36 + 64 + 100}{5} = 44$。$s^2 = 44 - 36 = 8$。

Q3. $s^2 = \overline{x^2} - \bar{x}^2$ の公式で、$\overline{x^2}$ と $\bar{x}^2$ の違いを説明してください。

▶ クリックして解答を表示$\overline{x^2}$ は「各データを先に2乗してから平均をとったもの」。$\bar{x}^2$ は「先に平均をとってからその値を2乗したもの」。一般に $\overline{x^2} \geq \bar{x}^2$ であり、等号はデータが全て同じ値のとき。

Q4. 変量 $x$ の分散が $s_x^2 = 5$ のとき、$y = 3x - 10$ の分散 $s_y^2$ はいくらですか?

▶ クリックして解答を表示$s_y^2 = 3^2 \times 5 = 45$。$-10$ は分散に影響しない。標準偏差は $s_y = 3\sqrt{5}$。

Q5. 分散の単位がデータの単位の2乗になるとき、元の単位に戻すにはどうしますか?

▶ クリックして解答を表示分散の正の平方根をとる。これが標準偏差 $s = \sqrt{s^2}$ であり、元のデータと同じ単位になる。

8入試問題演習

この記事で学んだ内容を、入試形式の問題で確認しましょう。

A 基礎レベル

5-4-1 A 基礎 分散の計算 公式の適用

ある商品 A, B の5日間の売り上げ個数が次の通りであった。

A:$5, 7, 4, 3, 6$  B:$4, 6, 8, 3, 9$

(1) A, B それぞれの平均値と分散を求めよ。

(2) 標準偏差を用いて、A と B のどちらが売り上げの散らばりが大きいか比較せよ。

▶ クリックして解答・解説を表示
解答

(1) A:平均値 $5$、分散 $2$。B:平均値 $6$、分散 $5.2$。

(2) $s_A = \sqrt{2} \fallingdotseq 1.41$、$s_B = \sqrt{5.2} \fallingdotseq 2.28$。B のほうが散らばりが大きい。

解説

方針:$s^2 = \overline{x^2} - \bar{x}^2$ を使って計算する。

A について:$\bar{x} = \dfrac{5 + 7 + 4 + 3 + 6}{5} = 5$

$\overline{x^2} = \dfrac{25 + 49 + 16 + 9 + 36}{5} = \dfrac{135}{5} = 27$

$s_A^2 = 27 - 25 = 2$

B について:$\bar{y} = \dfrac{4 + 6 + 8 + 3 + 9}{5} = 6$

$\overline{y^2} = \dfrac{16 + 36 + 64 + 9 + 81}{5} = \dfrac{206}{5} = 41.2$

$s_B^2 = 41.2 - 36 = 5.2$

(2) $s_A = \sqrt{2} \fallingdotseq 1.41$、$s_B = \sqrt{5.2} \fallingdotseq 2.28$。$s_A < s_B$ なので、B のほうが平均値の周りの散らばりが大きい。

5-4-2 A 基礎 変量の変換 計算の工夫

10人の生徒のテストの点数(100点満点)の平均値が $62$ 点、標準偏差が $8$ 点であった。

各生徒の点数を $x$ として、$y = \dfrac{x - 50}{10}$ で新しい変量 $y$ を作る。

(1) $y$ の平均値を求めよ。

(2) $y$ の標準偏差を求めよ。

▶ クリックして解答・解説を表示
解答

(1) $\bar{y} = 1.2$

(2) $s_y = 0.8$

解説

方針:$y = \dfrac{x - 50}{10} = \dfrac{1}{10}x - 5$ と変形し、$a = \dfrac{1}{10}$、$b = -5$ の変換として処理する。

(1) $\bar{y} = \dfrac{1}{10} \times 62 - 5 = 6.2 - 5 = 1.2$

(2) $s_y = \left|\dfrac{1}{10}\right| \times 8 = 0.8$

※ $b = -5$ は標準偏差に影響しない点に注意。

B 発展レベル

5-4-3 B 発展 分散の公式 証明

変量 $x$ の $n$ 個のデータの値を $x_1, x_2, \ldots, x_n$ とし、$x$ の平均値を $\bar{x}$、$x^2$ の平均値を $\overline{x^2}$ とする。

$x$ の分散 $s^2$ は $s^2 = \overline{x^2} - \bar{x}^2$ と表せることを証明せよ。

▶ クリックして解答・解説を表示
解答

分散の定義より

$$s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i^2 - 2\bar{x} \cdot x_i + \bar{x}^2)$$

$$= \frac{1}{n}\sum x_i^2 - \frac{2\bar{x}}{n}\sum x_i + \frac{n\bar{x}^2}{n}$$

ここで $\dfrac{1}{n}\sum x_i^2 = \overline{x^2}$、$\dfrac{1}{n}\sum x_i = \bar{x}$ であるから

$$s^2 = \overline{x^2} - 2\bar{x}^2 + \bar{x}^2 = \overline{x^2} - \bar{x}^2$$

解説

方針:定義式の $(x_i - \bar{x})^2$ を展開し、$\sum$ を分配してまとめる。

ポイントは、$\bar{x}$ が定数($\sum$ の中では $i$ に依存しない)であることを利用して、$\sum$ の外に出すこと。

$\dfrac{2\bar{x}}{n}\sum x_i = 2\bar{x} \cdot \bar{x} = 2\bar{x}^2$ の変形がカギです。

採点ポイント
  • $(x_i - \bar{x})^2$ の展開が正しい(2点)
  • $\sum$ を3つに分配(2点)
  • $\dfrac{1}{n}\sum x_i = \bar{x}$ の利用(3点)
  • 最終結果が正しい(3点)
5-4-4 B 発展 変量の変換 データの修正

10人の生徒のテストの得点について、平均値が $54$ 点、分散が $36$ であった。採点ミスがあり、1人の生徒の点数が $40$ 点と記録されていたが、正しくは $50$ 点であった。

(1) 修正後の平均値を求めよ。

(2) 修正後の分散を求めよ。

▶ クリックして解答・解説を表示
解答

(1) 修正後の平均値:$55$ 点

(2) 修正後の分散:$27$

解説

方針:$\overline{x^2}$ と $\bar{x}$ を使って考える。修正前後のデータの合計と2乗の合計の変化を追跡する。

(1):修正前の合計は $10 \times 54 = 540$。修正により $540 - 40 + 50 = 550$。修正後の平均値は $\dfrac{550}{10} = 55$。

(2):修正前の $\overline{x^2}$ を求める。$s^2 = \overline{x^2} - \bar{x}^2$ より $\overline{x^2} = s^2 + \bar{x}^2 = 36 + 54^2 = 36 + 2916 = 2952$。

よって $\sum x_i^2 = 10 \times 2952 = 29520$。

修正後の $\sum x_i^2 = 29520 - 40^2 + 50^2 = 29520 - 1600 + 2500 = 30420$。

修正後の $\overline{x^2} = \dfrac{30420}{10} = 3042$。

修正後の分散 $= 3042 - 55^2 = 3042 - 3025 = 27$(以前は$36$)。

※ 修正前より分散が小さくなった。40点は平均値から大きく離れていたので、それが50点(平均値に近い値)に修正されたことで散らばりが減少した。

採点ポイント
  • 修正後の平均値を正しく求める(2点)
  • $\overline{x^2} = s^2 + \bar{x}^2$ の関係を使う(3点)
  • 修正前後の $\sum x_i^2$ の変化を正しく追跡(3点)
  • 修正後の分散を正しく求める(2点)