共通テストでは、グラフや表を正しく読み取り、統計量の変化を素早く判断する力が問われます。
この記事では、データの追加・削除による統計量の変化、2つのデータ群の統合など、総合的な問題を原理から整理します。
共通テストの「データの分析」では、ヒストグラム・箱ひげ図・散布図などのグラフを見て、 統計量の大小関係や相関の強さを判断する問題が頻出です。 計算そのものよりも、グラフから何が読み取れて何が読み取れないかを 正確に把握する力が試されます。
まず、各グラフから「読み取れること」と「読み取れないこと」を整理しましょう。
| グラフの種類 | 読み取れること | 読み取れないこと |
|---|---|---|
| ヒストグラム | 分布の形状、最頻値の目安、おおよその範囲 | 個々のデータの値、正確な平均値、正確な中央値 |
| 箱ひげ図 | 最小値・最大値・四分位数・中央値・四分位範囲 | 平均値、データの個数、分布の詳細な形状 |
| 散布図 | 相関の方向(正・負)・強さの目安、外れ値の有無 | 正確な相関係数の値、因果関係 |
共通テストで最も大切な原則は、「グラフから確実に読み取れることだけを根拠にする」ことです。 推測や思い込みで答えてはいけません。
たとえば、箱ひげ図からは平均値は読み取れません。 中央値と平均値は異なる量なので、箱ひげ図の中央値の位置から平均値を推測するのは危険です。
同様に、ヒストグラムからは個々のデータの値はわかりません。 「最も度数が多い階級に平均値がある」とは限らないのです。
箱ひげ図は5つの値(最小値、第1四分位数 $Q_1$、中央値 $Q_2$、第3四分位数 $Q_3$、最大値)で データの散らばりを表します。ここで注意すべきは、箱の幅はデータの密度に反比例するということです。
箱ひげ図では「$Q_1$ から $Q_2$ の間」と「$Q_2$ から $Q_3$ の間」に、 それぞれデータの約25%が含まれます。 箱が狭い部分にはデータが密集しており、広い部分にはデータがまばらに散らばっています。
✕ 誤:「箱の右半分($Q_2$ 〜 $Q_3$)が左半分($Q_1$ 〜 $Q_2$)より広いから、右半分にデータが多い」
○ 正:箱の左半分にも右半分にも、データ全体の約25%ずつ(同数)が含まれます。 箱が広い部分はデータが「まばら」なのであり、「多い」のではありません。
箱ひげ図はデータの散らばり方を表すものであって、データの密度を直接表すものではないことを意識しましょう。
✕ 誤:「データAの範囲はデータBの範囲より大きいから、Aの分散はBより大きい」
○ 正:範囲(最大値 $-$ 最小値)は最も極端な2つの値だけで決まる量です。 大部分のデータが平均の近くに集まっていても、1つの外れ値があるだけで範囲は大きくなります。
分散はすべてのデータの偏差の2乗の平均なので、範囲だけでは判断できません。 四分位範囲($Q_3 - Q_1$)の方が、散らばりの比較にはより適した指標です。
散布図を見て「正の相関」「負の相関」「相関なし」を判断するのは比較的容易ですが、 共通テストでは相関係数 $r$ の値の大小関係を問う問題がよく出ます。
重要なのは、外れ値が相関係数に大きな影響を与えるという事実です。 たとえば、全体としてはほとんど相関がなくても、1点の外れ値が離れた位置にあると、 相関係数が大きく変わることがあります。
相関係数 $r$ は2つの変量の間の直線的な関係の強さと方向を表す指標です。 $-1 \leq r \leq 1$ であり、$|r|$ が1に近いほど直線的な関係が強いことを意味します。
注意すべきは、相関係数はあくまで「直線的な関係」しか測れないということです。 たとえば $y = x^2$ のような放物線的な関係があっても、相関係数は0に近くなりえます。
また、相関関係は因果関係を意味しないという原則も忘れてはいけません。 「アイスの売上と水難事故は正の相関がある」からといって、「アイスが水難事故を引き起こす」わけではありません (気温という共通の原因がある)。
共通テストの過去問を分析すると、以下のような「間違いを誘う」選択肢が繰り返し出題されています。
(1) 箱ひげ図で平均値を読み取ろうとする ─ 中央値は読めるが平均値は読めません。 分布が左右非対称のとき、平均値と中央値は異なります。
(2) ヒストグラムの最頻値の階級 = 中央値がある階級と思い込む ─ 分布が偏っていれば、 中央値は最頻値とは別の階級に入ることがあります。
(3) 散布図で離れた1点を無視する ─ その1点が外れ値なら、 相関係数に大きく影響します。外れ値を除くと相関が大きく変わることがあります。
(4) 「範囲が同じなら分散も同じ」と考える ─ 範囲はデータの両端だけで決まり、 分散はすべてのデータから計算されるので、範囲が同じでも分散は異なりえます。
共通テストでは、1つの問題の中で表・ヒストグラム・箱ひげ図・散布図など 複数の情報源を組み合わせて判断させる問題が増えています。 ここでは、複合問題を解くための戦略を整理します。
度数分布表が与えられたとき、個々のデータの値はわかりません。 そこで、各階級の階級値(階級の中央の値)を代表値として使います。
たとえば、階級が「$10$ 以上 $20$ 未満」であれば、階級値は $15$ です。 度数が $f_i$、階級値が $m_i$ のとき、平均値は次のように計算します。
$$\bar{x} = \frac{\displaystyle\sum_{i} m_i f_i}{\displaystyle\sum_{i} f_i}$$分散も同様に、階級値を使って近似的に求めます。
$$s^2 = \frac{\displaystyle\sum_{i} m_i^2 f_i}{\displaystyle\sum_{i} f_i} - \bar{x}^2$$✕ 誤:度数分布表から計算した平均値を「正確な平均値」として扱う
○ 正:度数分布表からの計算は、各階級内のデータがすべて階級値に等しいと仮定した近似値です。 元の個々のデータから計算した値とは、一般に一致しません。
共通テストでは「この度数分布表から求めた平均値は〇〇である」のような言い回しが使われ、 近似であることが暗黙の前提になっています。
変量 $x$ のデータに対して、$y = ax + b$($a, b$ は定数)という変換を行ったとき、 統計量がどう変わるかは、データの分析の基本中の基本です。
平均値:$\bar{y} = a\bar{x} + b$
分散:$s_y^2 = a^2 s_x^2$
標準偏差:$s_y = |a| \, s_x$
なぜ分散に $b$ が影響しないのでしょうか? 分散は「平均からのズレ(偏差)の2乗の平均」です。 すべてのデータに同じ定数 $b$ を足すと、平均も $b$ だけ増えるので、偏差は変わりません。 一方、$a$ 倍すると偏差も $a$ 倍になるので、偏差の2乗は $a^2$ 倍になります。
データ全体を同じだけ平行移動しても($+b$)、散らばり方は変わりません。 これは直感的に当然です ── 全員の得点に10点足しても、散らばりは同じです。
一方、データ全体を $a$ 倍すると、散らばりの「幅」も $a$ 倍に広がります。 分散は偏差の2乗なので $a^2$ 倍、標準偏差は偏差そのものなので $|a|$ 倍です。
この原理を使えば、大きな数値のデータでも、$y = \dfrac{x - b}{a}$ のように変換して 計算しやすい数値に直し、あとで逆変換する「仮平均法」が使えます。
変量 $x$, $y$ に対して $u = ax + b$, $v = cy + d$($a > 0$, $c > 0$)と変換したとき、 $u$ と $v$ の相関係数はどうなるでしょうか?
結論は、$a > 0$ かつ $c > 0$ なら相関係数は変わらないです。 相関係数は標準偏差で偏差を割って(標準化して)から計算するため、 スケールの変更は打ち消されるのです。 ただし、$a$ や $c$ が負の場合は符号が反転します。
$u = ax + b$, $v = cy + d$($a > 0$, $c > 0$)のとき、
$u$ の偏差:$u_i - \bar{u} = a(x_i - \bar{x})$、$v$ の偏差:$v_i - \bar{v} = c(y_i - \bar{y})$
共分散:$s_{uv} = \dfrac{1}{n}\displaystyle\sum(u_i - \bar{u})(v_i - \bar{v}) = ac \cdot s_{xy}$
標準偏差:$s_u = a \, s_x$, $\;s_v = c \, s_y$
よって、相関係数は
$$r_{uv} = \frac{s_{uv}}{s_u \cdot s_v} = \frac{ac \cdot s_{xy}}{a \, s_x \cdot c \, s_y} = \frac{s_{xy}}{s_x \cdot s_y} = r_{xy}$$$a, c$ がともに正のとき、定数 $b, d$ の加減やスケール $a, c$ の変更は相関係数に影響しません。
「データを1つ追加(または削除)したとき、平均値や分散はどう変化するか?」 これは共通テストや入試で非常に頻出のテーマです。 計算量が少なく短時間で答えられるため、正しく理解していれば確実な得点源になります。
$n$ 個のデータの平均値が $\bar{x}$ のとき、データの総和は $n\bar{x}$ です。 ここに新しいデータ $a$ を1つ追加すると、データは $n + 1$ 個になり、総和は $n\bar{x} + a$ になります。
$$\text{新しい平均値} = \frac{n\bar{x} + a}{n + 1}$$では、平均値は増えるのでしょうか、減るのでしょうか? 新しい平均値と元の平均値 $\bar{x}$ の差を計算すれば一目瞭然です。
$$\frac{n\bar{x} + a}{n + 1} - \bar{x} = \frac{n\bar{x} + a - (n+1)\bar{x}}{n + 1} = \frac{a - \bar{x}}{n + 1}$$データ $a$ を追加したとき、平均値の変化量は $\dfrac{a - \bar{x}}{n + 1}$ です。
$a > \bar{x}$ のとき:平均値は増加する(平均より大きい値を追加したから)
$a = \bar{x}$ のとき:平均値は変化しない(ちょうど平均と同じ値を追加したから)
$a < \bar{x}$ のとき:平均値は減少する(平均より小さい値を追加したから)
これは直感的にも自然です。クラスの平均点が60点のとき、 80点の生徒が加わればクラスの平均は上がり、40点の生徒が加われば平均は下がります。
分散の変化は、平均値の変化に比べると少し複雑です。 しかし、原理を理解すれば計算なしで判断できるケースが多くあります。
分散は「偏差の2乗の平均」、すなわち $s^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2$ です。 これは「各データが平均からどれだけ離れているかの2乗」を平均したものです。
また、分散には非常に便利な別の計算公式があります。
$$s^2 = \overline{x^2} - (\bar{x})^2$$ここで $\overline{x^2}$ は「データの2乗の平均」です。 この公式は、データの追加・削除や統合の問題で特に威力を発揮します。
定義式:$s^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2$(偏差の2乗の平均)
計算公式:$s^2 = \overline{x^2} - (\bar{x})^2$(2乗の平均 $-$ 平均の2乗)
入力ミスが見つかって、あるデータの値を修正する場合を考えましょう。 たとえば、$n$ 個のデータの中の1つの値が $p$ から $q$ に変わったとします。
平均値の変化:データの総和は $q - p$ だけ変わるので、
$$\text{新しい平均値} = \bar{x} + \frac{q - p}{n}$$分散の変化:分散の変化は、平均値の変化と偏差の2乗の総和の変化の両方に依存するため、 一般には個別に計算する必要があります。 しかし、平均値が変わらない修正(たとえば、6を10に、30を26に修正して総和が不変のとき)であれば、 偏差の2乗の総和の変化だけを見ればよいのです。
✕ 誤:「6を10に、30を26に修正した。$6 + 30 = 10 + 26 = 36$ で総和は不変。だから平均も分散も変わらない」
○ 正:平均値は確かに変わりません。しかし分散は「偏差の2乗の和」で決まります。 修正前の偏差の2乗の和と修正後の偏差の2乗の和を比べる必要があります。
たとえば平均が16のとき、修正前:$(6-16)^2 + (30-16)^2 = 100 + 196 = 296$、 修正後:$(10-16)^2 + (26-16)^2 = 36 + 100 = 136$。 偏差の2乗の和が減ったので、分散は減少します。
直感的にも、6と30は平均16から遠い値ですが、10と26は平均16に近い値です。 データが平均に近づけば、散らばりは小さくなります。
データの追加・削除・修正による統計量の変化を考えるとき、最も確実な方法は 「総和」と「2乗の総和」で管理することです。
$n$ 個のデータの平均 $\bar{x}$、分散 $s^2$ が与えられたとき:
・データの総和:$S = n\bar{x}$
・データの2乗の総和:$T = n \cdot \overline{x^2} = n(s^2 + \bar{x}^2)$
データを追加・削除・修正したら、$S$ と $T$ を更新し、新しいデータ数で割り直せばよいのです。 この方法なら、どんな変更にも体系的に対応できます。 大学の統計学でも、このような「十分統計量」の考え方は基本的な概念です。
クラスの中の2つのグループや、2回に分けて行ったテストの結果を統合するとき、 全体の平均値や分散をどう求めるかは、入試の定番問題です。
ここで重要なのは、2つの分散の単純平均は全体の分散にならないということです。 なぜなら、2つのグループの平均値が異なる場合、 「グループ間のズレ」も散らばりの原因になるからです。
グループAが $n_A$ 個のデータで平均 $\bar{x}_A$、グループBが $n_B$ 個のデータで平均 $\bar{x}_B$ のとき、 全体の平均値は加重平均(データ数で重み付けした平均)です。
$$\bar{x} = \frac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B}$$これは、全データの総和を全データ数で割っているだけです。直感的にも自然でしょう。
全体の分散を求めるには、$s^2 = \overline{x^2} - (\bar{x})^2$ を使います。 まず全体の「2乗の平均」$\overline{x^2}$ を求め、そこから全体の「平均の2乗」$(\bar{x})^2$ を引きます。
グループAの分散を $s_A^2$、グループBの分散を $s_B^2$ とします。
$s_A^2 = \overline{x_A^2} - \bar{x}_A^2$ より $\overline{x_A^2} = s_A^2 + \bar{x}_A^2$
$s_B^2 = \overline{x_B^2} - \bar{x}_B^2$ より $\overline{x_B^2} = s_B^2 + \bar{x}_B^2$
全体の「2乗の平均」は:
$$\overline{x^2} = \frac{n_A \overline{x_A^2} + n_B \overline{x_B^2}}{n_A + n_B} = \frac{n_A(s_A^2 + \bar{x}_A^2) + n_B(s_B^2 + \bar{x}_B^2)}{n_A + n_B}$$よって全体の分散は:
$$s^2 = \overline{x^2} - \bar{x}^2 = \frac{n_A(s_A^2 + \bar{x}_A^2) + n_B(s_B^2 + \bar{x}_B^2)}{n_A + n_B} - \bar{x}^2$$ここで $\bar{x} = \dfrac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B}$ です。
グループA($n_A$ 個、平均 $\bar{x}_A$、分散 $s_A^2$)とグループB($n_B$ 個、平均 $\bar{x}_B$、分散 $s_B^2$)を統合するとき:
全体の平均値:
$$\bar{x} = \frac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B}$$全体の分散:
$$s^2 = \frac{n_A(s_A^2 + \bar{x}_A^2) + n_B(s_B^2 + \bar{x}_B^2)}{n_A + n_B} - \bar{x}^2$$2群統合の分散の公式を変形すると、次のように解釈できます。
$$s^2 = \underbrace{\frac{n_A s_A^2 + n_B s_B^2}{n_A + n_B}}_{\text{群内分散の加重平均}} + \underbrace{\frac{n_A n_B}{(n_A + n_B)^2}(\bar{x}_A - \bar{x}_B)^2}_{\text{群間の平均値の差に由来する分散}}$$
全体の散らばりは、各グループ内部の散らばりとグループ間の平均値の差による散らばりの合計です。 2つのグループの平均値が大きく異なるほど、全体の分散は各グループの分散の加重平均より大きくなります。
✕ 誤:「A群の分散が24、B群の分散が28だから、全体の分散は $\dfrac{24 + 28}{2} = 26$」
○ 正:2群の平均値が異なる場合、全体の分散は各分散の加重平均よりも大きくなります。 「群間の差」に由来する追加の散らばりが生じるからです。
全体の分散を求めるには、必ず「2乗の平均」を経由して計算してください。 2群の平均が等しい場合にのみ、分散の加重平均が全体の分散に一致します。
A組(20人、平均16、分散24)とB組(60人、平均12、分散28)を統合するとき:
全体の平均値:$\bar{x} = \dfrac{20 \times 16 + 60 \times 12}{20 + 60} = \dfrac{320 + 720}{80} = 13$
全体の分散:
$$s^2 = \frac{20(24 + 16^2) + 60(28 + 12^2)}{80} - 13^2 = \frac{20 \times 280 + 60 \times 172}{80} - 169$$ $$= \frac{5600 + 10320}{80} - 169 = 199 - 169 = 30$$各分散の加重平均は $\dfrac{20 \times 24 + 60 \times 28}{80} = \dfrac{480 + 1680}{80} = 27$ ですが、 全体の分散は $30$ とそれより大きくなっています。 差の $3$ は、A組(平均16)とB組(平均12)の平均値の差(群間分散)に由来します。
「全体の分散 = 群内分散 + 群間分散」という分解は、大学統計学の分散分析(ANOVA: Analysis of Variance)の基礎です。
分散分析では、データの変動を「グループ内の変動」と「グループ間の変動」に分けて、 グループ間に統計的に有意な差があるかを検定します。 たとえば、3種類の肥料でトマトの収穫量が異なるかを調べるとき、 全体のばらつきのうち「肥料の種類による差」がどれだけを占めるかを数値化するのがANOVAです。
さらに、大学では推定(標本から母集団の性質を推測する)や検定(仮説が正しいかデータで判断する)を学びます。 高校で学ぶ「仮説検定の考え方」は、この検定の入口に相当します。 帰無仮説を立て、その仮説のもとで計算した確率が基準より小さければ仮説を棄却する ── この論理の骨格は、大学でも全く同じです。
高校のデータの分析で身につけた「平均」「分散」「標準偏差」の計算力と直感は、 大学の推測統計学を学ぶうえで不可欠な基盤になります。
第5章「データの分析」で学んだ内容を全体的に俯瞰し、各概念のつながりを整理しましょう。
| カテゴリ | 概念・統計量 | 何を測るか |
|---|---|---|
| 代表値 | 平均値、中央値、最頻値 | データの「中心」の位置 |
| 散布度 | 分散、標準偏差、範囲、四分位範囲 | データの「散らばり」の大きさ |
| 相関 | 共分散、相関係数 | 2変量間の「直線的関係」の強さと方向 |
| 可視化 | ヒストグラム、箱ひげ図、散布図 | データの分布の「形」を視覚化 |
| 変換 | $y = ax + b$、標準化 | データのスケール調整、比較の容易化 |
| パターン | 問われること | 解法のポイント |
|---|---|---|
| A:グラフ読み取り | グラフから統計量の大小を判断 | 「読み取れるもの」と「読み取れないもの」を区別 |
| B:変量変換 | $y = ax + b$ 後の統計量 | 平均は $a$ 倍 $+ b$、分散は $a^2$ 倍、相関係数は不変 |
| C:データ修正 | 値の変更後の平均・分散 | 総和と2乗の総和の変化に注目 |
| D:データ追加・削除 | データ数変更後の統計量 | 追加データと平均の大小、偏差の2乗への影響 |
| E:2群統合 | 全体の平均・分散 | 総和と2乗の総和を合算。群間分散を忘れない |
| F:仮説検定 | 仮説のもとでの確率判断 | 帰無仮説を立て、確率を計算し、基準と比較 |
Q1. 箱ひげ図から読み取れる統計量を5つ挙げ、読み取れない代表的な統計量を1つ挙げてください。
Q2. 10個のデータの平均値が50のとき、新しいデータ60を追加すると平均値はいくつになりますか?
Q3. 変量 $x$ の平均が20、分散が9のとき、$y = 3x - 10$ の平均値と分散を求めてください。
Q4. A群(5人、平均10)とB群(5人、平均20)を統合した全体の平均値を求めてください。
Q5. 12個の月別最高気温データで、30℃を18℃に修正したとき、平均値は何℃減少しますか?
この記事で学んだ内容を、入試形式の問題で確認しましょう。
ある都市の12か月の最高気温データ(単位:℃)の平均値は16℃であった。 入力ミスが見つかり、6℃を10℃に、30℃を26℃に修正した。
(1) 修正後の平均値を求めよ。
(2) 修正後の分散は修正前と比べて増加するか、減少するか、それとも変化しないか。理由とともに答えよ。
(1) 16℃(変化しない)
(2) 減少する
(1) $6 + 30 = 36$ と $10 + 26 = 36$ でデータの総和は不変。データ数も不変。よって平均値は16℃のまま変わらない。
(2) 平均値が16℃で不変なので、修正したデータの偏差の2乗の和を比較する。
修正前:$(6 - 16)^2 + (30 - 16)^2 = 100 + 196 = 296$
修正後:$(10 - 16)^2 + (26 - 16)^2 = 36 + 100 = 136$
他のデータの偏差は変わらないので、偏差の2乗の総和は $296 - 136 = 160$ だけ減少。よって分散は減少する。
直感的にも、6と30は平均16から遠い値であるのに対し、10と26は平均16に近い値なので、散らばりは小さくなる。
変量 $x$ のデータの平均値が $\bar{x} = 21$、標準偏差が $s_x = 4$ であるとき、 $y = 5x - 3$ で定められる変量 $y$ について次を求めよ。
(1) $y$ の平均値 $\bar{y}$
(2) $y$ の標準偏差 $s_y$
(1) $\bar{y} = 102$
(2) $s_y = 20$
$y = ax + b$($a = 5, b = -3$)の変換を行うとき:
(1) $\bar{y} = a\bar{x} + b = 5 \times 21 + (-3) = 105 - 3 = 102$
(2) $s_y = |a| \cdot s_x = 5 \times 4 = 20$
標準偏差は定数 $b$ の加減に影響されない。$a = 5$ 倍すると散らばりも5倍に広がる。
40人のクラスで数学のテストを行った。受験者32人の得点について平均値 $\bar{x} = 35$ 点、分散 $s_x^2 = 25$ であった。 欠席者8人は後日同じテストを受け、この8人の得点について平均値 $\bar{y} = 40$ 点、分散 $s_y^2 = 20$ であった。
(1) クラス40人全員の平均値を求めよ。
(2) クラス40人全員の分散を求めよ。
(1) 36点
(2) 28
方針:各群のデータの総和と2乗の総和を求め、全体で割り直す。
(1) 全体の平均値:$\bar{z} = \dfrac{32 \times 35 + 8 \times 40}{40} = \dfrac{1120 + 320}{40} = 36$(点)
(2) 受験者32人の「2乗の平均」:$\overline{x^2} = s_x^2 + \bar{x}^2 = 25 + 35^2 = 1250$
欠席者8人の「2乗の平均」:$\overline{y^2} = s_y^2 + \bar{y}^2 = 20 + 40^2 = 1620$
全体の「2乗の平均」:$\overline{z^2} = \dfrac{32 \times 1250 + 8 \times 1620}{40} = \dfrac{40000 + 12960}{40} = 1324$
全体の分散:$s_z^2 = \overline{z^2} - \bar{z}^2 = 1324 - 36^2 = 1324 - 1296 = 28$
なお、各分散の加重平均は $\dfrac{32 \times 25 + 8 \times 20}{40} = \dfrac{800 + 160}{40} = 24$ であり、全体の分散28はそれより大きい。差の4は群間分散に由来する。
$n$ 個のデータ $x_1, x_2, \ldots, x_n$ の平均値が $\bar{x}$、分散が $s^2$ であるとき、 新しいデータ $a$ を追加して $n + 1$ 個にした。追加後の分散を $s'^2$ とする。
(1) $a = \bar{x}$(平均値と同じ値を追加)のとき、$s'^2$ と $s^2$ の大小を比較せよ。
(2) $s'^2 = s^2$ となる $a$ の値を求めよ。
(1) $s'^2 < s^2$(分散は減少する)
(2) $a = \bar{x} + s\sqrt{\dfrac{n+1}{n}}$ または $a = \bar{x} - s\sqrt{\dfrac{n+1}{n}}$
方針:総和と2乗の総和で管理する。
元のデータ:総和 $S = n\bar{x}$、2乗の総和 $T = n(s^2 + \bar{x}^2)$
追加後の新しい平均:$\bar{x}' = \dfrac{S + a}{n + 1}$
追加後の新しい分散:$s'^2 = \dfrac{T + a^2}{n + 1} - \left(\dfrac{S + a}{n + 1}\right)^2$
(1) $a = \bar{x}$ のとき:
$\bar{x}' = \dfrac{n\bar{x} + \bar{x}}{n + 1} = \bar{x}$(平均は変わらない)
$s'^2 = \dfrac{n(s^2 + \bar{x}^2) + \bar{x}^2}{n + 1} - \bar{x}^2 = \dfrac{ns^2 + (n+1)\bar{x}^2}{n+1} - \bar{x}^2 = \dfrac{n}{n+1}s^2$
$\dfrac{n}{n+1} < 1$ なので、$s'^2 = \dfrac{n}{n+1}s^2 < s^2$。よって分散は減少する。
直感的にも、平均と同じ値(偏差0のデータ)を追加すれば、平均的な散らばりは小さくなります。
(2) $s'^2 = s^2$ とおいて整理します。
$\dfrac{T + a^2}{n + 1} - \left(\dfrac{S + a}{n + 1}\right)^2 = s^2$
$T = n(s^2 + \bar{x}^2)$, $S = n\bar{x}$ を代入して $(n+1)^2$ を掛け整理すると、
$(n+1)\{n(s^2 + \bar{x}^2) + a^2\} - (n\bar{x} + a)^2 = (n+1)^2 s^2$
展開して整理すると $n(a - \bar{x})^2 = (n+1)s^2$ を得ます。
よって $(a - \bar{x})^2 = \dfrac{(n+1)}{n} s^2$
$a = \bar{x} \pm s\sqrt{\dfrac{n+1}{n}}$
つまり、追加データが平均から $s\sqrt{\dfrac{n+1}{n}}$ だけ離れているとき、分散は変化しません。 これより平均に近いと分散は減り、遠いと分散は増えます。