高校数学Aでは、条件付き確率を $P_A(B) = \dfrac{n(A \cap B)}{n(A)}$ という「場合の数の比」で計算します。
この計算法は正しく機能しますが、「なぜ分母が $n(A)$ に変わるのか」「条件付き確率とは結局何をしているのか」という問いには十分に答えてくれません。
大学の確率論では、条件付き確率を確率の公理に基づいて $P(B \mid A) = \dfrac{P(A \cap B)}{P(A)}$ と定義します。
この定義の本質は、新しい情報を得たとき、標本空間を制限して確率を再計算することにあります。
ベイズの定理は、この「確率の更新」を体系化した道具であり、結果から原因の確率を逆算することを可能にします。
高校で学ぶ条件付き確率の公式、乗法定理、そしてベイズの定理は、すべて「標本空間の制限」という一つの原理から統一的に理解できます。
高校数学Aでは、条件付き確率を次のように導入します。
事象 $A$ が起こったという条件のもとで事象 $B$ が起こる確率を条件付き確率と呼び、
$$P_A(B) = \frac{n(A \cap B)}{n(A)}$$
と計算します。ここで $n(A)$ は事象 $A$ に含まれる場合の数、$n(A \cap B)$ は $A$ と $B$ が同時に起こる場合の数です。
たとえば、52枚のトランプから1枚引くとき、「ハートである(事象 $A$)」という条件のもとで「絵札である(事象 $B$)」確率は、
$$P_A(B) = \frac{n(A \cap B)}{n(A)} = \frac{3}{13}$$
と求められます。ハートは13枚あり、そのうち絵札(J, Q, K)は3枚だからです。
この式の分子・分母を全事象の場合の数 $n(\Omega)$ で割ると、
$$P_A(B) = \frac{n(A \cap B) / n(\Omega)}{n(A) / n(\Omega)} = \frac{P(A \cap B)}{P(A)}$$
という形が得られます。高校では、この変形から乗法定理
$$P(A \cap B) = P(A) \cdot P_A(B)$$
を導き、「$A$ と $B$ が同時に起こる確率」の計算に利用します。 ここまでが高校での扱いです。計算としては十分に機能しますが、いくつかの疑問が残ります。
これらの疑問に答えるために、大学では条件付き確率を公理的に定義し直します。
大学の確率論では、条件付き確率を「場合の数の比」ではなく、確率の公理に基づく式 $P(B \mid A) = \dfrac{P(A \cap B)}{P(A)}$ で定義します。 高校で最後に導いた形と同じ式ですが、大学ではこの式を出発点(定義)として採用します。 場合の数に頼らないので、すべての結果が同様に確からしくなくても、結果が無限個であっても適用できます。
この定義の背後にある考え方は、「標本空間の制限」です。 $A$ が起きたと分かったとき、もはや全体の標本空間 $\Omega$ を考える必要はなく、$A$ の中だけを新しい「全体」として確率を計り直す ── これが条件付き確率の本質です。
この記事では、「標本空間の制限としての確率の更新」という一つの原理から、以下を統一的に理解します。
まずは条件付き確率の定義を公理的な枠組みの中で正確に述べます。 そこから乗法定理、全確率の公式、ベイズの定理へと、一つずつ積み上げていきます。
📖 M-12-1 で導入したコルモゴロフの公理では、確率 $P$ は標本空間 $\Omega$ 上の事象に対して定義される関数でした。 条件付き確率は、この確率関数を「情報による制限」のもとで再定義する操作です。
なぜ $P(B \mid A) = \dfrac{P(A \cap B)}{P(A)}$ という式で定義するのか。 その動機は次の通りです。$A$ が起きたと分かった以上、$A$ の外の事象は起きていません。 そこで $A$ を新しい標本空間と見なし、$A$ の中に含まれる事象の確率を、$A$ 全体の確率が $1$ になるように比例的に拡大します。 $B$ のうち $A$ の中にある部分は $A \cap B$ なので、その確率 $P(A \cap B)$ を $P(A)$ で割って正規化する ── これが上の式の意味です。
$P(A) > 0$ のとき、事象 $A$ が起きたという条件のもとでの事象 $B$ の条件付き確率を
$$P(B \mid A) = \frac{P(A \cap B)}{P(A)}$$
と定義します。
分母の $P(A)$ は「新しい全体」の確率であり、$P(A) > 0$(つまり $A$ は起こり得る事象)であることが前提です。$P(A) = 0$ の場合の条件付き確率は、より高度な理論(測度論的条件付き期待値)が必要になり、ここでは扱いません。
サイコロを1つ振る試行を考えます。標本空間は $\Omega = \{1, 2, 3, 4, 5, 6\}$ で、各目の確率は $\dfrac{1}{6}$ です。
事象 $A$:「偶数の目が出る」$= \{2, 4, 6\}$、事象 $B$:「4以上の目が出る」$= \{4, 5, 6\}$ とします。
$A \cap B = \{4, 6\}$ なので、
$$P(B \mid A) = \frac{P(A \cap B)}{P(A)} = \frac{2/6}{3/6} = \frac{2}{3}$$
これは「偶数の目が出たと分かった」ときに、標本空間を $\{2, 4, 6\}$ に制限して、その中で「4以上」に該当する $\{4, 6\}$ の割合を求めたことに対応します。 制限前の確率 $P(B) = \dfrac{3}{6} = \dfrac{1}{2}$ と比べて、$A$ の情報を得ることで確率が $\dfrac{1}{2}$ から $\dfrac{2}{3}$ に更新されたことがわかります。
条件付き確率 $P(\cdot \mid A)$ が「確率」と呼べるためには、 📖 M-12-1 で学んだコルモゴロフの3公理を満たす必要があります。 実際にこれを確認してみます。
示すべきこと:$P(\cdot \mid A)$ が (1) 非負性、(2) 正規化、(3) 加法性 の3つの公理を満たすこと。
(1) 非負性:任意の事象 $B$ に対して $P(B \mid A) = \dfrac{P(A \cap B)}{P(A)} \ge 0$。$P(A \cap B) \ge 0$(公理1)かつ $P(A) > 0$ なので、商は非負です。
(2) 正規化:$P(\Omega \mid A) = \dfrac{P(A \cap \Omega)}{P(A)} = \dfrac{P(A)}{P(A)} = 1$。標本空間全体の条件付き確率は $1$ です。
(3) 加法性:$B_1, B_2, \ldots$ が互いに排反なとき、$A \cap B_1, A \cap B_2, \ldots$ も互いに排反です。したがって、
$$P\!\left(\bigcup_{i=1}^{\infty} B_i \,\middle|\, A\right) = \frac{P\!\left(A \cap \bigcup_{i=1}^{\infty} B_i\right)}{P(A)} = \frac{P\!\left(\bigcup_{i=1}^{\infty} (A \cap B_i)\right)}{P(A)} = \frac{\sum_{i=1}^{\infty} P(A \cap B_i)}{P(A)} = \sum_{i=1}^{\infty} P(B_i \mid A)$$
3つの公理がすべて満たされるので、$P(\cdot \mid A)$ は $A$ を新しい標本空間とした確率関数です。 $\blacksquare$
この結果は重要です。条件付き確率は「別種の量」ではなく、れっきとした確率関数です。 したがって、確率に関するあらゆる性質(余事象の公式 $P(B^c \mid A) = 1 - P(B \mid A)$ など)がそのまま成り立ちます。
条件付き確率の定義式の両辺に $P(A)$ を掛けると、
$$P(A \cap B) = P(A) \cdot P(B \mid A)$$
$A$ と $B$ が同時に起こる確率は、「まず $A$ が起こり、その条件のもとで $B$ が起こる」確率として分解できます。
対称性から $P(A \cap B) = P(B) \cdot P(A \mid B)$ とも書けます。$A$ と $B$ の役割を入れ替えた二通りの分解が可能です。
高校でも乗法定理は学びますが、大学ではこれを「同時確率の分解」として積極的に使います。 特に、3つ以上の事象の同時確率にも拡張できます。たとえば、
$$P(A \cap B \cap C) = P(A) \cdot P(B \mid A) \cdot P(C \mid A \cap B)$$
これは「まず $A$ が起こり、$A$ のもとで $B$ が起こり、$A$ かつ $B$ のもとで $C$ が起こる」という段階的な条件付けの連鎖です。 この連鎖は乗法定理の連鎖律と呼ばれます。
ここまでで、条件付き確率の定義と乗法定理を公理的に整備しました。 次に、この乗法定理を使って「複数の原因から結果の確率を合成する」全確率の公式を導きます。
ベイズの定理を導くための重要な準備として、全確率の公式を導きます。 この公式は、標本空間 $\Omega$ を互いに排反な事象に分割し、各部分からの寄与を乗法定理で計算して合算するものです。
事象 $A_1, A_2, \ldots, A_n$ が次の2条件を満たすとき、これらは $\Omega$ の分割(partition)をなすといいます。
分割とは、標本空間をすき間なく、重なりなく、いくつかの部分に切り分けることです。 たとえば、ある病気の検査を受ける人の集団を「実際に病気である群($A_1$)」と「病気でない群($A_2$)」に分けるのは、$\Omega$ の分割です。
事象 $B$ の確率を、分割 $A_1, \ldots, A_n$ を使って計算してみます。 $B$ は各 $A_i$ との共通部分に分解できます。
$$B = (A_1 \cap B) \cup (A_2 \cap B) \cup \cdots \cup (A_n \cap B)$$
$A_1, \ldots, A_n$ が互いに排反なので、$A_1 \cap B, \ldots, A_n \cap B$ も互いに排反です。 したがって加法性(📖 M-12-1 の公理3)より、
$$P(B) = P(A_1 \cap B) + P(A_2 \cap B) + \cdots + P(A_n \cap B)$$
各項にセクション3の乗法定理 $P(A_i \cap B) = P(A_i) \cdot P(B \mid A_i)$ を適用すると、次の公式が得られます。
$A_1, A_2, \ldots, A_n$ が $\Omega$ の分割で、各 $P(A_i) > 0$ のとき、任意の事象 $B$ に対して
$$P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B \mid A_i)$$
$B$ の確率は、各「原因」$A_i$ が起こる確率と、その原因のもとで $B$ が起こる確率の積を、すべての原因について合算したものです。これを「原因ごとの寄与の合計」と読むことができます。
全確率の公式を具体例で確認します。ある疾患の有病率(集団の中で実際に病気である人の割合)が $1\%$ であるとします。 検査の精度は次の通りです。
ここで $A_1$:「病気である」、$A_2$:「病気でない」、$B$:「検査で陽性」とします。 $P(A_1) = 0.01$、$P(A_2) = 0.99$ であり、$P(B \mid A_2) = 1 - 0.90 = 0.10$(偽陽性率)です。
全確率の公式を使って、検査で陽性が出る全体の確率を計算します。
$$P(B) = P(A_1) \cdot P(B \mid A_1) + P(A_2) \cdot P(B \mid A_2) = 0.01 \times 0.95 + 0.99 \times 0.10 = 0.0095 + 0.099 = 0.1085$$
検査で陽性が出る確率は約 $10.85\%$ です。 注目すべきは、この陽性の大部分($0.099 / 0.1085 \approx 91\%$)が「実際には病気でない人の偽陽性」によって生じていることです。 有病率が低い場合、たとえ検査の精度が高くても、陽性者の中に偽陽性が多く含まれます。
では、「検査で陽性だった人が実際に病気である確率」はいくらでしょうか。 これは $P(A_1 \mid B)$、すなわち「結果(陽性)から原因(病気)の確率を逆算する」問題です。 この逆方向の計算こそ、次のセクションで導くベイズの定理の出番です。
条件付き確率の定義、乗法定理、全確率の公式 ── ここまでに積み上げてきた道具を組み合わせれば、ベイズの定理は自然に導かれます。
$P(A_i \mid B)$ を条件付き確率の定義に従って書くと、
$$P(A_i \mid B) = \frac{P(A_i \cap B)}{P(B)}$$
分子にセクション3の乗法定理 $P(A_i \cap B) = P(A_i) \cdot P(B \mid A_i)$ を、分母にセクション4の全確率の公式を代入すれば、次の定理を得ます。
$A_1, A_2, \ldots, A_n$ が $\Omega$ の分割で、各 $P(A_i) > 0$、$P(B) > 0$ のとき、
$$P(A_i \mid B) = \frac{P(A_i) \cdot P(B \mid A_i)}{\displaystyle\sum_{j=1}^{n} P(A_j) \cdot P(B \mid A_j)}$$
各要素の意味は次の通りです。
$P(A_i)$:事前確率 ── $B$ を観測する前の「原因 $A_i$」の確率
$P(B \mid A_i)$:尤度 ── 「原因 $A_i$ のもとで結果 $B$ が起こる確からしさ」
$P(A_i \mid B)$:事後確率 ── $B$ を観測した後の「原因 $A_i$」の確率
示すべきこと:条件付き確率の定義から上の公式を導くこと。
ステップ1:条件付き確率の定義より、$P(A_i \mid B) = \dfrac{P(A_i \cap B)}{P(B)}$ です。
ステップ2:分子に乗法定理を適用します。$P(A_i \cap B) = P(A_i) \cdot P(B \mid A_i)$ です。
ステップ3:分母に全確率の公式を適用します。$P(B) = \displaystyle\sum_{j=1}^{n} P(A_j) \cdot P(B \mid A_j)$ です。
ステップ4:ステップ2、3を代入すると、$P(A_i \mid B) = \dfrac{P(A_i) \cdot P(B \mid A_i)}{\displaystyle\sum_{j=1}^{n} P(A_j) \cdot P(B \mid A_j)}$ を得ます。 $\blacksquare$
ベイズの定理は、次のプロセスを記述しています。
この更新の度合いを決めるのが尤度 $P(B \mid A_i)$ です。 $P(B \mid A_i)$ が大きい原因 $A_i$ は、結果 $B$ を「よく説明できる」原因なので、事後確率が上がります。 逆に $P(B \mid A_i)$ が小さい原因は、事後確率が下がります。
ベイズの定理の核心は「確率の更新」です。新しい情報(結果 $B$ の観測)を得るたびに、各原因の確率は更新されます。事前確率は「情報を得る前の信念」、事後確率は「情報を得た後の信念」に対応します。ベイズの定理は、この更新を定量的に行う道具です。
誤解:$P(A \mid B)$ と $P(B \mid A)$ は同じ、またはほぼ同じ値である。
正しい理解:$P(A \mid B)$ と $P(B \mid A)$ は一般にまったく異なる値です。たとえば「雨が降っているとき地面が濡れている確率」はほぼ $1$ ですが、「地面が濡れているとき雨が降っている確率」はそれよりずっと小さい(スプリンクラーや洗車の可能性がある)。この2つを混同する誤りは基準率の無視(base rate neglect)と呼ばれ、日常的な推論でも頻繁に起こります。ベイズの定理は、この混同を防ぐ正確な計算方法を与えます。
ここまでで、条件付き確率 → 乗法定理 → 全確率の公式 → ベイズの定理 という一連の流れを組み立てました。 次のセクションでは、この流れを使って具体的な問題を解き、ベイズの定理の威力を体感します。
セクション4で計算した医療検査の例に戻ります。 検査で陽性と判定された人が、実際に病気である確率 $P(A_1 \mid B)$ を求めます。
ベイズの定理に値を代入します。
$$P(A_1 \mid B) = \frac{P(A_1) \cdot P(B \mid A_1)}{P(B)} = \frac{0.01 \times 0.95}{0.1085} = \frac{0.0095}{0.1085} \approx 0.0876$$
検査で陽性が出ても、実際に病気である確率は約 $8.76\%$ に過ぎません。 感度 $95\%$、特異度 $90\%$ という一見高精度な検査でも、有病率が $1\%$ と低い場合には、陽性者の大多数は偽陽性です。
この結果を「確率の更新」の視点で読み直してみます。
検査により確率は $1\%$ から約 $8.76\%$ へと上昇しましたが、依然として「病気でない」可能性の方がはるかに高いのです。
ベイズの定理の真価は、更新を繰り返せる点にあります。 1回目の検査で陽性だった人に再検査を行い、再び陽性が出た場合を考えましょう。
2回目の検査では、1回目の事後確率を新しい事前確率として使います。 検査の精度は1回目と同じ(感度 $0.95$、偽陽性率 $0.10$)で、2回の検査結果が独立であると仮定します。
新しい事前確率は $P'(A_1) = 0.0876$、$P'(A_2) = 1 - 0.0876 = 0.9124$ です。 全確率の公式で $P'(B)$ を計算します。
$$P'(B) = 0.0876 \times 0.95 + 0.9124 \times 0.10 = 0.0832 + 0.0912 = 0.1744$$
ベイズの定理を適用すると、
$$P'(A_1 \mid B) = \frac{0.0876 \times 0.95}{0.1744} = \frac{0.0832}{0.1744} \approx 0.477$$
2回連続で陽性が出ると、病気である確率は約 $47.7\%$ まで上がります。 さらに3回目の検査で陽性が出れば、同様の計算で約 $90\%$ を超えます。
| 段階 | 事前確率 $P(A_1)$ | 事後確率 $P(A_1 \mid B)$ |
|---|---|---|
| 検査前 | $1\%$ | ─ |
| 1回目陽性後 | $1\%$ | $\approx 8.76\%$ |
| 2回目陽性後 | $\approx 8.76\%$ | $\approx 47.7\%$ |
このように、ベイズの定理は情報を逐次的に取り込んで確率を更新していく枠組みを提供します。 1回の検査結果だけでは確定的な判断ができなくても、複数の情報を積み重ねることで確率を絞り込んでいける ── これがベイズ的推論の基本的な考え方です。
もう一つ、ベイズの定理の有名な応用例としてモンティ・ホール問題を取り上げます。
テレビのゲーム番組で、3つのドア(1, 2, 3)のうち1つに景品があります。 回答者がドア1を選んだ後、司会者(景品の場所を知っている)は、残りのドアのうち景品がないドアを1つ開けます。 たとえば、司会者がドア3を開けたとします。ここで回答者は、ドア1のままにするか、ドア2に変更するか選べます。 変更した方が得でしょうか。
ベイズの定理で解きます。景品がドア $i$ にある事象を $A_i$($i = 1, 2, 3$)とし、事前確率は各 $P(A_i) = \dfrac{1}{3}$ です。 司会者がドア3を開けるという結果を $B$ とします。
尤度を考えます。司会者は景品のないドアを開けるので、
全確率の公式で分母を計算します。
$$P(B) = \frac{1}{3} \times \frac{1}{2} + \frac{1}{3} \times 1 + \frac{1}{3} \times 0 = \frac{1}{6} + \frac{1}{3} = \frac{1}{2}$$
ベイズの定理を適用します。
$$P(A_1 \mid B) = \frac{\frac{1}{3} \times \frac{1}{2}}{\frac{1}{2}} = \frac{1}{3}, \qquad P(A_2 \mid B) = \frac{\frac{1}{3} \times 1}{\frac{1}{2}} = \frac{2}{3}$$
ドア1に景品がある事後確率は $\dfrac{1}{3}$、ドア2に景品がある事後確率は $\dfrac{2}{3}$ です。 したがって、ドアを変更した方が当たる確率が2倍になります。
このことは直感に反しますが、ベイズの定理は明確な答えを与えます。 司会者がドア3を開けたという情報($B$)によって、ドア2の事前確率 $\dfrac{1}{3}$ がドア3の分を吸収して $\dfrac{2}{3}$ に更新されたのです。 ドア1の確率はドア3が開く前と変わらず $\dfrac{1}{3}$ のままです。
統計学には大きく分けて「頻度主義」と「ベイズ主義」の二つの流派があります。頻度主義では確率を「同じ実験を何度も繰り返したときの相対頻度の極限」として解釈し、パラメータに確率を割り当てません。一方ベイズ主義では、確率を「信念の度合い」として解釈し、ベイズの定理を使ってデータから信念を更新します。現代の統計学では、問題に応じて両方の手法が使い分けられています。ベイズ的手法は機械学習やAIの分野で特に広く使われています。
Q1. 条件付き確率 $P(B \mid A)$ を大学ではどのように定義しますか。また、この定義は「標本空間の制限」とどう対応しますか。
Q2. 全確率の公式を述べ、それが成り立つ理由を説明してください。
Q3. ベイズの定理における「事前確率」「尤度」「事後確率」はそれぞれ何を意味しますか。
Q4. 有病率 $1\%$、感度 $95\%$、特異度 $90\%$ の検査で陽性が出たとき、実際に病気である確率が $95\%$ ではなく約 $8.76\%$ にとどまるのはなぜですか。
袋に赤玉4個と白玉6個が入っています。1個取り出して色を確認し、戻さずにもう1個取り出します。 1個目が赤玉であったとき、2個目も赤玉である確率を条件付き確率の定義を用いて求めてください。
$A$:「1個目が赤」、$B$:「2個目が赤」とします。
$P(A) = \dfrac{4}{10} = \dfrac{2}{5}$ です。
$P(A \cap B)$ は「1個目も2個目も赤」の確率で、$\dfrac{4}{10} \times \dfrac{3}{9} = \dfrac{12}{90} = \dfrac{2}{15}$ です。
$$P(B \mid A) = \frac{P(A \cap B)}{P(A)} = \frac{2/15}{2/5} = \frac{2}{15} \times \frac{5}{2} = \frac{1}{3}$$
2つの事象 $A$, $B$ について $P(A) = 0.6$、$P(B) = 0.5$、$P(A \cap B) = 0.3$ のとき、$P(A \mid B)$ と $P(B \mid A)$ をそれぞれ求めてください。 これらの値が一般に異なることを確認してください。
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{0.3}{0.5} = 0.6$$
$$P(B \mid A) = \frac{P(A \cap B)}{P(A)} = \frac{0.3}{0.6} = 0.5$$
$P(A \mid B) = 0.6 \ne 0.5 = P(B \mid A)$ であり、一般に条件付き確率は条件とする事象を入れ替えると値が変わります。
工場A、B、Cがそれぞれ全体の $50\%$、$30\%$、$20\%$ の製品を生産しています。 各工場の不良品率は、A: $2\%$、B: $3\%$、C: $5\%$ です。
(1) ランダムに1つ選んだ製品が不良品である確率を全確率の公式で求めてください。
(2) 選んだ製品が不良品であったとき、それが工場Cで生産されたものである確率をベイズの定理で求めてください。
(1) $A_1, A_2, A_3$ をそれぞれ工場A, B, Cで生産された事象、$B$ を不良品の事象とします。
$$P(B) = 0.50 \times 0.02 + 0.30 \times 0.03 + 0.20 \times 0.05 = 0.010 + 0.009 + 0.010 = 0.029$$
不良品である確率は $2.9\%$ です。
(2) ベイズの定理より、
$$P(A_3 \mid B) = \frac{P(A_3) \cdot P(B \mid A_3)}{P(B)} = \frac{0.20 \times 0.05}{0.029} = \frac{0.010}{0.029} \approx 0.345$$
不良品が工場Cのものである確率は約 $34.5\%$ です。工場Cの生産割合は $20\%$ ですが、不良品率が高いため、不良品の中でのCの割合は $34.5\%$ に上がっています。
事象 $A$, $B$ が独立であるとは $P(A \cap B) = P(A) \cdot P(B)$ が成り立つことです。 $A$ と $B$ が独立で $P(A) > 0$、$P(B) > 0$ のとき、$P(B \mid A) = P(B)$ が成り立つことを示してください。 また、この等式の直感的な意味を述べてください。
条件付き確率の定義と独立性の条件から、
$$P(B \mid A) = \frac{P(A \cap B)}{P(A)} = \frac{P(A) \cdot P(B)}{P(A)} = P(B)$$
$\blacksquare$
直感的な意味:$A$ が起きたという情報を得ても、$B$ の確率は変化しません。つまり、$A$ の発生は $B$ の確率に影響を与えないということです。これが「独立」の意味です。
箱の中にコイン A(表が出る確率 $\dfrac{1}{2}$)とコイン B(表が出る確率 $\dfrac{2}{3}$)が1枚ずつ入っています。 箱から1枚を無作為に選び、3回投げたところ、3回とも表が出ました。 選んだコインがコイン Bである確率を求めてください。
$A_1$:「コインAを選んだ」、$A_2$:「コインBを選んだ」、$B$:「3回とも表」とします。
事前確率:$P(A_1) = P(A_2) = \dfrac{1}{2}$
尤度:$P(B \mid A_1) = \left(\dfrac{1}{2}\right)^3 = \dfrac{1}{8}$、$P(B \mid A_2) = \left(\dfrac{2}{3}\right)^3 = \dfrac{8}{27}$
全確率の公式:
$$P(B) = \frac{1}{2} \times \frac{1}{8} + \frac{1}{2} \times \frac{8}{27} = \frac{1}{16} + \frac{4}{27} = \frac{27 + 64}{432} = \frac{91}{432}$$
ベイズの定理:
$$P(A_2 \mid B) = \frac{P(A_2) \cdot P(B \mid A_2)}{P(B)} = \frac{\frac{1}{2} \times \frac{8}{27}}{\frac{91}{432}} = \frac{\frac{4}{27}}{\frac{91}{432}} = \frac{4}{27} \times \frac{432}{91} = \frac{64}{91}$$
コインを選ぶ前の段階では、AとBは等確率(各 $\dfrac{1}{2}$)でした。3回連続で表が出たという結果を観測すると、表が出やすいコインBの事後確率は $\dfrac{64}{91} \approx 70.3\%$ に上がります。「表が出やすいコインの方がこの結果を生みやすい」ので、ベイズの定理によりコインBの確率が上方修正されます。乗法定理の連鎖律を使って $P(B \mid A_i)$ を計算している点に注意してください。3回の試行が独立であるため、各試行の確率の積として尤度を求めています。