シンプソンのパラドクス
2種類の薬\(1,2\)を男女に処方したところ以下の結果が得られました。
$$\begin{array}{ccccc}
\hline
& 男性・薬1 & 男性・薬2
& 女性・薬1 & 女性・薬2
\\ \hline
効果あり & 19 & 1000 & 200 & 10 \\ \hline
効果なし & 1 & 1000 & 1800 & 190 \\ \hline
\end{array}$$
薬\(1\)は男性\(20\)人と女性\(2000\)人の合計\(2020\)人に処方されていますが、効果があったのは\(219\)人です。したがって、男女全員を対象とした場合、薬\(1\)が有効である確率は、\begin{equation*}\frac{219}{2020}\approx 0.108
\end{equation*}です。一方、薬\(2\)は男性\(2000\)人と女性\(200\)人の合計\(2200\)人に処方されていますが、効果があったのは\(1010\)人です。したがって、男女全員を対象とした場合、薬\(2\)が有効である確率は、\begin{equation*}\frac{1010}{2200}\approx 0.459
\end{equation*}です。両者を比較すると、\begin{equation*}
\frac{219}{2000}<\frac{1010}{2200}
\end{equation*}が成り立つため、男女全員を対象とした場合、薬\(2\)は薬\(1\)よりも有効であることが明らかになりました。
薬\(1\)は男性\(20\)人に処方されていますが、効果があったのは\(19\)人です。したがって、男性だけを対象とした場合、薬\(1\)が有効である確率は、\begin{equation*}\frac{19}{20}=0.95
\end{equation*}です。一方、薬\(2\)は男性\(2000\)人に処方されていますが、効果があったのは\(1000\)人です。したがって、男性だけを対象とした場合、薬\(2\)が有効である確率は、\begin{equation*}\frac{1000}{2000}=0.5
\end{equation*}です。両者を比較すると、\begin{equation*}
\frac{19}{20}>\frac{1000}{2000}
\end{equation*}が成り立つため、男性だけを対象とした場合、薬\(1\)は薬\(2\)よりも有効であることが明らかになりました。
薬\(1\)は女性\(2000\)人に処方されていますが、効果があったのは\(200\)人です。したがって、女性だけを対象とした場合、薬\(1\)が有効である確率は、\begin{equation*}\frac{200}{2000}=0.1
\end{equation*}です。一方、薬\(2\)は女性\(200\)人に処方されていますが、効果があったのは\(10\)人です。したがって、女性だけを対象とした場合、薬\(2\)が有効である確率は、\begin{equation*}\frac{10}{200}\approx 0.05
\end{equation*}です。両者を比較すると、\begin{equation*}
\frac{200}{2000}>\frac{10}{200}
\end{equation*}が成り立つため、女性だけを対象とした場合、薬\(1\)は薬\(2\)よりも有効であることが明らかになりました。
以上の議論より、男女全員を対象とした場合には薬\(2\)のほうが有効である一方で、男性だけもしくは女性だけを対象とした場合には薬\(1\)のほうが有効であることが明らかになりました。この例のように、母集団に対して成立する仮説と、母集団を分割することにより得られる集団に対して成立する仮説とが正反対になる状況は起こり得ます。このような現象をシンプソンのパラドクス(Simpson’s paradox)やユール=シンプソン効果(Yule-Simpson effect)などと呼びます。
シンプソンのパラドクスの一般化
先の例に関して、以下の3つの事象\begin{eqnarray*}
A &:&\text{薬は有効である} \\
B &:&\text{薬}1\text{を処方される}
\\
C &:&\text{男性である}
\end{eqnarray*}を定義します。これらの余事象は、\begin{eqnarray*}
A^{c} &:&\text{薬は有効ではない} \\
B^{c} &:&\text{薬}2\text{を処方される} \\
C^{c} &:&\text{女性である}
\end{eqnarray*}です。
男性だけを対象とした場合に薬\(1\)が薬\(2\)よりも有効であることは、\begin{equation*}P\left( A|B\cap C\right) >P\left( A|B^{c}\cap C\right)
\end{equation*}が成り立つことを意味します。
女性だけを対象とした場合に薬\(1\)が薬\(2\)よりも有効であることは、\begin{equation*}P\left( A|B\cap C^{c}\right) >P\left( A|B^{c}\cap C^{c}\right)
\end{equation*}が成り立つことを意味します。
男女全員を対象とした場合、薬\(2\)が薬\(1\)よりも有効であることは、\begin{equation*}P\left( A|B\right) <P\left( A|B^{c}\right)
\end{equation*}が成り立つことを意味します。
以上を踏まえると、先の例に即した場合、それがシンプソンのパラドクスであることは以下の3つの条件\begin{eqnarray*}
&&\left( a\right) \ P\left( A|B\cap C\right) >P\left( A|B^{c}\cap C\right)
\\
&&\left( b\right) \ P\left( A|B\cap C^{c}\right) >P\left( A|B^{c}\cap
C^{c}\right) \\
&&\left( c\right) \ P\left( A|B\right) <P\left( A|B^{c}\right)
\end{eqnarray*}が成り立つこととして表現されます。
一般の事象に対しても、シンプソンのパラドクスを同様に定義します。つまり、3つの事象\(A,B,C\)が与えられたとき、以下の3つの条件\begin{eqnarray*}&&\left( a\right) \ P\left( A|B\cap C\right) >P\left( A|B^{c}\cap C\right)
\\
&&\left( b\right) \ P\left( A|B\cap C^{c}\right) >P\left( A|B^{c}\cap
C^{c}\right) \\
&&\left( c\right) \ P\left( A|B\right) <P\left( A|B^{c}\right)
\end{eqnarray*}が成り立つ状況をシンプソンのパラドクスと呼ぶということです。
条件\(\left( a\right) \)は、\(C\)が起きている場合には\(B\)が\(B^{c}\)よりも好まれることを意味します。条件\(\left( b\right) \)は、\(C^{c}\)が起きている場合には\(B\)が\(B^{c}\)よりも好まれることを意味します。条件\(\left( c\right) \)は、全体としては\(B^{c}\)が\(B\)よりも好まれることを意味します。
シンプソンのパラドクスの視覚化
3つの事象\(A,B,C\)に関してシンプソンのパラドクスが成立しているものとします。つまり、以下の3つの条件\begin{eqnarray*}&&\left( a\right) \ P\left( A|B\cap C\right) >P\left( A|B^{c}\cap C\right)
\\
&&\left( b\right) \ P\left( A|B\cap C^{c}\right) >P\left( A|B^{c}\cap
C^{c}\right) \\
&&\left( c\right) \ P\left( A|B\right) <P\left( A|B^{c}\right)
\end{eqnarray*}が成り立つということです。実数\(a,b,c,d,e,f,g,h\in \mathbb{R} \)をそれぞれ、\begin{eqnarray*}a &=&P\left( A\cap B\cap C\right) \\
b &=&P\left( A^{c}\cap B\cap C\right) \\
c &=&P\left( A\cap B^{c}\cap C\right) \\
d &=&P\left( A^{c}\cap B^{c}\cap C\right) \\
e &=&P\left( A\cap B\cap C^{c}\right) \\
f &=&P\left( A^{c}\cap B\cap C^{c}\right) \\
g &=&P\left( A\cap B^{c}\cap C^{c}\right) \\
h &=&P\left( A^{c}\cap B^{c}\cap C^{c}\right)
\end{eqnarray*}と定義します。事象の確率は非負であるため、\begin{equation*}
0\leq a,b,c,d,e,f,g,h\leq 1
\end{equation*}です。また、これらの実数を定義する8つの事象の和事象は全体事象\(\Omega \)であるため、\begin{equation*}a+b+c+d+e+f+g+h=1
\end{equation*}です。
シンプソンのパラドクスを構成する条件\(\left( a\right) \)の左辺については、\begin{eqnarray*}P\left( A|B\cap C\right) &=&\frac{P\left( A\cap B\cap C\right) }{P\left(
B\cap C\right) } \\
&=&\frac{P\left( A\cap B\cap C\right) }{P\left( B\cap C|A\right) \cdot
P\left( A\right) +P\left( B\cap C|A^{c}\right) \cdot P\left( A^{c}\right) }
\\
&=&\frac{P\left( A\cap B\cap C\right) }{\frac{P\left( A\cap B\cap C\right) }{P\left( A\right) }\cdot P\left( A\right) +\frac{P\left( A^{c}\cap B\cap
C\right) }{P\left( A^{c}\right) }\cdot P\left( A^{c}\right) } \\
&=&\frac{P\left( A\cap B\cap C\right) }{P\left( A\cap B\cap C\right)
+P\left( A^{c}\cap B\cap C\right) } \\
&=&\frac{a}{a+b}
\end{eqnarray*}が成り立ち、右辺については、\begin{eqnarray*}
P\left( A|B^{c}\cap C\right) &=&\frac{P\left( A\cap B^{c}\cap C\right) }{P\left( B^{c}\cap C\right) } \\
&=&\frac{P\left( A\cap B^{c}\cap C\right) }{P\left( B^{c}\cap C|A\right)
\cdot P\left( A\right) +P\left( B^{c}\cap C|A^{c}\right) \cdot P\left(
A^{c}\right) } \\
&=&\frac{P\left( A\cap B^{c}\cap C\right) }{\frac{P\left( A\cap B^{c}\cap
C\right) }{P\left( A\right) }\cdot P\left( A\right) +\frac{P\left( A^{c}\cap
B^{c}\cap C\right) }{P\left( A^{c}\right) }\cdot P\left( A^{c}\right) } \\
&=&\frac{P\left( A\cap B^{c}\cap C\right) }{P\left( A\cap B^{c}\cap C\right)
+P\left( A^{c}\cap B^{c}\cap C\right) } \\
&=&\frac{c}{c+d}
\end{eqnarray*}が成り立つため、\(\left(a\right) \)を言い換えると、\begin{equation*}\frac{a}{a+b}>\frac{c}{c+d}
\end{equation*}すなわち、\begin{equation*}
a\left( c+d\right) >c\left( a+b\right)
\end{equation*}すなわち、\begin{equation*}
ad>bc
\end{equation*}となります。
条件\(\left( b\right) ,\left( c\right) \)も同様に変形することにより、\begin{eqnarray*}eh &>&fg \\
\left( a+e\right) \left( d+h\right) &<&\left( b+f\right) \left( c+g\right)
\end{eqnarray*}がそれぞれ得られます。
以上の議論より、シンプソンのパラドクスを構成する3つの条件は、以下の3つの条件\begin{eqnarray*}
&&\left( a\right) \ ad>bc \\
&&\left( b\right) \ eh>fg \\
&&\left( c\right) \ \left( a+e\right) \left( d+h\right) <\left( b+f\right)
\left( c+g\right)
\end{eqnarray*}と必要十分であることが明らかになりました。
以下の2つの直方体\(R_{1},R_{2}\)と、その内部に存在する小直方体\(D_{1},D_{2},D_{3},D_{4}\)に注目します。

図に即して考えると、先の条件\(\left( a\right) \)は、\begin{equation*}D_{1}\text{の面積}>D_{2}\text{の面積}
\end{equation*}が成り立つことを意味し、条件\(\left( b\right) \)は、\begin{equation*}D_{3}\text{の面積}>D_{4}\text{の面積}
\end{equation*}が成り立つことを意味し、条件\(\left( c\right) \)は、\begin{equation*}R_{1}\text{の面積}<R_{2}\text{の面積}
\end{equation*}が成り立つことを意味します。
以上の議論より、シンプソンのパラドクスを構成する3つの条件は、以下の3つの条件\begin{eqnarray*}
&&\left( a\right) \ D_{1}\text{の面積}>D_{2}\text{の面積} \\
&&\left( b\right) \ D_{3}\text{の面積}>D_{4}\text{の面積} \\
&&\left( c\right) \ R_{1}\text{の面積}<R_{2}\text{の面積}
\end{eqnarray*}と必要十分であることが明らかになりました。したがって、以上の条件を満たす直方体\(R_{1},R_{2}\)を見つければ、それはシンプソンのパラドクスの具体例を見つけたことになります。
演習問題
$$\begin{array}{ccc}
\hline
& 学生A & 学生B \\ \hline
1日目の正答数 & 7 & 2 \\ \hline
2日目の正答数 & 1 & 5 \\ \hline
合計の正答数 & 8 & 7 \\ \hline
\end{array}$$
正答率に注目した上で、シンプソンのパラドクスが起きていることを説明してください。
プレミアム会員専用コンテンツです
【ログイン】【会員登録】