WIIS

確率

シンプソンのパラドクス

目次

Mailで保存
Xで共有

シンプソンのパラドクス

2種類の薬\(1,2\)を男女に処方したところ以下の結果が得られました。

$$\begin{array}{ccccc}
\hline
& 男性・薬1 & 男性・薬2
& 女性・薬1 & 女性・薬2
\\ \hline
効果あり & 19 & 1000 & 200 & 10 \\ \hline
効果なし & 1 & 1000 & 1800 & 190 \\ \hline
\end{array}$$

薬\(1\)は男性\(20\)人と女性\(2000\)人の合計\(2020\)人に処方されていますが、効果があったのは\(219\)人です。したがって、男女全員を対象とした場合、薬\(1\)が有効である確率は、\begin{equation*}\frac{219}{2020}\approx 0.108
\end{equation*}です。一方、薬\(2\)は男性\(2000\)人と女性\(200\)人の合計\(2200\)人に処方されていますが、効果があったのは\(1010\)人です。したがって、男女全員を対象とした場合、薬\(2\)が有効である確率は、\begin{equation*}\frac{1010}{2200}\approx 0.459
\end{equation*}です。両者を比較すると、\begin{equation*}
\frac{219}{2000}<\frac{1010}{2200}
\end{equation*}が成り立つため、男女全員を対象とした場合、薬\(2\)は薬\(1\)よりも有効であることが明らかになりました。

薬\(1\)は男性\(20\)人に処方されていますが、効果があったのは\(19\)人です。したがって、男性だけを対象とした場合、薬\(1\)が有効である確率は、\begin{equation*}\frac{19}{20}=0.95
\end{equation*}です。一方、薬\(2\)は男性\(2000\)人に処方されていますが、効果があったのは\(1000\)人です。したがって、男性だけを対象とした場合、薬\(2\)が有効である確率は、\begin{equation*}\frac{1000}{2000}=0.5
\end{equation*}です。両者を比較すると、\begin{equation*}
\frac{19}{20}>\frac{1000}{2000}
\end{equation*}が成り立つため、男性だけを対象とした場合、薬\(1\)は薬\(2\)よりも有効であることが明らかになりました。

薬\(1\)は女性\(2000\)人に処方されていますが、効果があったのは\(200\)人です。したがって、女性だけを対象とした場合、薬\(1\)が有効である確率は、\begin{equation*}\frac{200}{2000}=0.1
\end{equation*}です。一方、薬\(2\)は女性\(200\)人に処方されていますが、効果があったのは\(10\)人です。したがって、女性だけを対象とした場合、薬\(2\)が有効である確率は、\begin{equation*}\frac{10}{200}\approx 0.05
\end{equation*}です。両者を比較すると、\begin{equation*}
\frac{200}{2000}>\frac{10}{200}
\end{equation*}が成り立つため、女性だけを対象とした場合、薬\(1\)は薬\(2\)よりも有効であることが明らかになりました。

以上の議論より、男女全員を対象とした場合には薬\(2\)のほうが有効である一方で、男性だけもしくは女性だけを対象とした場合には薬\(1\)のほうが有効であることが明らかになりました。この例のように、母集団に対して成立する仮説と、母集団を分割することにより得られる集団に対して成立する仮説とが正反対になる状況は起こり得ます。このような現象をシンプソンのパラドクス(Simpson’s paradox)やユール=シンプソン効果(Yule-Simpson effect)などと呼びます。

 

シンプソンのパラドクスの一般化

先の例に関して、以下の3つの事象\begin{eqnarray*}
A &:&\text{薬は有効である} \\
B &:&\text{薬}1\text{を処方される}
\\
C &:&\text{男性である}
\end{eqnarray*}を定義します。これらの余事象は、\begin{eqnarray*}
A^{c} &:&\text{薬は有効ではない} \\
B^{c} &:&\text{薬}2\text{を処方される} \\
C^{c} &:&\text{女性である}
\end{eqnarray*}です。

男性だけを対象とした場合に薬\(1\)が薬\(2\)よりも有効であることは、\begin{equation*}P\left( A|B\cap C\right) >P\left( A|B^{c}\cap C\right)
\end{equation*}が成り立つことを意味します。

女性だけを対象とした場合に薬\(1\)が薬\(2\)よりも有効であることは、\begin{equation*}P\left( A|B\cap C^{c}\right) >P\left( A|B^{c}\cap C^{c}\right)
\end{equation*}が成り立つことを意味します。

男女全員を対象とした場合、薬\(2\)が薬\(1\)よりも有効であることは、\begin{equation*}P\left( A|B\right) <P\left( A|B^{c}\right)
\end{equation*}が成り立つことを意味します。

以上を踏まえると、先の例に即した場合、それがシンプソンのパラドクスであることは以下の3つの条件\begin{eqnarray*}
&&\left( a\right) \ P\left( A|B\cap C\right) >P\left( A|B^{c}\cap C\right)
\\
&&\left( b\right) \ P\left( A|B\cap C^{c}\right) >P\left( A|B^{c}\cap
C^{c}\right) \\
&&\left( c\right) \ P\left( A|B\right) <P\left( A|B^{c}\right)
\end{eqnarray*}が成り立つこととして表現されます。

一般の事象に対しても、シンプソンのパラドクスを同様に定義します。つまり、3つの事象\(A,B,C\)が与えられたとき、以下の3つの条件\begin{eqnarray*}&&\left( a\right) \ P\left( A|B\cap C\right) >P\left( A|B^{c}\cap C\right)
\\
&&\left( b\right) \ P\left( A|B\cap C^{c}\right) >P\left( A|B^{c}\cap
C^{c}\right) \\
&&\left( c\right) \ P\left( A|B\right) <P\left( A|B^{c}\right)
\end{eqnarray*}が成り立つ状況をシンプソンのパラドクスと呼ぶということです。

条件\(\left( a\right) \)は、\(C\)が起きている場合には\(B\)が\(B^{c}\)よりも好まれることを意味します。条件\(\left( b\right) \)は、\(C^{c}\)が起きている場合には\(B\)が\(B^{c}\)よりも好まれることを意味します。条件\(\left( c\right) \)は、全体としては\(B^{c}\)が\(B\)よりも好まれることを意味します。

 

シンプソンのパラドクスの視覚化

3つの事象\(A,B,C\)に関してシンプソンのパラドクスが成立しているものとします。つまり、以下の3つの条件\begin{eqnarray*}&&\left( a\right) \ P\left( A|B\cap C\right) >P\left( A|B^{c}\cap C\right)
\\
&&\left( b\right) \ P\left( A|B\cap C^{c}\right) >P\left( A|B^{c}\cap
C^{c}\right) \\
&&\left( c\right) \ P\left( A|B\right) <P\left( A|B^{c}\right)
\end{eqnarray*}が成り立つということです。実数\(a,b,c,d,e,f,g,h\in \mathbb{R} \)をそれぞれ、\begin{eqnarray*}a &=&P\left( A\cap B\cap C\right) \\
b &=&P\left( A^{c}\cap B\cap C\right) \\
c &=&P\left( A\cap B^{c}\cap C\right) \\
d &=&P\left( A^{c}\cap B^{c}\cap C\right) \\
e &=&P\left( A\cap B\cap C^{c}\right) \\
f &=&P\left( A^{c}\cap B\cap C^{c}\right) \\
g &=&P\left( A\cap B^{c}\cap C^{c}\right) \\
h &=&P\left( A^{c}\cap B^{c}\cap C^{c}\right)
\end{eqnarray*}と定義します。事象の確率は非負であるため、\begin{equation*}
0\leq a,b,c,d,e,f,g,h\leq 1
\end{equation*}です。また、これらの実数を定義する8つの事象の和事象は全体事象\(\Omega \)であるため、\begin{equation*}a+b+c+d+e+f+g+h=1
\end{equation*}です。

シンプソンのパラドクスを構成する条件\(\left( a\right) \)の左辺については、\begin{eqnarray*}P\left( A|B\cap C\right) &=&\frac{P\left( A\cap B\cap C\right) }{P\left(
B\cap C\right) } \\
&=&\frac{P\left( A\cap B\cap C\right) }{P\left( B\cap C|A\right) \cdot
P\left( A\right) +P\left( B\cap C|A^{c}\right) \cdot P\left( A^{c}\right) }
\\
&=&\frac{P\left( A\cap B\cap C\right) }{\frac{P\left( A\cap B\cap C\right) }{P\left( A\right) }\cdot P\left( A\right) +\frac{P\left( A^{c}\cap B\cap
C\right) }{P\left( A^{c}\right) }\cdot P\left( A^{c}\right) } \\
&=&\frac{P\left( A\cap B\cap C\right) }{P\left( A\cap B\cap C\right)
+P\left( A^{c}\cap B\cap C\right) } \\
&=&\frac{a}{a+b}
\end{eqnarray*}が成り立ち、右辺については、\begin{eqnarray*}
P\left( A|B^{c}\cap C\right) &=&\frac{P\left( A\cap B^{c}\cap C\right) }{P\left( B^{c}\cap C\right) } \\
&=&\frac{P\left( A\cap B^{c}\cap C\right) }{P\left( B^{c}\cap C|A\right)
\cdot P\left( A\right) +P\left( B^{c}\cap C|A^{c}\right) \cdot P\left(
A^{c}\right) } \\
&=&\frac{P\left( A\cap B^{c}\cap C\right) }{\frac{P\left( A\cap B^{c}\cap
C\right) }{P\left( A\right) }\cdot P\left( A\right) +\frac{P\left( A^{c}\cap
B^{c}\cap C\right) }{P\left( A^{c}\right) }\cdot P\left( A^{c}\right) } \\
&=&\frac{P\left( A\cap B^{c}\cap C\right) }{P\left( A\cap B^{c}\cap C\right)
+P\left( A^{c}\cap B^{c}\cap C\right) } \\
&=&\frac{c}{c+d}
\end{eqnarray*}が成り立つため、\(\left(a\right) \)を言い換えると、\begin{equation*}\frac{a}{a+b}>\frac{c}{c+d}
\end{equation*}すなわち、\begin{equation*}
a\left( c+d\right) >c\left( a+b\right)
\end{equation*}すなわち、\begin{equation*}
ad>bc
\end{equation*}となります。

条件\(\left( b\right) ,\left( c\right) \)も同様に変形することにより、\begin{eqnarray*}eh &>&fg \\
\left( a+e\right) \left( d+h\right) &<&\left( b+f\right) \left( c+g\right)
\end{eqnarray*}がそれぞれ得られます。

以上の議論より、シンプソンのパラドクスを構成する3つの条件は、以下の3つの条件\begin{eqnarray*}
&&\left( a\right) \ ad>bc \\
&&\left( b\right) \ eh>fg \\
&&\left( c\right) \ \left( a+e\right) \left( d+h\right) <\left( b+f\right)
\left( c+g\right)
\end{eqnarray*}と必要十分であることが明らかになりました。

以下の2つの直方体\(R_{1},R_{2}\)と、その内部に存在する小直方体\(D_{1},D_{2},D_{3},D_{4}\)に注目します。

図:シンプソンのパラドクスの視覚化
図:シンプソンのパラドクスの視覚化

図に即して考えると、先の条件\(\left( a\right) \)は、\begin{equation*}D_{1}\text{の面積}>D_{2}\text{の面積}
\end{equation*}が成り立つことを意味し、条件\(\left( b\right) \)は、\begin{equation*}D_{3}\text{の面積}>D_{4}\text{の面積}
\end{equation*}が成り立つことを意味し、条件\(\left( c\right) \)は、\begin{equation*}R_{1}\text{の面積}<R_{2}\text{の面積}
\end{equation*}が成り立つことを意味します。

以上の議論より、シンプソンのパラドクスを構成する3つの条件は、以下の3つの条件\begin{eqnarray*}
&&\left( a\right) \ D_{1}\text{の面積}>D_{2}\text{の面積} \\
&&\left( b\right) \ D_{3}\text{の面積}>D_{4}\text{の面積} \\
&&\left( c\right) \ R_{1}\text{の面積}<R_{2}\text{の面積}
\end{eqnarray*}と必要十分であることが明らかになりました。したがって、以上の条件を満たす直方体\(R_{1},R_{2}\)を見つければ、それはシンプソンのパラドクスの具体例を見つけたことになります。

 

演習問題

問題(シンプソンのパラドクス)
数学の試験は合計\(2\)問から構成され、英語の試験は合計\(8\)問から構成されているものとします。2人の学生\(A,B\)が試験を受けました。学生\(A\)は1日目に英語を受け、2日目に数学を受けました。学生\(B\)は逆に、1日目に数学を受け、2日目に英語を受けました。正答数は以下の通りです。

$$\begin{array}{ccc}
\hline
& 学生A & 学生B \\ \hline
1日目の正答数 & 7 & 2 \\ \hline
2日目の正答数 & 1 & 5 \\ \hline
合計の正答数 & 8 & 7 \\ \hline
\end{array}$$

正答率に注目した上で、シンプソンのパラドクスが起きていることを説明してください。

解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録