教材一覧
教材一覧
教材検索

離散型の確率分布

2つの離散型確率変数の共分散

目次

Twitterで共有
メールで共有

2つの離散型確率変数の共分散

確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて離散型の同時確率変数\(\left( X,Y\right) :\Omega\rightarrow \mathbb{R} ^{2}\)が与えられており、その同時確率分布が同時確率質量関数\(f_{XY}:\mathbb{R} ^{2}\rightarrow \mathbb{R} \)によって記述されているものとします。つまり、同時確率変数\(\left( X,Y\right) \)の値がベクトル\(\left( x,y\right) \in \mathbb{R} ^{2}\)と一致する確率は、\begin{equation*}P\left( X=x\wedge Y=y\right) =f_{XY}\left( x,y\right)
\end{equation*}であり、同時確率変数\(\left( X,Y\right) \)の値が集合\(A\times B\subset \mathbb{R} ^{2}\)に属する確率は、\begin{equation*}P\left( \left( X,Y\right) \in A\times B\right) =\sum_{\left( x,y\right) \in
A\times B}f_{XY}\left( x,y\right)
\end{equation*}であるということです。以上の状況において、2つの離散型確率変数\(X,Y:\Omega \rightarrow \mathbb{R} \)の関係を表す指標をどのように定義すればよいでしょうか。順番に考えます。

同時確率質量関数\(f_{XY}:\mathbb{R} ^{2}\rightarrow \mathbb{R} \)を周辺化すれば個々の確率変数\(X,Y\)に関する周辺確率質量関数\(f_{X},f_{Y}:\mathbb{R} \rightarrow \mathbb{R} \)がそれぞれ得られますが、そこから導かれる確率変数\(X,Y\)の期待値\begin{eqnarray*}E\left( X\right) &=&\sum_{x\in X\left( \Omega \right) }xf_{X}\left(
x\right) \\
E\left( Y\right) &=&\sum_{y\in Y\left( \Omega \right) }yf_{Y}\left(
y\right)
\end{eqnarray*}がともに有限な実数として定まるものとします。

座標平面の横軸に確率変数\(X\)の値を並べ、縦軸に確率変数\(Y\)の値を並べます。つまり、横軸を\(X\left( \Omega \right) \)とみなし、縦軸を\(Y\left( \Omega \right) \)とみなすということです。その上で、2つの確率変数の期待値からなるベクトル\(\left(E\left( X\right) ,E\left( Y\right) \right) \)を原点座標とみなします(下図)。

図:2つの確率変数と期待値
図:2つの確率変数と期待値

先の確率関数\(X:\Omega \rightarrow \mathbb{R} \)とその期待値\(E\left( X\right) \)を踏まえた上で、それぞれの\(\omega \in \Omega \)に対して、\begin{equation*}\overline{X}\left( \omega \right) =X\left( \omega \right) -E\left( X\right)
\end{equation*}を定める確率変数\(\overline{X}:\Omega \rightarrow \mathbb{R} \)を定義します。つまり、確率変数\(\overline{X}\)のそれぞれの値は、確率変数\(X\)のそれぞれの値が期待値\(E\left( X\right) \)から離れている程度を表しています。

先の確率関数\(Y:\Omega \rightarrow \mathbb{R} \)とその期待値\(E\left( Y\right) \)を踏まえた上で、それぞれの\(\omega \in \Omega \)に対して、\begin{equation*}\overline{Y}\left( \omega \right) =Y\left( \omega \right) -E\left( Y\right)
\end{equation*}を定める確率変数\(\overline{Y}:\Omega \rightarrow \mathbb{R} \)を定義します。つまり、確率変数\(\overline{Y}\)のそれぞれの値は、確率変数\(Y\)のそれぞれの値が期待値\(E\left( Y\right) \)から離れている程度を表しています。

以上の2つの確率変数\(\overline{X},\overline{Y}:\Omega \rightarrow \mathbb{R} \)を踏まえた上で、それぞれの\(\omega \in \Omega \)に対して、\begin{eqnarray*}\overline{XY}\left( \omega \right) &=&\overline{X}\left( \omega \right)
\cdot \overline{Y}\left( \omega \right) \\
&=&\left[ X\left( \omega \right) -E\left( X\right) \right] \left[ Y\left(
\omega \right) -E\left( Y\right) \right] \end{eqnarray*}を定める確率変数\(\overline{XY}:\Omega \rightarrow \mathbb{R} \)を定義します。この確率変数\(\overline{XY}\)の値の符号には以下のような意味があります。

確率変数\(\overline{XY}\)の値が正である場合には、\begin{eqnarray*}\overline{XY}\left( \omega \right) &>&0 \\
&\Leftrightarrow &\left[ X\left( \omega \right) -E\left( X\right) \right] \left[ Y\left( \omega \right) -E\left( Y\right) \right] >0\quad \because
\overline{XY}\text{の定義} \\
&\Rightarrow &\left[ X\left( \omega \right) -E\left( X\right) >0\wedge
Y\left( \omega \right) -E\left( Y\right) >0\right] \vee \left[ X\left(
\omega \right) -E\left( X\right) <0\wedge Y\left( \omega \right) -E\left(
Y\right) <0\right] \\
&\Leftrightarrow &\left[ X\left( \omega \right) >E\left( X\right) \wedge
Y\left( \omega \right) >E\left( Y\right) \right] \vee \left[ X\left( \omega
\right) <E\left( X\right) \wedge Y\left( \omega \right) <E\left( Y\right) \right] \end{eqnarray*}となります。つまり、確率変数\(\overline{XY}\)の値が正である場合には、\(X\)と\(Y\)の値がともに自身の期待値より大きいか、\(X\)と\(Y\)の値がともに自身の期待値よりも小さくなります。言い換えると、確率変数\(\overline{XY}\)の値が\(\overline{XY}\left( \omega \right) >0\)を満たす場合には、確率変数\(X,Y\)の値を成分とするベクトル\(\left( X\left( \omega \right) ,Y\left( \omega\right) \right) \)が先のグラフの第1象限または第3象限上に存在します(下図の青い領域)。この場合、\(X\)と\(Y\)の値は同じ方向にある(concordant)と言います。

図:XとYが同じ方向にある
図:XとYが同じ方向にある

確率変数\(\overline{XY}\)の値が負である場合には、\begin{eqnarray*}\overline{XY}\left( \omega \right) &<&0 \\
&\Leftrightarrow &\left[ X\left( \omega \right) -E\left( X\right) \right] \left[ Y\left( \omega \right) -E\left( Y\right) \right] <0\quad \because
\overline{XY}\text{の定義} \\
&\Rightarrow &\left[ X\left( \omega \right) -E\left( X\right) >0\wedge
Y\left( \omega \right) -E\left( Y\right) <0\right] \vee \left[ X\left(
\omega \right) -E\left( X\right) <0\wedge Y\left( \omega \right) -E\left(
Y\right) >0\right] \\
&\Leftrightarrow &\left[ X\left( \omega \right) >E\left( X\right) \wedge
Y\left( \omega \right) <E\left( Y\right) \right] \vee \left[ X\left( \omega
\right) <E\left( X\right) \wedge Y\left( \omega \right) >E\left( Y\right) \right] \end{eqnarray*}となります。つまり、確率変数\(\overline{XY}\)の値が負である場合には、\(X\)と\(Y\)の一方の値が自身の期待値より大きく、他方の値が自身の期待値より小さくなります。言い換えると、確率変数\(\overline{XY}\)の値が\(\overline{XY}\left( \omega \right) <0\)を満たす場合には、確率変数\(X,Y\)の値を成分とするベクトル\(\left( X\left( \omega\right) ,Y\left( \omega \right) \right) \)が先のグラフの第2象限または第4象限上に存在します(下図のグレーの領域)。この場合、\(X\)と\(Y\)の値は反対方向にある(discordant)と言います。

図:XとYが反対方向にある
図:XとYが反対方向にある

確率変数\(\overline{XY}\)の期待値\(E\left( \overline{XY}\right) \)が正である場合には、\(\overline{XY}\)の値\(\overline{XY}\left( \omega \right) \)の多くが正であることを意味しますが、これは、確率変数\(X,Y\)の値を成分とするベクトル\(\left( X\left(\omega \right) ,Y\left( \omega \right) \right) \)の多くが先のグラフの第1象限または第3象限上に存在すること、すなわち、確率変数\(X,Y\)の値の組\(\left( x,y\right) \)が右上がりの領域を中心に分布していることを意味します。つまり、\begin{equation*}E\left( \overline{XY}\right) >0
\end{equation*}が成り立つ場合には、\(X\)の値が大きいほど\(Y\)の値もまた大きくなる傾向があり、同時に、\(X\)の値が小さいほど\(Y\)の値もまた小さくなる傾向があることを意味します。

確率変数\(\overline{XY}\)の期待値\(E\left( \overline{XY}\right) \)が負である場合には、\(\overline{XY}\)の値\(\overline{XY}\left( \omega \right) \)の多くが負であることを意味しますが、これは、確率変数\(X,Y\)の値を成分とするベクトル\(\left( X\left(\omega \right) ,Y\left( \omega \right) \right) \)の多くが先のグラフの第2象限または第4象限上に存在すること、すなわち、確率変数\(X,Y\)の値の組\(\left( x,y\right) \)が右下がりの領域を中心に分布していることを意味します。つまり、\begin{equation*}E\left( \overline{XY}\right) <0
\end{equation*}が成り立つ場合には、\(X\)の値が大きいほど\(Y\)の値は小さくなる傾向があり、同時に、\(X\)の値が小さいほど\(Y\)の値は大きくなる傾向があることを意味します。

確率変数\(\overline{XY}\)の期待値\(E\left( \overline{XY}\right) \)がゼロである場合には、\(\overline{XY}\)の値\(\overline{XY}\left( \omega \right) \)の多くが正であるとは言えず、負であるとも言えません。したがってこの場合、確率変数\(X,Y\)の値を成分とするベクトル\(\left( X\left( \omega \right) ,Y\left(\omega \right) \right) \)の多くが先のグラフの第1象限または第3象限上に存在とは言えず、第2象限または第4象限上に存在するとも言えないため、\(X\)の値と\(Y\)の値の分布に関して何らかの関連性を見出すことができません。

以上の考察により、確率変数\(\overline{XY}\)の期待値\begin{equation*}E\left( \overline{XY}\right) =E\left( \left[ X-E\left( X\right) \right] \left[ Y-E\left( Y\right) \right] \right)
\end{equation*}の符号や大きさは、2つの離散型確率変数\(X,Y\)の値の関係を描写する指標として有用であることが明らかになりました。このような事情を踏まえた上で、この期待値\(E\left( \overline{XY}\right) \)を確率変数\(X,Y\)の共分散(covariance)と呼び、\begin{equation*}\mathrm{Cov}\left( X,Y\right)
\end{equation*}で表記します。つまり、確率変数\(X,Y\)の共分散とは、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =E\left( \left[ X-E\left( X\right) \right] \left[
Y-E\left( Y\right) \right] \right)
\end{equation*}と定義される指標です。

例(2つの離散型確率変数の共分散)
離散型の同時確率変数\(\left( X,Y\right) :\Omega \rightarrow \mathbb{R} ^{2}\)の値域が、\begin{equation*}\left( X,Y\right) \left( \Omega \right) =\left\{ \left( 1,1\right) ,\left(
2,0\right) ,\left( 0,0\right) \right\}
\end{equation*}であるとともに、\(\left(X,Y\right) \)の同時確率密度関数\(f_{XY}:\mathbb{R} ^{2}\rightarrow \mathbb{R} \)はそれぞれの\(\left( x,y\right) \in \mathbb{R} ^{2}\)に対して、\begin{equation*}f_{XY}\left( x,y\right) =\left\{
\begin{array}{cl}
\frac{1}{3} & \left( if\ \left( x,y\right) \in \left( X,Y\right) \left(
\Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるものとします。確率変数\(X,Y\)の値域は、\begin{eqnarray*}X\left( \Omega \right) &=&\left\{ 0,1,2\right\} \\
Y\left( \Omega \right) &=&\left\{ 0,1\right\}
\end{eqnarray*}であるとともに、\(X\)の周辺確率関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in X\left( \Omega\right) \)に対して、\begin{equation*}f_{X}\left( x\right) =\left\{
\begin{array}{cl}
\frac{1}{3} & \left( if\ x=0,1,2\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定め、\(Y\)の周辺確率関数\(f_{Y}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(y\in Y\left( \Omega\right) \)に対して、\begin{equation*}f_{Y}\left( y\right) =\left\{
\begin{array}{cl}
\frac{2}{3} & \left( if\ y=0\right) \\
\frac{1}{3} & \left( if\ y=1\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めます(確認してください)。\(X\)の期待値は、\begin{eqnarray*}E\left( X\right) &=&\sum_{x\in X\left( \Omega \right) }\left[ x\cdot
f_{X}\left( x\right) \right] \\
&=&0\cdot f_{X}\left( 0\right) +1\cdot f_{X}\left( 1\right) +2\cdot
f_{X}\left( 2\right) \\
&=&0\cdot \frac{1}{3}+1\cdot \frac{1}{3}+2\cdot \frac{1}{3} \\
&=&1
\end{eqnarray*}であり、\(Y\)の期待値は、\begin{eqnarray*}E\left( Y\right) &=&\sum_{y\in Y\left( \Omega \right) }\left[ y\cdot
f_{Y}\left( y\right) \right] \\
&=&0\cdot f_{Y}\left( 0\right) +1\cdot f_{Y}\left( 1\right) \\
&=&0\cdot \frac{2}{3}+1\cdot \frac{1}{3} \\
&=&\frac{1}{3}
\end{eqnarray*}です。したがって、\(X\)と\(Y\)の共分散は、\begin{eqnarray*}\mathrm{Cov}\left( X,Y\right) &=&E\left( \left[ X-E\left( X\right) \right] \left[ Y-E\left( Y\right) \right] \right) \quad \because \text{共分散の定義} \\
&=&\sum_{\left( x,y\right) \in \left( X,Y\right) \left( \Omega \right) }
\left[ x-E\left( X\right) \right] \left[ y-E\left( Y\right) \right] f_{XY}\left( x,y\right) \quad \because \text{LOTUS} \\
&=&\sum_{\left( x,y\right) \in \left( X,Y\right) \left( \Omega \right)
}\left( x-1\right) \left( y-\frac{1}{3}\right) f_{XY}\left( x,y\right) \quad
\because E\left( X\right) =1,E\left( Y\right) =\frac{1}{3} \\
&=&\left( 1-1\right) \left( 1-\frac{1}{3}\right) f_{XY}\left( 1,1\right)
+\left( 2-1\right) \left( 0-\frac{1}{3}\right) f_{XY}\left( 2,0\right)
+\left( 0-1\right) \left( 0-\frac{1}{3}\right) f_{XY}\left( 0,0\right) \\
&=&-\frac{1}{3}\cdot \frac{1}{3}+\frac{1}{3}\cdot \frac{1}{3}\quad \because
f_{XY}\text{の定義} \\
&=&0
\end{eqnarray*}です。したがって、\(X\)の値と\(Y\)の値の関係に何らかの傾向を見出すことはできません。

 

共分散が有限な値として定まるための条件

離散型の確率変数\(X,Y\)の共分散は、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =E\left( \left[ X-E\left( X\right) \right] \left[
Y-E\left( Y\right) \right] \right)
\end{equation*}と定義されます。つまり、共分散は確率変数\(\left[ E-E\left( X\right) \right] \left[ Y-E\left( Y\right) \right] \)の期待値です。一般に、確率変数の期待値は有限な実数として定まるとは限らず、また、期待値が存在しないような状況も起こり得るため、共分散も同様です。共分散が有限な実数として定まるための条件を特定できるのでしょうか。

確率変数\(X,Y\)の分散がともに有限な正の実数である場合、\(X\)と\(Y\)の共分散は有限な実数として定まることが保証されます。

命題(共分散が有限な値として定まるための条件)
2つの離散型確率変数\(X,Y:\Omega \rightarrow \mathbb{R} \)の分散\(\mathrm{Var}\left( X\right) ,\mathrm{Var}\left(Y\right) \)がともに有限な実数として定まる場合、共分散\(\mathrm{Cov}\left( X,Y\right) \)もまた有限な実数として定まる。
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

共分散の導出プロセスの簡略化

離散型の確率変数\(X,Y\)の共分散は、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =E\left( \left[ X-E\left( X\right) \right] \left[
Y-E\left( Y\right) \right] \right)
\end{equation*}と定義されますが、これを以下のように表現することもできます。

命題(共分散の導出プロセスの簡略化)
2つの離散型確率変数\(X,Y:\Omega \rightarrow \mathbb{R} \)の分散\(\mathrm{Var}\left( X\right) ,\mathrm{Var}\left(Y\right) \)がともに有限な実数として定まる場合、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =E\left( XY\right) -E\left( X\right) E\left(
Y\right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

共分散は単位に依存する

離散型確率変数\(X,Y\)の共分散は、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =E\left( \left[ X-E\left( X\right) \right] \left[
Y-E\left( Y\right) \right] \right)
\end{equation*}と定義されますが、その水準は確率変数\(X,Y\)の値の単位の選び方に大きく依存します。

例(共分散は単位に依存する)
確率変数\(X\)の値の単位が「メートル」である場合の共分散が\(\mathrm{Cov}\left( X,Y\right) \)であるものとします。確率変数\(X\)の値の単位として「センチメートル」を採用した場合、確率変数\(X\)は\(100X\)へと変換されるため、その場合の共分散は、\begin{eqnarray*}\mathrm{Cov}\left( 100X,Y\right) &=&E\left( \left[ 100X-E\left( 100X\right) \right] \left[ Y-E\left( Y\right) \right] \right) \quad \because \text{共分散の定義} \\
&=&E\left( \left[ 100X-100E\left( X\right) \right] \left[ Y-E\left( Y\right) \right] \right) \quad \because \text{確率変数の定数倍の期待値} \\
&=&E\left( 100\left[ X-E\left( X\right) \right] \left[ Y-E\left( Y\right) \right] \right) \\
&=&100E\left( \left[ X-E\left( X\right) \right] \left[ Y-E\left( Y\right) \right] \right) \quad \because \text{確率変数の定数倍の期待値} \\
&=&100\mathrm{Cov}\left( X,Y\right) \quad \because \text{共分散の定義}
\end{eqnarray*}すなわち、\begin{equation}
\mathrm{Cov}\left( 100X,Y\right) =100\mathrm{Cov}\left( X,Y\right) \quad \cdots (1)
\end{equation}となります。つまり、確率変数\(X\)の値を\(100\)倍すると共分散の値も\(100\)倍になってしまいます。

つまり、同じデータを扱っていてもデータの単位を変えれば共分散の値が変わってしまうということです。3つの確率変数\(X,Y,Z\)について共分散\(C\left(X,Y\right) ,C\left( X,Z\right) ,C\left( Y,Z\right) \)をそれぞれとったとき、\(X,Y,Z\)の値の単位が異なる場合には、これらの共分散の値を比較することに意味はありません。共分散の値は単位に依存してしまうからです。共分散が抱えるこのような問題を解決するために相関係数(correlation)と呼ばれる指標を利用します。詳細は場を改めて解説します。

 

共分散の値の意味(独立な確率変数の共分散)

先の議論から明らかになったように、2つの離散型確率変数\(X,Y\)の共分散について、\begin{equation*}\mathrm{Cov}\left( X,Y\right) >0
\end{equation*}が成り立つ場合には、\(X\)の値が大きいほど\(Y\)の値もまた大きくなる傾向があり、同時に、\(X\)の値が小さいほど\(Y\)の値もまた小さくなる傾向があります。また、\begin{equation*}\mathrm{Cov}\left( X,Y\right) <0
\end{equation*}が成り立つ場合には、\(X\)の値が大きいほど\(Y\)の値は小さくなる傾向があり、同時に、\(X\)の値が小さいほど\(Y\)の値は大きくなる傾向があります。さらに、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =0
\end{equation*}が成り立つ場合には、\(X\)の値と\(Y\)の値の分布に関して何らかの関連性を見出すことができません。

2つの離散型確率変数\(X,Y\)が独立である場合、\(X\)の値の起こりやすさと\(Y\)の値の起こりやすさの間に影響関係が存在しないため、\(X\)の値と\(Y\)の値の分布に関して何らかの関連性を見出すことはできず、したがって\(X\)と\(Y\)の共分散はゼロになることが予想されます。これは正しい予想です。

命題(独立な確率変数の共分散)
2つの離散型確率変数\(X,Y:\Omega \rightarrow \mathbb{R} \)が独立であるならば、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =0
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

同一の確率変数の間の共分散

離散型の確率変数と自身との共分散は分散と一致します。

命題(同一の確率変数の間の共分散)
離散型の確率変数\(X:\Omega\rightarrow \mathbb{R} \)について、\begin{equation*}\mathrm{Cov}\left( X,X\right) =\mathrm{Var}\left( X\right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

共分散の対称性

離散型の確率変数\(X,Y\)について\(X\)と\(Y\)の共分散と\(Y\)と\(X\)の共分散は一致します。つまり、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =\mathrm{Cov}\left( Y,X\right)
\end{equation*}が成り立つということです。共分散が満たす以上の性質を対称性(symmetry)と呼びます。

命題(共分散の対称性)

離散型の確率変数\(X,Y:\Omega\rightarrow \mathbb{R} \)について、\begin{equation*}\mathrm{Cov}\left( X,Y\right) =\mathrm{Cov}\left( Y,X\right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

共分散の双線型性

2つの離散型の確率変数\(X_{1},X_{2}:\Omega \rightarrow \mathbb{R} \)と定数\(c_{1},c_{2}\in \mathbb{R} \)が与えられたとき、それぞれの\(\omega \in \Omega \)に対して、\begin{equation*}X=c_{1}X_{1}\left( \omega \right) +c_{2}X_{2}\left( \omega \right)
\end{equation*}を定める確率変数\(X:\Omega\rightarrow \mathbb{R} \)が定義可能です。さらに確率変数\(Y:\Omega \rightarrow \mathbb{R} \)を導入します。\(X_{1}\)と\(Y\)の共分散\(\mathrm{Cov}\left( X_{1},Y\right) \)お