教材一覧
教材一覧
教材検索

離散型の確率分布

離散型多変量確率分布の周辺化(周辺確率関数と周辺分布関数)

目次

Twitterで共有
メールで共有

周辺確率分布

問題としている試行に関する有限\(n\)個の確率変数\begin{eqnarray*}X_{1} &:&\Omega \rightarrow \mathbb{R} \\
&&\vdots \\
X_{n} &:&\Omega \rightarrow \mathbb{R} \end{eqnarray*}に加えて、それらの多変量確率変数\begin{equation*}
\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}が与えられているものとします。確率変数\(X_{i}\ \left( i=1,\cdots ,n\right) \)の確率分布とは、それぞれの集合\(A_{i}\subset \mathbb{R} \)に関する確率\begin{equation*}P\left( X_{i}\in A_{i}\right) =P\left( \left\{ \omega \in \Omega \ |\
X_{i}\left( \omega \right) \in A_{i}\right\} \right)
\end{equation*}に関する情報の集まりです。一方、多変量確率変数\(\left( X_{1},\cdots ,X_{n}\right) \)の多変量確率分布とは、それぞれの集合\(A_{1}\times \cdots \times A_{n}\subset \mathbb{R} ^{n}\)に関する確率\begin{equation*}P\left( \left( X_{1},\cdots ,X_{n}\right) \in A_{1}\times \cdots \times
A_{n}\right) =P\left( \left\{ \omega \in \Omega \ |\ X_{1}\left( \omega
\right) \in A_{1}\wedge \cdots \wedge X_{n}\left( \omega \right) \in
A_{n}\right\} \right)
\end{equation*}に関する情報の集まりです。

確率変数\(X_{1},\cdots ,X_{n}\)の確率分布が明らかでない一方で、多変量確率変数\(\left( X_{1},\cdots ,X_{n}\right) \)の多変量確率分布が明らかである場合、そこから個々の確率変数\(X_{1},\cdots ,X_{n}\)の確率分布を特定できます。具体的には、以下の関係\begin{equation*}P\left( X_{i}\in A\right) =P\left( \left( X_{i},X_{-i}\right) \in
A_{i}\times X_{-i}\left( \Omega \right) \right)
\end{equation*}が成立するため、以上の関係を利用することにより個々の確率変数\(X_{i}\)の確率分布を特定できます。個々の確率変数\(X_{i}\)の確率分布が多変量確率変数\(\left( X_{1},\cdots ,X_{n}\right) \)の多変量確率分布から導かれたものである場合、特にそれを\(X_{i}\)の周辺確率分布(marginalprobability distribution)や周辺分布(marginal distribution)などと呼びます。

 

多変量確率関数から導かれる周辺確率関数

確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて離散型の確率変数\begin{eqnarray*}X_{1} &:&\Omega \rightarrow \mathbb{R} \\
&&\vdots \\
X_{n} &:&\Omega \rightarrow \mathbb{R} \end{eqnarray*}が与えられており、さらに、それらの多変量確率変数\begin{equation*}
\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の多変量確率分布が多変量確率関数\begin{equation*}
f_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}によって記述されているものとします。つまり、\(f_{X_{1}\cdots X_{n}}\)がそれぞれの点\(\left( x_{1},\cdots ,x_{n}\right)\in \mathbb{R} ^{n}\)に対して定める値は、\begin{equation*}f_{X_{1}\cdots X_{n}}\left( x_{1},\cdots ,x_{n}\right) =P\left(
X_{1}=x_{1}\wedge \cdots \wedge X_{n}=x_{n}\right)
\end{equation*}であるとともに、集合\(A_{1}\times \cdots \times A_{n}\subset \mathbb{R} ^{n}\)を任意に選んだとき、\begin{equation*}P\left( \left( X_{1},\cdots ,X_{n}\right) \in A_{1}\times \cdots \times
A_{n}\right) =\sum_{\left( x_{1},\cdots ,x_{n}\right) \in A_{1}\times \cdots
\times A_{n}}f_{X_{1}\cdots X_{n}}\left( x_{1},\cdots ,x_{n}\right)
\end{equation*}という関係が成り立つということです。

多変量確率変数\(\left( X_{1},\cdots,X_{n}\right) \)の多変量確率分布に関する以上の情報から、個々の確率変数\(X_{i}\)の周辺確率分布に関する情報を抽出するためにはどうすればよいでしょうか。\(X_{i}\)は離散型の確率変数であるため、その確率分布を描写するためには確率関数を特定すれば十分です。そこで、\(X_{i}\)の確率関数を、\begin{equation*}f_{X_{i}}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}で表記します。確率関数の定義より、\(f_{X_{i}}\)がそれぞれの\(x_{i}\in \mathbb{R} \)に対して定める値は、\begin{equation*}f_{X_{i}}\left( x_{i}\right) =P\left( X=x_{i}\right)
\end{equation*}ですが、この値は多変量確率変数\(\left( X_{1},\cdots,X_{n}\right) \)の多変量確率関数\(f_{X_{1}\cdots X_{n}}\)から以下のようにして導くことができます。

命題(多変量確率関数から導かれる周辺確率関数)
確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて有限\(n\)個の離散型確率変数\(X_{1},\cdots ,X_{n}:\Omega\rightarrow \mathbb{R} \)がそれぞれ与えられており、さらに、それらの多変量確率変数\(\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}\)の多変量確率関数\(f_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)が与えられているものとする。このとき、\(X_{i}\ \left( i=1,\cdots ,n\right) \)の確率関数\(f_{X_{i}}:\mathbb{R} \rightarrow \mathbb{R} \)が存在するとともに、それぞれの\(x_{i}\in \mathbb{R} \)に対して、\begin{equation*}f_{X_{i}}\left( x_{i}\right) =\left\{
\begin{array}{cc}
\sum\limits_{\left( y_{1},\cdots ,y_{n}\right) \in \left( X_{1},\cdots
,X_{n}\right) \left( \Omega \right) \ s.t.\ y_{i}=x_{i}}f_{X_{1}\cdots
X_{n}}\left( y_{1},\cdots ,y_{n}\right) & \left( if\ x_{i}\in X_{i}\left(
\Omega \right) \right) \\
0 & \left( if\ x_{i}\not\in X_{i}\left( \Omega \right) \right)
\end{array}\right.
\end{equation*}を定める。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

つまり、確率変数\(X_{i}\)の値が\(x_{i}\)と一致する確率\(f_{X_{i}}\left( x_{i}\right) \)を求めるためには、多変量確率変数\(\left( X_{1},\cdots ,X_{n}\right) \)がとり得る値の組\(\left( y_{1},\cdots,y_{n}\right) \)の中でも\(y_{i}\)が\(x_{i}\)と一致するものに対して確率\(f_{X_{1}\cdots X_{n}}\left( y_{1},\cdots,y_{n}\right) \)をそれぞれ特定し、得られた確率の総和をとればよいということです。

以上の命題より、多変量確率変数\(\left( X_{1},\cdots,X_{n}\right) \)の多変量確率関数\(f_{X_{1}\cdots X_{n}}\)が与えられれば、そこから個々の確率変数\(X_{i}\ \left( i=1,\cdots ,n\right) \)の確率関数\(f_{X_{i}}\)をそれぞれ導けることが明らかになりました。確率関数\(f_{X_{i}}\)が多変量確率関数\(f_{X_{1}\cdots X_{n}}\)から導かれたものである場合には、\(f_{X_{i}}\)のことを確率変数\(X_{i}\)に関する周辺確率関数(marginal probability function)と呼びます。また、多変量確率関数\(f_{X_{1}\cdots X_{n}}\)から周辺確率関数\(f_{X_{i}}\)を導くプロセスを周辺化(marginalizing)と呼びます。

例(離散型確率変数の周辺確率関数)
離散型の多変量確率関数\(\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}\)の値域が、\begin{equation*}\left( X_{1},\cdots ,X_{n}\right) \left( \Omega \right) =\left\{ \left(
x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}\ |\ \forall i\in \left\{ 1,\cdots ,n\right\} :x_{i}\in \left\{
1,-1\right\} \right\}
\end{equation*}であるとともに、\(\left(X_{1},\cdots ,X_{n}\right) \)の多変量確率関数\(f_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)はそれぞれの\(\left( x_{1},\cdots,x_{n}\right) \in \mathbb{R} ^{n}\)に対して、\begin{equation*}f_{X_{1}\cdots X_{n}}\left( x_{1},\cdots ,x_{n}\right) =\left\{
\begin{array}{cl}
\frac{1}{2^{n}} & \left( if\ \left( x_{1},\cdots ,x_{n}\right) \in \left(
X_{1},\cdots ,X_{n}\right) \left( \Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるものとします。それぞれの確率変数\(X_{i}\ \left( i=1,\cdots ,n\right) \)の値域は、\begin{equation*}X_{i}\left( \Omega \right) =\left\{ 1,-1\right\}
\end{equation*}であるとともに、\(X_{i}\)の周辺確率関数\(f_{X_{i}}:\mathbb{R} \rightarrow \mathbb{R} \)がそれぞれの\(x_{i}\in X_{i}\left(\Omega \right) \)に対して定める値は、\begin{eqnarray*}f_{X_{i}}\left( 1\right) &=&\sum\limits_{\left( y_{1},\cdots ,y_{n}\right)
\in \left( X_{1},\cdots ,X_{n}\right) \left( \Omega \right) \ s.t.\
y_{i}=1}f_{X_{1}\cdots X_{n}}\left( y_{1},\cdots ,y_{n}\right) \\
&=&2^{n-1}\cdot \frac{1}{2^{n}} \\
&=&\frac{1}{2}
\end{eqnarray*}かつ、\begin{eqnarray*}
f_{X_{i}}\left( -1\right) &=&\sum\limits_{\left( y_{1},\cdots
,y_{n}\right) \in \left( X_{1},\cdots ,X_{n}\right) \left( \Omega \right) \
s.t.\ y_{i}=-1}f_{X_{1}\cdots X_{n}}\left( y_{1},\cdots ,y_{n}\right) \\
&=&2^{n-1}\cdot \frac{1}{2^{n}} \\
&=&\frac{1}{2}
\end{eqnarray*}である一方、\(x_{i}\not\in X_{i}\left(\Omega \right) \)を満たす任意の\(x_{i}\in \mathbb{R} \)に対して定める値は、\begin{equation*}f_{X_{i}}\left( x_{i}\right) =0
\end{equation*}となります。

 

多変量分布関数から導かれる周辺分布関数

離散型の確率変数\(X:\Omega\rightarrow \mathbb{R} \)の確率分布が確率関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)として記述されている場合には、分布関数\(F_{X}:\mathbb{R} \rightarrow \mathbb{R} \)がそれぞれ存在して、それぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}F_{X}\left( x\right) =P\left( X\leq x\right) =\sum_{x_{i}\leq x}f_{X}\left(
x_{i}\right)
\end{equation*}を定めます。上の定義において\(f_{X}\)が確率変数\(X\)の周辺確率関数である場合には、すなわち、分布関数\(F_{X}\)が周辺確率関数\(f_{X}\)から導かれたものである場合には、\(F_{X}\)のことを確率変数\(X\)に関する周辺分布関数(marginal distribution function)や周辺累積分布関数(marginal cumulative distribution function)などと呼びます。

確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて離散型の確率変数\begin{eqnarray*}X_{1} &:&\Omega \rightarrow \mathbb{R} \\
&&\vdots \\
X_{n} &:&\Omega \rightarrow \mathbb{R} \end{eqnarray*}が与えられており、さらに、それらの多変量確率変数\begin{equation*}
\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の多変量確率分布が多変量分布関数\begin{equation*}
F_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}によって記述されているものとします。つまり、\(F_{X_{1}\cdots X_{n}}\)がそれぞれの点\(\left( x_{1},\cdots ,x_{n}\right)\in \mathbb{R} ^{n}\)に対して定める値は、\begin{equation*}F_{X_{1}\cdots X_{n}}\left( x_{1},\cdots ,x_{n}\right) =P\left( X_{1}\leq
x_{1}\wedge \cdots \wedge X_{n}\leq x_{n}\right) =\sum_{y_{1}\leq
x_{1}}\cdots \sum_{y_{n}\leq x_{n}}f_{X_{1}\cdots X_{n}}\left( y_{1},\cdots
,y_{n}\right)
\end{equation*}です。多変量分布関数\(F_{X_{1}\cdots X_{n}}\)から個々の確率変数\(X_{i}\)の周辺分布関数\(F_{X_{i}}\)を以下の要領で導くこともできます。

命題(多変量分布関数から導かれる周辺分布関数)
確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて離散型の確率変数\(X_{1},\cdots ,X_{n}:\Omega \rightarrow \mathbb{R} \)がそれぞれ与えられており、さらに、それらの多変量確率変数\(\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}\)の多変量分布関数\(F_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)が与えられているものとする。このとき、それぞれの確率変数\(X_{i}\ \left( i=1,\cdots ,n\right) \)の周辺分布関数\(F_{X_{i}}:\mathbb{R} \rightarrow \mathbb{R} \)が存在するとともに、以下の関係\begin{equation*}\forall x_{i}\in \mathbb{R} :\lim_{x_{-i}\rightarrow \left( \infty ,\cdots ,\infty \right)
}F_{X_{1}\cdots X_{n}}\left( x_{i},x_{-i}\right) =F_{X_{i}}\left(
x_{i}\right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

Twitterで共有
メールで共有
DISCUSSION

質問とコメント