WIIS

連続型の確率分布

連続型確率ベクトルの周辺化(周辺分布関数)

目次

Twitter
Mailで保存

同時分布関数から導かれる周辺分布関数

確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて確率ベクトル\begin{equation*}\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}が与えられており、その同時確率分布が同時確率密度関数\begin{equation*}
f_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}によって記述されているものとします。つまり、確率ベクトル\(\left( X_{1},\cdots ,X_{n}\right) \)の値が区間の直積\(I_{1}\times \cdots \times I_{n}\subset \mathbb{R} \)に属する確率が、\begin{equation*}P\left( \left( X_{1},\cdots ,X_{n}\right) \in I_{1}\times \cdots \times
I_{n}\right) =\int \cdots \int_{\left( x_{1},\cdots ,x_{n}\right) \in
I_{1}\times \cdots \times I_{n}}f_{X_{1}\cdots X_{n}}\left( x_{1},\cdots
,x_{n}\right) dx_{1}\cdots dx_{n}
\end{equation*}であるということです。この場合、確率変数\begin{equation*}
X_{1}:\Omega \rightarrow \mathbb{R} \end{equation*}の周辺確率密度関数\begin{equation*}
f_{X_{1}}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}が存在するとともに、これはそれぞれの\(x_{1}\in \mathbb{R} \)に対して、\begin{equation*}f_{X_{1}}\left( x_{1}\right) =\int_{-\infty }^{+\infty }\cdots \int_{-\infty
}^{+\infty }f_{X_{1}\cdots X_{n}}\left( x_{1},y_{2},\cdots ,y_{n}\right)
dy_{2}\cdots dy_{n}
\end{equation*}を定めることを示しました。周辺確率密度関数の定義より、確率変数\(X_{1}\)の値が区間\(I_{1}\subset \mathbb{R} \)に属する確率は、\begin{equation*}P\left( X_{1}\in I_{1}\right) =\int_{x_{1}\in I_{1}}f_{X_{1}}\left(
x_{1}\right) dx_{1}
\end{equation*}として定まります。他の確率変数\(X_{2},\cdots ,X_{n}\)についても同様に考えます。

それぞれの集合\(A_{1}\subset \mathbb{R} \)に対して確率\(P\left( X_{1}\in A_{1}\right) \)が明らかになっている場合、そのような情報の集まりを確率変数\(X_{1}\)の周辺確率分布と呼びます。\(X_{1}\)が連続型の確率変数である場合、\(X_{1}\)の周辺確率分布を特定するためには\(X_{1}\)の値がそれぞれの区間\(I_{1}\subset \mathbb{R} \)に属する確率を特定すれば十分です。したがって、周辺確率密度関数は連続型の確率変数の周辺分布を表現する手段の1つです。ただ、連続型の確率変数の周辺確率分布は、周辺確率密度関数とは異なる概念を用いて表現することもできます。順番に解説します。

 

連続型確率変数の周辺分布関数

確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて連続型の確率ベクトル\begin{equation*}\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}が与えられている場合、その中の1つの確率変数\begin{equation*}
X_{1}:\Omega \rightarrow \mathbb{R} \end{equation*}が特定の値\(x_{1}\in \mathbb{R} \)以下の値をとる確率\begin{equation*}P\left( X_{1}\leq x_{1}\right)
\end{equation*}をどのように評価すればよいでしょうか。

確率ベクトル\(\left( X_{1},\cdots,X_{n}\right) \)はそれぞれの標本点\(\omega \in \Omega \)に対してベクトル\begin{equation*}\left( X_{1},\cdots ,X_{n}\right) \left( \omega \right) =\left( X_{1}\left(
\omega \right) ,\cdots ,X_{n}\left( \omega \right) \right) \in \mathbb{R} ^{n}
\end{equation*}を1つずつ定めるため、「確率変数\(X_{1}\)の値が\(x_{1}\)以下である」という事象は、\(X_{1}\left( \omega \right)\leq x_{1}\)を満たす標本点\(\omega \)からなる集合\begin{eqnarray*}\left\{ \omega \in \Omega \ |\ X_{1}\left( \omega \right) \leq x_{1}\right\}
&=&\left\{ \omega \in \Omega \ |\ X_{1}\left( \omega \right) \leq
x_{1}\wedge X_{2}\left( \omega \right) \in X_{2}\left( \Omega \right) \wedge
\cdots \wedge X_{n}\left( \omega \right) \in X_{n}\left( \Omega \right)
\right\} \\
&=&\left\{ \omega \in \Omega \ |\ X_{1}\left( \omega \right) \leq
x_{1}\wedge \left( X_{2},\cdots ,X_{n}\right) \left( \omega \right) \in
\left( X_{2},\cdots ,X_{n}\right) \left( \Omega \right) \right\}
\end{eqnarray*}として表現されます。したがって、「確率変数\(X_{1}\)の値が\(x_{1}\)以下である」という事象が起こる確率は、\begin{equation*}P\left( X_{1}\leq x_{1}\right) =P\left( \left\{ \omega \in \Omega \ |\
X_{1}\left( \omega \right) \leq x_{1}\wedge \left( X_{2},\cdots
,X_{n}\right) \left( \omega \right) \in \left( X_{2},\cdots ,X_{n}\right)
\left( \Omega \right) \right\} \right)
\end{equation*}となります。以上を踏まえた上で、それぞれの実数\(x_{1}\in \mathbb{R} \)に対して、確率変数\(X_{1}\)が\(x_{1}\)以下の値をとる確率\begin{equation*}F_{X_{1}}\left( x_{1}\right) =P\left( X_{1}\leq x_{1}\right)
\end{equation*}を特定する関数\begin{equation*}
F_{X_{1}}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}を定義し、これを\(X_{1}\)の周辺分布関数(marginal distribution function)や周辺累積分布関数(cumulative marginal distribution function)などと呼びます。

連続型の確率変数\(X_{1}\)の周辺確率密度関数\(f_{X_{1}}:\mathbb{R} \rightarrow \mathbb{R} \)が与えられている場合には、点\(x_{1}\in \mathbb{R} \)を任意に選んだとき、\begin{equation*}F_{X_{1}}\left( x_{1}\right) =\int_{-\infty }^{x_{1}}f_{X_{1}}\left(
y_{1}\right) dy_{1}
\end{equation*}という関係が成り立つことが保証されます。つまり、周辺確率密度関数\(f_{X_{1}}\)を無限区間\((-\infty ,x_{1}]\)上で積分すれば\(F_{X_{1}}\left( x_{1}\right) \)が得られるということです。言い換えると、連続型の確率変数\(X_{1}\)に関しては、周辺分布関数\(F_{X_{1}}\)が周辺確率密度関数\(f_{X_{1}}\)から導出可能であるということです。

命題(連続型確率変数の周辺分布関数)
確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて連続型の確率ベクトル\(\left( X_{1},\cdots ,X_{n}\right):\Omega \rightarrow \mathbb{R} ^{n}\)の同時確率密度関数\(f_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)が与えられているものとする。このとき、確率変数\(X_{1}:\Omega \rightarrow \mathbb{R} \)の確率密度関数\(f_{X_{1}}:\mathbb{R} \rightarrow \mathbb{R} \)が存在するとともに、周辺分布関数\(F_{X_{1}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x_{1}\in \mathbb{R} \)に対して、\begin{equation*}F_{X_{1}}\left( x_{1}\right) =\int_{-\infty }^{x_{1}}f_{X_{1}}\left(
y_{1}\right) dy_{1}
\end{equation*}を定める。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

上の命題は、周辺分布関数\(F_{X_{1}}\)が周辺確率密度関数\(f_{X_{1}}\)から導出可能であることを示唆します。つまり、周辺分布関数\(F_{X_{1}}\)が点\(x_{1}\)に対して定める値は、周辺確率密度\(f_{X_{1}}\)を無限区間\((-\infty ,x_{2}]\)上で積分した値と一致します。他の確率変数\(X_{2},\cdots ,X_{n}\)についても同様に考えます。

例(連続型確率変数の周辺分布関数)
連続型の確率ベクトル\(\left( X,Y,Z\right) :\Omega \rightarrow \mathbb{R} ^{3}\)の値域が、\begin{equation*}\left( X,Y,Z\right) \left( \Omega \right) =\left[ 0,1\right] ^{3}
\end{equation*}であるとともに、その同時確率密度関数\(f_{XYZ}:\mathbb{R} ^{3}\rightarrow \mathbb{R} \)はそれぞれの\(\left( x,y,z\right) \in \mathbb{R} ^{3}\)に対して、\begin{equation*}f_{XYZ}\left( x,y,z\right) =\left\{
\begin{array}{cl}
\frac{1}{3}x+\frac{2}{3}y+z & \left( if\ \left( x,y,z\right) \in \left(
X,Y,Z\right) \left( \Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるものとします。確率変数\(X:\Omega \rightarrow \mathbb{R} \)の値域は、\begin{equation*}X\left( \Omega \right) =\left[ 0,1\right] \end{equation*}であるとともに、\(X\)の確率密度関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)がそれぞれの\(x\in X\left( \Omega\right) \)に対して定める値は、\begin{eqnarray*}f_{X}\left( x\right) &=&\int_{-\infty }^{+\infty }\int_{-\infty }^{+\infty
}f_{XYZ}\left( x,y,z\right) dydz \\
&=&\int_{0}^{1}\int_{0}^{1}\left( \frac{1}{3}x+\frac{2}{3}y+z\right) dydz \\
&=&\int_{0}^{1}\left[ \frac{1}{3}xy+\frac{1}{3}y^{2}+zy\right] _{0}^{1}dz \\
&=&\int_{0}^{1}\left( \frac{1}{3}x+\frac{1}{3}+z\right) dz \\
&=&\left[ \frac{1}{3}xz+\frac{1}{3}z+\frac{1}{2}z^{2}\right] _{0}^{1} \\
&=&\frac{1}{3}x+\frac{1}{3}+\frac{1}{2} \\
&=&\frac{1}{3}x+\frac{5}{6}
\end{eqnarray*}である一方、\(x\not\in X\left( \Omega\right) \)を満たす任意の\(x\in \mathbb{R} \)に対して定める値は、\begin{equation*}f_{X}\left( x\right) =0
\end{equation*}です。結果をまとめると、\begin{equation*}
f_{X}\left( x\right) =\left\{
\begin{array}{cc}
\frac{1}{3}x+\frac{5}{6} & \left( if\ x\in X\left( \Omega \right) \right)
\\
0 & \left( if\ x\not\in X\left( \Omega \right) \right)
\end{array}\right.
\end{equation*}となります。すると、先の命題より、周辺分布関数\(F_{X}:\mathbb{R} \rightarrow \mathbb{R} \)がそれぞれの\(x\in \mathbb{R} \)に対して定める値は、\(x<0\)の場合には、\begin{eqnarray*}F_{X}\left( x\right) &=&\int_{-\infty }^{x}f_{X}\left( s\right) ds \\
&=&\int_{-\infty }^{x}0ds\quad \because x<0 \\
&=&0
\end{eqnarray*}であり、\(0\leq x<1\)の場合には、\begin{eqnarray*}F_{X}\left( x\right) &=&\int_{-\infty }^{x}f_{X}\left( s\right) ds \\
&=&\int_{0}^{x}\left( \frac{1}{3}s+\frac{5}{6}\right) ds\quad \because 0\leq
x<1 \\
&=&\left[ \frac{1}{6}s^{2}+\frac{5}{6}s\right] _{0}^{x} \\
&=&\frac{1}{6}x^{2}+\frac{5}{6}x
\end{eqnarray*}であり、\(x\geq 1\)の場合には、\begin{eqnarray*}F_{X}\left( x\right) &=&\int_{-\infty }^{x}f_{X}\left( s\right) ds \\
&=&\int_{0}^{1}\left( \frac{1}{3}s+\frac{5}{6}\right) ds\quad \because x\geq
1 \\
&=&\left[ \frac{1}{6}s^{2}+\frac{5}{6}s\right] _{0}^{1} \\
&=&\frac{1}{6}+\frac{5}{6} \\
&=&1
\end{eqnarray*}となります。結果をまとめると、\begin{equation*}
F_{X}\left( x\right) =\left\{
\begin{array}{cl}
0 & \left( if\ x<0\right) \\
\frac{1}{6}x^{2}+\frac{5}{6}x & \left( if\ 0\leq x<1\right) \\
1 & \left( if\ x\geq 1\right)
\end{array}\right.
\end{equation*}となります。したがって、例えば、\(X\)の値が\(\frac{1}{2}\)以下である確率は、\begin{eqnarray*}P\left( X\leq \frac{1}{2}\right) &=&F_{X}\left( \frac{1}{2}\right) \\
&=&\frac{1}{6}\left( \frac{1}{2}\right) ^{2}+\frac{5}{6}\left( \frac{1}{2}\right) \\
&=&\frac{11}{24}
\end{eqnarray*}です。他の確率変数\(Y,Z\)についても同様に考えます。

 

同時分布関数と周辺分布関数の関係

確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて確率ベクトル\begin{equation*}\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}が与えられており、その同時確率分布が同時分布関数\begin{equation*}
F_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}によって記述されているものとします。つまり、確率ベクトル\(\left( X_{1},\cdots ,X_{n}\right) \)の値がベクトル\(\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}\)以下である確率が、\begin{equation*}P\left( X_{1}\leq x_{1}\wedge \cdots \wedge X_{n}\leq x_{n}\right)
=F_{X_{1}\cdots X_{n}}\left( x_{1},\cdots ,x_{n}\right)
\end{equation*}であるということです。

同時分布関数\(F_{X_{1}\cdots X_{n}}\)から確率変数\(X_{1}\)の周辺分布関数\(F_{X_{1}}\)を以下の要領で導くこともできます。

命題(同時分布関数と周辺分布関数の関係)
確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて連続型の確率ベクトル\(\left( X_{1},\cdots ,X_{n}\right):\Omega \rightarrow \mathbb{R} ^{n}\)の同時分布\(F_{X_{1}\cdots X_{n}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)が与えられているものとする。このとき、確率変数\(X_{1}:\Omega \rightarrow \mathbb{R} \)の周辺分布\(F_{X_{1}}:\mathbb{R} \rightarrow \mathbb{R} \)が存在するとともに、それぞれの\(x_{1}\in \mathbb{R} \)に対して、\begin{equation*}F_{X_{1}}\left( x_{1}\right) =\lim_{\left( x_{2},\cdots ,x_{n}\right)
\rightarrow \left( +\infty ,\cdots ,+\infty \right) }F_{X_{1}\cdots
X_{n}}\left( x_{1},x_{2},\cdots ,x_{n}\right)
\end{equation*}を定める。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

他の確率変数\(X_{2},\cdots ,X_{n}\)についても同様です。

例(同時分布関数と周辺分布関数の関係)
連続型の確率ベクトル\(\left( X,Y,Z\right) :\Omega \rightarrow \mathbb{R} ^{3}\)の値域が、\begin{equation*}\left( X,Y,Z\right) \left( \Omega \right) =\left[ 0,1\right] ^{3}
\end{equation*}であるとともに、同時分布関数\(F_{XYZ}:\mathbb{R} ^{3}\rightarrow \mathbb{R} \)はそれぞれの\(\left( x,y,z\right) \in \mathbb{R} ^{3}\)に対して、\begin{equation*}F_{XYZ}\left( x,y,z\right) =\left\{
\begin{array}{cl}
0 & \left( if\ x<0\vee y<0\vee z<0\right) \\
\frac{1}{6}xyz\left( x+2y+3z\right) & \left( if\ 0\leq x\leq 1\wedge 0\leq
y\leq 1\wedge 0\leq z\leq 1\right) \\
\frac{1}{6}yz\left( 1+2y+3z\right) & \left( if\ x>1\wedge 0\leq y\leq
1\wedge 0\leq z\leq 1\right) \\
\frac{1}{6}xz\left( 2+x+3z\right) & \left( if\ 0\leq x\leq 1\wedge
y>1\wedge 0\leq z\leq 1\right) \\
\frac{1}{6}xy\left( 3+x+2y\right) & \left( if\ 0\leq x\leq 1\wedge 0\leq
y\leq 1\wedge z>1\right) \\
\frac{1}{2}z\left( 1+z\right) & \left( if\ x>1\wedge y>1\wedge 0\leq z\leq
1\right) \\
\frac{1}{6}x\left( x+5\right) & \left( if\ 0\leq x\leq 1\wedge y>1\wedge
z>1\right) \\
\frac{1}{3}y\left( 2+y\right) & \left( if\ x>1\wedge 0\leq y\leq 1\wedge
z>1\right) \\
1 & \left( if\ x>1\wedge y>1\wedge z>1\right)
\end{array}\right.
\end{equation*}を定めるものとします。先の命題より、確率変数\(X:\Omega \rightarrow \mathbb{R} \)の周辺分布関数\(F_{X}:\mathbb{R} \rightarrow \mathbb{R} \)がそれぞれの\(x\in \mathbb{R} \)に対して定める値は、\(x<0\)の場合には、\begin{eqnarray*}F_{X}\left( x\right) &=&\lim_{\left( y,z\right) \rightarrow \left( +\infty
,+\infty \right) }F_{XYZ}\left( x,y,z\right) \\
&=&\lim_{\left( y,z\right) \rightarrow \left( +\infty ,+\infty \right)
}0\quad \because F_{XYZ}\text{の定義} \\
&=&0
\end{eqnarray*}であり、\(0\leq x<1\)の場合には、\begin{eqnarray*}F_{X}\left( x\right) &=&\lim_{\left( y,z\right) \rightarrow \left( +\infty
,+\infty \right) }F_{XYZ}\left( x,y,z\right) \\
&=&\lim_{\left( y,z\right) \rightarrow \left( +\infty ,+\infty \right) }\frac{1}{6}x\left( x+5\right) \quad \because F_{XYZ}\text{の定義} \\
&=&\frac{1}{6}x\left( x+5\right)
\end{eqnarray*}であり、\(x\geq 1\)の場合には、\begin{eqnarray*}F_{X}\left( x\right) &=&\lim_{\left( y,z\right) \rightarrow \left( +\infty
,+\infty \right) }F_{XYZ}\left( x,y,z\right) \\
&=&\lim_{\left( y,z\right) \rightarrow \left( +\infty ,+\infty \right)
}1\quad \because F_{XYZ}\text{の定義} \\
&=&1
\end{eqnarray*}となります。結論をまとめると、\begin{equation*}
F_{X}\left( x\right) =\left\{
\begin{array}{cl}
0 & \left( if\ x<0\right) \\
\frac{1}{6}x\left( x+5\right) & \left( if\ 0\leq x<1\right) \\
1 & \left( if\ x\geq 1\right)
\end{array}\right.
\end{equation*}となります。他の確率変数\(Y,Z\)についても同様に考えます。

 

演習問題

問題(周辺分布関数)
連続型の確率ベクトル\(\left( X,Y,Z\right) :\Omega \rightarrow \mathbb{R} ^{3}\)の値域が、\begin{equation*}\left( X,Y,Z\right) \left( \Omega \right) =\mathbb{R} _{++}^{3}
\end{equation*}であるとともに、その同時確率密度関数\(f_{XYZ}:\mathbb{R} ^{3}\rightarrow \mathbb{R} \)はそれぞれの\(\left( x,y,z\right) \in \mathbb{R} ^{3}\)に対して、\begin{equation*}f_{XYZ}\left( x,y,z\right) =\left\{
\begin{array}{cc}
e^{-x-y-z} & \left( if\ \left( x,y,z\right) \in \left( X,Y,Z\right) \left(
\Omega \right) \right) \\
0 & \left( if\ \left( x,y,z\right) \not\in \left( X,Y,Z\right) \left( \Omega
\right) \right)
\end{array}\right.
\end{equation*}を定めるものとします。確率変数\(X:\Omega \rightarrow \mathbb{R} \)の周辺分布関数\(F_{X}:\mathbb{R} \rightarrow \mathbb{R} \)を求めた上で、以下の確率\begin{equation*}P\left( X\leq \frac{1}{2}\right)
\end{equation*}を求めてください。

解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

Twitter
Mailで保存

質問とコメント

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

離散型の同時確率変数

それぞれの標本点に対して2次元ベクトルを1つずつ割り当てる写像を同時確率変数と呼びます。離散型の2個の確率変数から定義される同時確率変数を離散型の同時確率変数と呼びます。

離散型の確率ベクトル(多変量確率変数)

それぞれの標本点に対してベクトルを1つずつ割り当てる写像を確率ベクトルと呼びます。特に、有限個の離散型確率変数から定義される確率ベクトルを離散型の確率ベクトルと呼びます。

離散型確率ベクトルの同時確率質量関数

離散型の確率ベクトルが与えられたとき、それぞれのベクトルに対して、確率ベクトルがそのベクトルを値としてとる確率を特定する巻数を同時確率質量関数と呼びます。

確率ベクトルの定義

標本点に対してn次元ベクトルを1つずつ割り当てる写像を確率ベクトルと呼びます。確率論の公理と整合的な形で確率ベクトルの概念を定義します。

有限個の確率変数の独立性

有限個の確率変数が生成するσ代数どうしが独立である場合、それらの確率変数は独立であると言います。有限個の独立変数が独立であることを様々な形で表現するとともに、独立性を判定する方法について解説します。

連続型の確率ベクトル(多変量確率変数)

それぞれの標本点に対してベクトルを1つずつ割り当てる写像を確率ベクトルと呼びます。特に、有限個の離散型確率変数から定義される確率ベクトルを離散型の確率ベクトルと呼びます。

連続型確率ベクトルの同時確率密度関数

連続型の確率ベクトルの同時確率分布を表現する際に同時確率質量関数を利用できません。連続型の確率ベクトルの同時確率分布を描写する際には同時確率密度関数を利用します。

連続型確率ベクトルの同時分布関数

連続型の確率ベクトルの同時分布関数とは、確率ベクトルがあるベクトル以下の値をとる確率を与えることを通じて同時確率分布を記述する関数です。