マルコフの不等式が抱える課題
確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて絶対連続型の確率変数\begin{equation*}X:\Omega \rightarrow \mathbb{R} \end{equation*}が与えられているものとします。さらに、確率変数\(X\)の確率分布が確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}によって記述されているものとします。つまり、\begin{equation*}
\forall B\in \mathcal{B}\left( \mathbb{R} \right) :P\left( X\in B\right) =\int_{B}f_{X}\left( x\right) dx
\end{equation*}が成り立つということです。ただし、\(\mathcal{B}\left( \mathbb{R} \right) \)は\(\mathbb{R} \)上のボレル集合族です。確率変数\(X\)の分布関数が、\begin{equation*}F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}である場合、以下の関係\begin{equation*}
\forall x\in \mathbb{R} :F_{X}\left( x\right) =\int_{-\infty }^{x}f_{X}\left( t\right) dt
\end{equation*}もまた成立します。
確率変数\(X\)が非負の実数を値としてとり得るとともに、その期待値\(E\left( X\right) \)が有限な実数として定まる場合には、マルコフの不等式を利用することにより、それぞれの正の実数\(c>0\)に対して、確率変数\(X\)の実現値が\(c\)以上である確率の上限を特定できることが明らかになりました。簡単に復習します。
\end{equation*}が成り立つとともに、期待値\(E\left( X\right) \)が有限な実数として定まるものとする。このとき、\begin{equation*}\forall c>0:P\left( X\geq c\right) \leq \frac{E\left( X\right) }{c}
\end{equation*}が成り立つ。
つまり、確率変数\(X\)の確率分布の全容は分からない場合でも期待値\(E\left( X\right) \)さえ明らかであれば、確率\(P\left( X\geq c\right) \)の真の値が収まる範囲を特定できるということです。期待値という限られた情報から確率分布に関する有益な情報を導き出せるという点においてマルコフの不等式は優れています。その反面、マルコフの不等式は期待値だけを拠り所とした指標であるため、確率分布の形状や、値\(c\)の選び方によっては、マルコフの不等式が与える値\(\frac{E\left( X\right) }{c}\)は確率\(P\left( X\geq c\right) \)の真の値を特定する上であまり役に立たない状況が起こり得ます。以下の例より明らかです。
\end{equation*}であるとともに、確率密度関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X}\left( x\right) =\left\{
\begin{array}{cl}
e^{-x} & \left( if\ x\in X\left( \Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるものとします。\(X\)の期待値は、\begin{eqnarray*}E\left( X\right) &=&\int_{-\infty }^{+\infty }xf_{X}\left( x\right) dx \\
&=&\int_{0}^{+\infty }xe^{-x}dx \\
&=&1
\end{eqnarray*}であるため、マルコフの不等式より、確率変数\(X\)の実現値が\(3\)以上の確率について、\begin{eqnarray*}P\left( X\geq 3\right) &\leq &\frac{E\left( X\right) }{3}\quad \because
\text{マルコフの不等式} \\
&=&\frac{1}{3}\quad \because E\left( X\right) =1 \\
&\approx &0.333
\end{eqnarray*}が成り立ちます。つまり、確率変数\(X\)の実現値が\(3\)以上である確率は\(\frac{1}{3}\)以下です。一方、確率変数\(X\)の実現値が\(3\)以上である確率の真の値は、\begin{eqnarray*}P\left( X\geq 3\right) &=&\int_{3}^{+\infty }f_{X}\left( x\right) dx \\
&=&\int_{3}^{+\infty }e^{-x}dx \\
&=&e^{-3} \\
&\approx &0.0498
\end{eqnarray*}です。マルコフの不等式が与える確率\(P\left(X\geq 3\right) \)の最大値\(0.333\)は真の確率\(0.0498\)から遠く離れているため、実際の確率\(P\left( X\geq 3\right) \)を特定する上でそれほど参考にはなりません。
マルコフの不等式は期待値だけを拠り所とした指標であるため、場合によってはそれほど役に立たないことが明らかになりました。では、期待値に加えて分散もまた明らかになっている場合、その追加的な情報を活用することにより、マルコフの不等式よりも優れた精度で確率分布に関する情報を引き出すことはできるでしょうか。順番に考えます。
絶対連続型確率変数に関するチェビシェフの不等式
確率空間\(\left( \Omega ,\mathcal{F},P\right) \)に加えて絶対連続型の確率変数\(X:\Omega \rightarrow \mathbb{R} \)が与えられており、その確率分布が確率密度関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)によって記述されているものとします。
確率変数\(X\)が与えられれば、それぞれの\(\omega \in\Omega \)に対して、\begin{equation*}X^{2}\left( \omega \right) =\left[ X\left( \omega \right) \right] ^{2}
\end{equation*}を定める新たな関数\begin{equation*}
X^{2}:\Omega \rightarrow \mathbb{R} \end{equation*}が定義可能ですが、LOTUSを用いることにより、その期待値は、\begin{equation*}
E\left( X^{2}\right) =\int_{-\infty }^{+\infty }x^{2}f_{X}\left( x\right) dx
\end{equation*}として定まることに注意してください。この期待値\(E\left( X^{2}\right) \)が有限な実数として定まるものと仮定します。この場合、もとの確率変数\(X\)は二乗可積分(square integrable)であると言います。二乗可積分な確率変数\(X\)については、その期待値と分散\begin{eqnarray*}E\left( X\right) &=&\int_{-\infty }^{+\infty }xf_{X}\left( x\right) dx \\
\mathrm{Var}\left( X\right) &=&\int_{-\infty }^{+\infty }\left[ x-E\left(
X\right) \right] ^{2}f_{X}\left( x\right) dx
\end{eqnarray*}がそれぞれ有限な実数として定まることに注意してください(演習問題)。
確率変数\(X\)とその期待値\(E\left( X\right) \)が与えられれば、それぞれの\(\omega \in \Omega \)に対して、\begin{equation*}\left\vert X-E\left( X\right) \right\vert \left( \omega \right) =\left\vert
X\left( \omega \right) -E\left( X\right) \right\vert
\end{equation*}を定める新たな確率変数\begin{equation*}
\left\vert X-E\left( X\right) \right\vert :\Omega \rightarrow \mathbb{R} \end{equation*}が定義可能です。これは、確率変数\(X\)が定めるそれぞれの値と期待値\(E\left( X\right) \)の間の距離を与える確率変数です。正の実数\(c>0\)を任意に選んだとき、確率変数\(\left\vert X-E\left( X\right) \right\vert \)の値が\(c\)以上である確率は、\begin{eqnarray*}P\left( \left\vert X-E\left( X\right) \right\vert \geq c\right) &=&P\left(
\left\{ \omega \in \Omega \ |\ \left\vert X-E\left( X\right) \right\vert
\left( \omega \right) \geq c\right\} \right) \\
&=&P\left( \left\{ \omega \in \Omega \ |\ \left\vert X\left( \omega \right)
-E\left( X\right) \right\vert \geq c\right\} \right)
\end{eqnarray*}として定まりますが、先の条件が満たされる場合には、すなわち、\(X\)が二乗可積分である場合には、以下の関係\begin{equation*}P\left( \left\vert X-E\left( X\right) \right\vert \geq c\right) \leq \frac{\mathrm{Var}\left( X\right) }{c^{2}}
\end{equation*}が成り立つことが保証されます。これをチェビシェフの不等式(Chebyshev’s inequality)と呼びます。
\leq \frac{\mathrm{Var}\left( X\right) }{c^{2}}
\end{equation*}が成り立つ。
絶対連続型の確率変数\(X\)が二乗可積分である場合には、任意の\(c>0\)について、\begin{equation*}P\left( \left\vert X-E\left( X\right) \right\vert \geq c\right) \leq \frac{\mathrm{Var}\left( X\right) }{c^{2}}
\end{equation*}が成り立つことが明らかになりました。これを変形すると、\begin{equation*}
P\left( X\geq E\left( x\right) +c\vee X\leq E\left( x\right) -c\right) \leq
\frac{\mathrm{Var}\left( X\right) }{c^{2}}
\end{equation*}を得ます。つまり、確率変数\(X\)の実現値が\(E\left( x\right) +c\)以上または\(E\left(x\right) -c\)以下である確率は\(\frac{\mathrm{Var}\left( X\right) }{c^{2}}\)以下であるということです。同時に、\begin{eqnarray*}P\left( \left\vert X-E\left( X\right) \right\vert <c\right) &=&1-P\left(
\left\vert X-E\left( X\right) \right\vert \geq c\right) \\
&\geq &1-\frac{V\left( X\right) }{c^{2}}
\end{eqnarray*}すなわち、\begin{equation*}
P\left( \left\vert X-E\left( X\right) \right\vert <c\right) \geq 1-\frac{\mathrm{Var}\left( X\right) }{c^{2}}
\end{equation*}が成り立ちますが、これを変形すると、\begin{equation*}
P\left( E\left( X\right) -c<X<E\left( X\right) +c\right) \geq 1-\frac{\mathrm{Var}\left( X\right) }{c^{2}}
\end{equation*}を得ます。つまり、確率変数\(X\)の実現値が\(E\left( X\right) -c\)より大きく\(E\left(X\right) +c\)より小さい確率は\(1-\frac{\mathrm{Var}\left( X\right) }{c^{2}}\)以上であるということです。
\end{equation}であるとともに、標準偏差が、\begin{equation*}
\sigma _{X}=2
\end{equation*}であるものとします。この場合、分散は、\begin{equation}
\mathrm{Var}\left( X\right) =4 \quad \cdots (2)
\end{equation}となります。この確率変数\(X\)の実現値が\(20\)以上または\(10\)以下である確率に関して、\begin{eqnarray*}P\left( X\geq 20\vee X\leq 10\right) &=&P\left( X\geq 15+5\vee X\leq
15-5\right) \\
&=&P\left( \left\vert X-15\right\vert \geq 5\right) \\
&=&P\left( \left\vert X-E\left( X\right) \right\vert \geq 5\right) \quad
\because \left( 1\right) \\
&\leq &\frac{\mathrm{Var}\left( X\right) }{5^{2}}\quad \because \text{チェビシェフの不等式} \\
&=&\frac{4}{25}\quad \because \left( 2\right)
\end{eqnarray*}すなわち、\begin{equation}
P\left( X\geq 20\vee X\leq 10\right) \leq \frac{4}{25} \quad \cdots (3)
\end{equation}が成り立ちます。着に、この確率変数\(X\)の実現値が\(10\)より大きく\(20\)より小さい確率に関して、\begin{eqnarray*}P\left( 10<X<20\right) &=&1-P\left( X\geq 20\vee X\leq 10\right) \\
&\geq &1-\frac{4}{25}\quad \because \left( 3\right) \\
&=&\frac{21}{25}
\end{eqnarray*}が成り立ちます。つまり、\(X\)の実現値が\(20\)以上または\(10\)以下である確率は最大でも\(\frac{4}{25}\)であり、\(X\)の実現値が\(10\)より大きく\(20\)より小さい確率は最低でも\(\frac{21}{25}\)であるということです。
チェビシェフの不等式の正確性
マルコフの不等式は期待値だけを拠り所とした指標である一方で、チェビシェフの不等式は期待値と分散を拠り所をした指標です。つまり、チェビシェフの不等式では分散という追加的な情報を活用しているため、マルコフの不等式よりも優れた精度で確率分布に関する情報を引き出せるものと予想されます。先の例を通じて確認します。
\end{equation*}であるとともに、確率密度関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X}\left( x\right) =\left\{
\begin{array}{cl}
e^{-x} & \left( if\ x\in X\left( \Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるものとします。\(X\)の期待値は、\begin{eqnarray*}E\left( X\right) &=&\int_{-\infty }^{+\infty }xf_{X}\left( x\right) dx \\
&=&\int_{0}^{+\infty }xe^{-x}dx \\
&=&1
\end{eqnarray*}であり、分散は、\begin{eqnarray*}
\mathrm{Var}\left( X\right) &=&\int_{-\infty }^{+\infty }\left[ x-E\left(
X\right) \right] ^{2}f_{X}\left( x\right) dx \\
&=&\int_{0}^{+\infty }\left( x-1\right) ^{2}e^{-x}dx \\
&=&1
\end{eqnarray*}です。\(X\)の実現値が\(3\)以上である確率に関して、マルコフの不等式を利用する場合には、\begin{eqnarray*}P\left( X\geq 3\right) &\leq &\frac{E\left( X\right) }{3}\quad \because
\text{マルコフの不等式} \\
&=&\frac{1}{3}\quad \because E\left( X\right) =1 \\
&\approx &0.333
\end{eqnarray*}となります。一方、チェビシェフの不等式を利用する場合には、\begin{eqnarray*}
P\left( X\geq 3\right) &=&P\left( \left\vert X\right\vert \geq 3\right)
\quad \because X\geq 0 \\
&=&P\left( \left\vert X-1\right\vert \geq 2\right) \quad \because X\geq 0 \\
&=&P\left( \left\vert X-E\left( X\right) \right\vert \geq 2\right) \quad
\because E\left( X\right) =1 \\
&\leq &\frac{\mathrm{Var}\left( X\right) }{2^{2}}\quad \because \text{チェビシェフの不等式} \\
&=&\frac{1}{4}\quad \because \mathrm{Var}\left( X\right) =1 \\
&=&0.25
\end{eqnarray*}となります。その一方で、確率変数\(X\)の実現値が\(3\)以上である確率の真の値は、\begin{eqnarray*}P\left( X\geq 3\right) &=&\int_{3}^{+\infty }f_{X}\left( x\right) dx \\
&=&\int_{3}^{+\infty }e^{-x}dx \\
&=&e^{-3} \\
&\approx &0.0498
\end{eqnarray*}です。これらの結果を比較すると、\begin{equation*}
0.0498<0.25<0.333
\end{equation*}となるため、チェビシェフの不等式はマルコフの不等式よりも精度が高いことを確認できました。
プレミアム会員専用コンテンツです
【ログイン】【会員登録】