WIIS

標本分布

標本和とその標本分布

目次

前のページ:

統計量と標本分布

Mailで保存
Xで共有

統計量と標本分布

統計量と標本分布の概念について簡単に復習した上で、標本和と呼ばれる統計量を定義します。

母集団分布が確率変数\(X\)の分布関数
\begin{equation*}
F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。確率変数\(X\)がしたがう確率分布の種類が判明しているとともに、その確率分布の形状が有限\(k\in \mathbb{N} \)個のパラメータ\begin{equation*}\boldsymbol{\theta }=\left( \theta _{1},\cdots ,\theta _{k}\right) \in
\Theta
\end{equation*}によって決定される場合には、パラメトリック族が、\begin{equation*}
\Phi =\left\{ F\left( \cdot ,\boldsymbol{\theta }\right) \ |\ \boldsymbol{\theta }\in \Theta \right\}
\end{equation*}と定義されます。パラメトリック族が正しく設定されている場合には、\begin{equation*}
\exists \boldsymbol{\theta }\in \Theta :F_{X}=F\left( \cdot ,\boldsymbol{\theta }\right)
\end{equation*}が成り立つため、母集団分布を推測する作業は、以上の条件を満たす母数\(\boldsymbol{\theta }\)を推測する作業に相当します。

全数調査が困難である場合には、母集団から選び出した標本を調査することを通じて母集団分布や母数を推測する必要があります。「母集団から標本を抽出する」という試行を確率空間\begin{equation*}
\left( \Omega ,\mathcal{F},P\right)
\end{equation*}として表現します。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率ベクトル\(\boldsymbol{X}\)の同時分布が同時分布関数\begin{equation*}F_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}として表現されているものとします。加えて、確率ベクトル\(\boldsymbol{X}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。つまり、確率ベクトル\(\boldsymbol{X}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)が独立同一分布にしたがうとともに、それらの周辺分布\(F_{X_{1}},\cdots ,F_{X_{n}}\)がいずれも母集団分布\(F_{X}\)と一致するということです。この場合、任意の標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)に対して、以下の関係\begin{equation*}F_{\boldsymbol{X}}\left( \boldsymbol{x},\boldsymbol{\theta }\right)
=F_{X}\left( x_{1},\boldsymbol{\theta }\right) \times \cdots \times
F_{X}\left( x_{n},\boldsymbol{\theta }\right)
\end{equation*}が成り立ちます。

統計的推測とは、観察可能な標本\(\boldsymbol{x}\)を頼りに、観察不可能な母集団分布\(F_{X}\)またはその母数\(\boldsymbol{\theta }\)を探り当てる作業に相当します。その際、標本\(\boldsymbol{x}\)をありのまま観察するだけでなく、標本が含む情報を何らかの形で要約した統計量と呼ばれる概念を利用します。

標本\(\boldsymbol{x}\)は確率ベクトル\(\boldsymbol{X}:\Omega \rightarrow \mathbb{R} ^{n}\)の実現値とみなされるため、起こり得る標本をすべて集めることにより得られる集合は確率ベクトル\(\boldsymbol{X}\)の値域\begin{eqnarray*}\boldsymbol{X}\left( \Omega \right) &=&\left\{ \boldsymbol{X}\left( \omega
\right) \in \mathbb{R} ^{n}\ |\ \omega \in \Omega \right\} \\
&=&\left\{ \left( \left( X_{1},\cdots ,X_{n}\right) \right) \left( \omega
\right) \in \mathbb{R} ^{n}\ |\ \omega \in \Omega \right\}
\end{eqnarray*}です。多変数関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)が与えられれば、合成関数\begin{equation*}T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \end{equation*}に相当する確率変数が定義可能です。この確率変数を統計量と呼び、\begin{equation*}
T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega
\right) \quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)が定める値は、\begin{eqnarray*}T\left( X_{1},\cdots ,X_{n}\right) \left( \omega \right) &=&\left( T\circ
\boldsymbol{X}\right) \left( \omega \right) \quad \because T\left(
X_{1},\cdots ,X_{n}\right) \text{の定義} \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \quad \because \text{合成関数の定義} \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&T\left( x_{1},\cdots ,x_{n}\right)
\end{eqnarray*}となります。つまり、統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)は観察された標本\(\boldsymbol{x}\)を1つの実数\(T\left( \boldsymbol{x}\right) \)として集約的に表現する関数です。この値\(T\left( \boldsymbol{x}\right) \)を標本\(\boldsymbol{x}\)の統計量と呼びます。

統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)は確率変数であるため、その確率分布が定義可能です。統計量\(T\left(X_{1},\cdots ,X_{n}\right) \)の確率分布を標本分布と呼びます。確率変数\(X_{1},\cdots ,X_{n}\)が母集団分布から抽出したランダムサンプルである場合、これらの確率分布は母集団分布と一致します。したがって、ランダムサンプルから定義される統計量\(T\left( X_{1},\cdots,X_{n}\right) \)の確率分布、すなわち標本分布は母集団分布に依存します。

 

標本和の定義

確率ベクトル\(\boldsymbol{X}:\Omega\rightarrow \mathbb{R} ^{n}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)はそれぞれのベクトル\(\boldsymbol{x}\in \mathbb{R} ^{n}\)に対して、以下の実数\begin{eqnarray*}T\left( \boldsymbol{x}\right) &=&x_{1}+\cdots +x_{n} \\
&=&\sum_{i=1}^{n}x_{i}
\end{eqnarray*}を定めるものとします。これらの合成関数\(T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \)として定義される統計量\begin{equation*}T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}を標本和(sample sum)と呼び、\begin{equation*}
X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega
\right) \quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して標本和\(X_{1}+\cdots +X_{n}\)が定める値は、\begin{eqnarray*}\left( X_{1}+\cdots +X_{n}\right) \left( \omega \right) &=&T\left(
X_{1},\cdots ,X_{n}\right) \\
&=&\left( T\circ \boldsymbol{X}\right) \left( \omega \right) \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&x_{1}+\cdots +x_{n}\quad \because T\text{の定義}
\end{eqnarray*}となります。以上より、標本和\(X_{1}+\cdots +X_{n}\)のもとでの標本\(\boldsymbol{x}\)の統計量は、\begin{equation*}x_{1}+\cdots +x_{n}=\sum_{i=1}^{n}x_{i}
\end{equation*}であることが明らかになりました。これを標本\(\boldsymbol{x}\)の標本和(sample sum)と呼びます。

例(標本和)
母集団から大きさ\(5\)の標本をランダムかつ独立に抽出したところ、\begin{equation*}\boldsymbol{x}=\left( 131,148,139,142,152\right)
\end{equation*}が得られました。この標本の標本和は、\begin{eqnarray*}
x_{1}+\cdots +x_{n} &=&131+148+139+142+152 \\
&=&712
\end{eqnarray*}です。

 

標本和の期待値と母平均の関係

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。\(X\)が離散型の確率変数である場合、母集団分布は確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されますが、この場合、\(X\)の期待値は、\begin{equation*}\mu =\sum_{x\in X\left( \Omega \right) }\left[ x\cdot f_{X}\left( x\right) \right] \end{equation*}と定義されます。一方、\(X\)が連続型の確率変数である場合、母集団分布は確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されますが、この場合、\(X\)の期待値は、\begin{equation*}\mu =\int_{-\infty }^{+\infty }xf_{X}\left( x\right) dx
\end{equation*}と定義されます。いずれにせよ、母集団分布の期待値\(\mu \)を母平均(population mean)と呼びます。母集団分布は観察不可能であるため、母平均\(\mu \)もまた観察不可能です。

確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数であるためその期待値\(E\left(X_{1}+\cdots +X_{n}\right) \)が定義可能ですが、標本和の期待値と母平均の間には以下の関係\begin{equation*}E\left( X_{1}+\cdots +X_{n}\right) =n\mu
\end{equation*}が成り立つことが保証されます。つまり、標本和の期待値は標本の大きさと母平均の積と一致するため、標本和は母平均を推測する上での手掛かりになります。

命題(標本和の期待値)

母集団分布が確率変数\(X\)の確率分布として表現されているものとする。さらに、母平均\(\mu \)が有限な実数として定まるものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、以下の関係\begin{equation*}E\left( X_{1}+\cdots +X_{n}\right) =n\mu
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

標本和の分散と母分散の関係

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。\(X\)が離散型の確率変数である場合、母集団分布は確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されますが、この場合、\(X\)の分散は、\begin{equation*}\sigma ^{2}=\sum_{x\in X\left( \Omega \right) }\left( x-\mu \right)
^{2}f_{X}\left( x\right)
\end{equation*}と定義されます。ただし、\(\mu \)は母平均です。一方、\(X\)が連続型の確率変数である場合、母集団分布は確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されますが、この場合、\(X\)の分散は、\begin{equation*}\sigma ^{2}=\int_{-\infty }^{+\infty }\left( x-\mu \right) ^{2}f_{X}\left(
x\right) dx
\end{equation*}と定義されます。いずれにせよ、母集団分布の分散\(\sigma \)を母分散(population variance)と呼びます。母集団分布は観察不可能であるため、母分散\(\sigma ^{2}\)もまた観察不可能です。

確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数であるためその分散\(\mathrm{Var}\left(X_{1}+\cdots +X_{n}\right) \)が定義可能ですが、標本和の分散と母分散の間には以下の関係\begin{equation*}\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =n\sigma ^{2}
\end{equation*}が成り立つことが保証されます。つまり、標本和の分散は標本の大きさと母分散の積と一致するため、標本和は母分散を推測する上での手掛かりになります。

命題(標本和の分散)
母集団分布が確率変数\(X\)の確率分布として表現されているものとする。さらに、母分散\(\sigma ^{2}\)が有限な実数として定まるものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、以下の関係\begin{equation*}\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =n\sigma ^{2}
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

標本和のモーメント母関数と母集団分布のモーメント母関数の関係

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。さらに、そのモーメント母関数\begin{equation*}M_{X}:\mathbb{R} \supset N_{\varepsilon }\left( 0\right) \rightarrow \mathbb{R} \end{equation*}が存在するものとします。

確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数ですが、そのモーメント母関数\begin{equation*}
M_{X_{1}+\cdots +X_{n}}:\mathbb{R} \supset N_{\varepsilon }\left( 0\right) \rightarrow \mathbb{R} \end{equation*}が存在するとともに、以下の関係\begin{equation*}
\forall t\in N_{\varepsilon }\left( 0\right) :M_{X_{1}+\cdots +X_{n}}\left(
t\right) =M_{X}\left( t\right) \times \cdots \times M_{X}\left( t\right)
\end{equation*}すなわち、\begin{equation*}
M_{X_{1}+\cdots +X_{n}}=\left( M_{X}\right) ^{n}
\end{equation*}が成り立つことが保証されます。つまり、標本和のモーメント母関数は母集団分布のモーメント母関数の\(n\)乗として定義される関数と一致します。

命題(標本和のモーメント母関数)
母集団分布が確率変数\(X\)の確率分布として表現されているものとする。さらに、モーメント母関数\(M_{X}:\mathbb{R} \supset N_{\varepsilon }\left( 0\right) \rightarrow \mathbb{R} \)が存在するものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、モーメント母関数\(M_{X_{1}+\cdots +X_{n}}:\mathbb{R} \supset N_{\varepsilon }\left( 0\right) \rightarrow \mathbb{R} \)が存在するとともに、以下の関係\begin{equation*}M_{X_{1}+\cdots +X_{n}}=\left( M_{X}\right) ^{n}
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

ベルヌーイ母集団から抽出したランダムサンプルの標本和の標本分布

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。加えて、確率変数\(X\)はパラメータ\(p\in \left[ 0,1\right] \)のベルヌーイ分布にしたがうものとします。つまり、\begin{equation*}X\sim B_{i}\left( 1,p\right)
\end{equation*}が成り立つということです。この場合、\(X\)の確率質量関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X}\left( x\right) =\left\{
\begin{array}{cl}
p & \left( if\ x=1\right) \\
1-p & \left( if\ x=0\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定めます。

確率変数\(X_{1},\cdots ,X_{n}\)はベルヌーイ集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数ですが、この場合、\(X_{1}+\cdots +X_{n}\)はパラメータ\(\left( n,p\right) \in \mathbb{N} \times \left[ 0,1\right] \)の二項分布にしたがうことが保証されます。つまり、\begin{equation*}X_{1}+\cdots +X_{n}\sim B_{i}\left( n,p\right)
\end{equation*}が成り立つということです。この場合、\(X_{1}+\cdots +X_{n}\)の確率質量関数\(f_{X_{1}+\cdots +X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X_{1}+\cdots +X_{n}}\left( x\right) =\left\{
\begin{array}{cl}
\tbinom{n}{x}p^{x}\left( 1-p\right) ^{n-x} & \left( if\ x\in \mathbb{Z} _{+}\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定めます。

命題(ベルヌーイ母集団から抽出したランダムサンプルの標本和の標本分布)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim B_{i}\left( 1,p\right)
\end{equation*}が成り立つものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、以下の関係\begin{equation*}X_{1}+\cdots +X_{n}\sim B_{i}\left( n,p\right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

例(ベルヌーイ母集団から抽出したランダムサンプルの標本和の標本分布)
立候補者\(A\)を支持する有権者の割合が\(\frac{1}{2}\)であるものとします。つまり、母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim B_{i}\left( 1,\frac{1}{2}\right)
\end{equation*}が成り立つということです。すべての有権者の中から\(n\)人をランダムかつ独立に抽出した上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。これは、選ばれた\(n\)人の有権者の中でも、立候補者\(A\)を支持する有権者の人数を特定する確率変数です。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim B_{i}\left( n,\frac{1}{2}\right)
\end{equation*}が成り立ちます。

例(ベルヌーイ母集団から抽出したランダムサンプルの標本和の期待値)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim B_{i}\left( 1,p\right)
\end{equation*}が成り立つものとします。ベルヌーイ分布の期待値より、母平均は、\begin{equation}
\mu =p \quad \cdots (1)
\end{equation}です。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim B_{i}\left( n,p\right)
\end{equation*}が成り立ちます。二項分布の期待値より、標本和の期待値は、\begin{equation}
E\left( X_{1}+\cdots +X_{n}\right) =np \quad \cdots (2)
\end{equation}となります。\(\left( 1\right) ,\left(2\right) \)より、母平均と標本和の期待値の間には以下の関係\begin{equation*}E\left( X_{1}+\cdots +X_{n}\right) =n\mu
\end{equation*}が成立しますが、この結果は先の命題の主張と整合的です。

例(ベルヌーイ母集団から抽出したランダムサンプルの標本和の分散)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim B_{i}\left( 1,p\right)
\end{equation*}が成り立つものとします。ベルヌーイ分布の分散より、母分散は、\begin{equation}
\sigma ^{2}=p\left( 1-p\right) \quad \cdots (1)
\end{equation}です。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim B_{i}\left( n,p\right)
\end{equation*}が成り立ちます。二項分布の分散より、標本和の分散は、\begin{equation}
\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =np\left( 1-p\right) \quad \cdots (2)
\end{equation}となります。\(\left( 1\right) ,\left(2\right) \)より、母分散と標本和の分散の間には以下の関係\begin{equation*}\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =n\sigma ^{2}
\end{equation*}が成立しますが、この結果は先の命題の主張と整合的です。

例(ベルヌーイ母集団から抽出したランダムサンプルの標本和のモーメント母関数)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim B_{i}\left( 1,p\right)
\end{equation*}が成り立つものとします。ベルヌーイ分布のモーメント母関数より、\(X\)のモーメント母関数\(M_{X}:\mathbb{R} \rightarrow \mathbb{R} \)が存在して、それぞれの\(t\in \mathbb{R} \)に対して、\begin{equation}M_{X}\left( t\right) =1-p+e^{t}p \quad \cdots (1)
\end{equation}を定めます。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim B_{i}\left( n,p\right)
\end{equation*}が成り立ちます。二項分布のモーメント母関数より、標本和\(X_{1}+\cdots +X_{n}\)のモーメント母関数母関数\(M_{X_{1}+\cdots +X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)が存在して、それぞれの\(t\in \mathbb{R} \)に対して、\begin{equation}M_{X_{1}+\cdots +X_{n}}\left( t\right) =\left( 1-p+e^{t}p\right) ^{n}
\quad \cdots (2)
\end{equation}を定めます。\(\left( 1\right) ,\left(2\right) \)より、\begin{equation*}\forall t\in \mathbb{R} :M_{X_{1}+\cdots +X_{n}}\left( t\right) =\left[ M_{X}\left( t\right) \right] ^{n}
\end{equation*}すなわち、\begin{equation*}
M_{X_{1}+\cdots +X_{n}}=\left( M_{X}\right) ^{n}
\end{equation*}が成立しますが、この結果は先の命題の主張と整合的です。

 

ポアソン母集団から抽出したランダムサンプルの標本和の標本分布

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。加えて、確率変数\(X\)はパラメータ\(\lambda >0\)のベルヌーイ分布にしたがうものとします。つまり、\begin{equation*}X\sim P_{oisson}\left( \lambda \right)
\end{equation*}が成り立つということです。この場合、\(X\)の確率質量関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X}\left( x\right) =\left\{
\begin{array}{cl}
\frac{\lambda ^{x}}{x!}e^{-\lambda } & \left( if\ x\in \mathbb{Z} _{+}\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定めます。

確率変数\(X_{1},\cdots ,X_{n}\)はポアソン母集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数ですが、この場合、\(X_{1}+\cdots +X_{n}\)はパラメータ\(n\lambda >0\)のポアソン分布にしたがうことが保証されます。つまり、\begin{equation*}X_{1}+\cdots +X_{n}\sim P_{oisson}\left( n\lambda \right)
\end{equation*}が成り立つということです。この場合、\(X_{1}+\cdots +X_{n}\)の確率質量関数\(f_{X_{1}+\cdots +X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X_{1}+\cdots +X_{n}}\left( x\right) =\left\{
\begin{array}{cl}
\frac{\left( n\lambda \right) ^{x}}{x!}e^{-n\lambda } & \left( if\ x\in \mathbb{Z} _{+}\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定めます。

命題(ポアソン母集団から抽出したランダムサンプルの標本和の標本分布)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim P_{oisson}\left( \lambda \right)
\end{equation*}が成り立つものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、以下の関係\begin{equation*}X_{1}+\cdots +X_{n}\sim P_{oisson}\left( n\lambda \right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

例(ポアソン母集団から抽出したランダムサンプルの標本和の標本分布)
1日あたりの平均\(0.7\)人が遭難するものとします。つまり、母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim P_{oisson}\left( 0.7\right)
\end{equation*}が成り立つということです。カレンダーから\(7\)日をランダムかつ独立に抽出した上で、標本和\begin{equation*}X_{1}+\cdots +X_{7}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。これは、選ばれた\(7\)日間における遭難者の総数を特定する確率変数です。\(0.7\times 7=4.9\)であるため、先の命題より、\begin{equation*}X_{1}+\cdots +X_{7}\sim P_{oisson}\left( 4.9\right)
\end{equation*}が成り立ちます。

例(ポアソン母集団から抽出したランダムサンプルの標本和の期待値)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim P_{oisson}\left( \lambda \right)
\end{equation*}が成り立つものとします。ポアソン分布の期待値より、母平均は、\begin{equation}
\mu =\lambda \quad \cdots (1)
\end{equation}です。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim P_{oisson}\left( n\lambda \right)
\end{equation*}が成り立ちます。ポアソン分布の期待値より、標本和の期待値は、\begin{equation}
E\left( X_{1}+\cdots +X_{n}\right) =n\lambda \quad \cdots (2)
\end{equation}となります。\(\left( 1\right) ,\left(2\right) \)より、母平均と標本和の期待値の間には以下の関係\begin{equation*}E\left( X_{1}+\cdots +X_{n}\right) =n\mu
\end{equation*}が成立しますが、この結果は先の命題の主張と整合的です。

例(ポアソン母集団から抽出したランダムサンプルの標本和の分散)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim P_{oisson}\left( \lambda \right)
\end{equation*}が成り立つものとします。ポアソン分布の分散より、母分散は、\begin{equation}
\sigma ^{2}=\lambda \quad \cdots (1)
\end{equation}です。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim P_{oisson}\left( n\lambda \right)
\end{equation*}が成り立ちます。ポアソン分布の分散より、標本和の分散は、\begin{equation}
\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =n\lambda \quad \cdots (2)
\end{equation}となります。\(\left( 1\right) ,\left(2\right) \)より、母分散と標本和の分散の間には以下の関係\begin{equation*}\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =n\sigma ^{2}
\end{equation*}が成立しますが、この結果は先の命題の主張と整合的です。

例(ポアソン母集団から抽出したランダムサンプルの標本和のモーメント母関数)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim P_{oisson}\left( \lambda \right)
\end{equation*}が成り立つものとします。ポアソン分布のモーメント母関数より、\(X\)のモーメント母関数\(M_{X}:\mathbb{R} \rightarrow \mathbb{R} \)が存在して、それぞれの\(t\in \mathbb{R} \)に対して、\begin{equation}M_{X}\left( t\right) =\exp \left( \lambda \left( e^{t}-1\right) \right)
\quad \cdots (1)
\end{equation}を定めます。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim P_{oisson}\left( n\lambda \right)
\end{equation*}が成り立ちます。ポアソン分布のモーメント母関数より、標本和\(X_{1}+\cdots +X_{n}\)のモーメント母関数母関数\(M_{X_{1}+\cdots+X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)が存在して、それぞれの\(t\in \mathbb{R} \)に対して、\begin{equation}M_{X_{1}+\cdots +X_{n}}\left( t\right) =\exp \left( n\lambda \left(
e^{t}-1\right) \right) \quad \cdots (2)
\end{equation}を定めます。\(\left( 1\right) ,\left(2\right) \)より、\begin{equation*}\forall t\in \mathbb{R} :M_{X_{1}+\cdots +X_{n}}\left( t\right) =\left[ M_{X}\left( t\right) \right] ^{n}
\end{equation*}すなわち、\begin{equation*}
M_{X_{1}+\cdots +X_{n}}=\left( M_{X}\right) ^{n}
\end{equation*}が成立しますが、この結果は先の命題の主張と整合的です。

 

正規母集団から抽出したランダムサンプルの標本和の標本分布

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。加えて、確率変数\(X\)はパラメータ\(\left( \mu ,\sigma ^{2}\right) \in \mathbb{R} \times \mathbb{R} _{++}\)の正規分布にしたがうものとします。つまり、\begin{equation*}X\sim N\left( \mu ,\sigma ^{2}\right)
\end{equation*}が成り立つということです。この場合、\(X\)の確率密度関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X}\left( x\right) =\frac{1}{\sqrt{2\pi \sigma ^{2}}}\exp \left( -\frac{\left( x-\mu \right) ^{2}}{2\sigma ^{2}}\right)
\end{equation*}を値として定めます。

確率変数\(X_{1},\cdots ,X_{n}\)は正規母集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数ですが、この場合、\(X_{1}+\cdots +X_{n}\)はパラメータ\(\left( n\mu ,n\sigma ^{2}\right)\in \mathbb{R} \times \mathbb{R} _{++}\)の正規分布にしたがうことが保証されます。つまり、\begin{equation*}X_{1}+\cdots +X_{n}\sim N\left( n\mu ,n\sigma ^{2}\right)
\end{equation*}が成り立つということです。この場合、\(X_{1}+\cdots +X_{n}\)の確率質量関数\(f_{X_{1}+\cdots +X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X_{1}+\cdots +X_{n}}\left( x\right) =\frac{1}{\sqrt{2\pi n\sigma ^{2}}}\exp \left( -\frac{\left( x-n\mu \right) ^{2}}{2n\sigma ^{2}}\right)
\end{equation*}を値として定めます。

命題(正規母集団から抽出したランダムサンプルの標本和の標本分布)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim N\left( \mu ,\sigma ^{2}\right)
\end{equation*}が成り立つものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、以下の関係\begin{equation*}X_{1}+\cdots +X_{n}\sim N\left( n\mu ,n\sigma ^{2}\right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

例(ポアソン母集団から抽出したランダムサンプルの標本和の標本分布)
\(100\)cmの棒の長さを計測したときの計測値を表す確率変数\(X\)が、\begin{equation*}X\sim N\left( 100,0.1^{2}\right)
\end{equation*}を満たすものとします。測定を\(100\)回繰り返した上で、標本和\begin{equation*}X_{1}+\cdots +X_{100}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。これは、\(100\)回の計測値の合計を表す確率変数ですが、先の命題より、\begin{equation*}X_{1}+\cdots +X_{100}\sim N\left( 100\cdot 100,100\cdot 0.1^{2}\right)
\end{equation*}が成り立ちます。

例(正規母集団から抽出したランダムサンプルの標本和の期待値)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim N\left( \mu ,\sigma ^{2}\right)
\end{equation*}が成り立つものとします。正規分布の期待値より、母平均は、\begin{equation*}
\mu
\end{equation*}です。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim N\left( n\mu ,n\sigma ^{2}\right)
\end{equation*}が成り立ちます。正規分布の期待値より、標本和の期待値は、\begin{equation*}
E\left( X_{1}+\cdots +X_{n}\right) =n\mu
\end{equation*}となります。つまり、標本和の期待値は母平均の\(n\)倍ですが、この結果は先の命題の主張と整合的です。
例(正規母集団から抽出したランダムサンプルの標本和の分散)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim N\left( \mu ,\sigma ^{2}\right)
\end{equation*}が成り立つものとします。正規分布の分散より、母分散は、\begin{equation*}
\sigma ^{2}
\end{equation*}です。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim N\left( n\mu ,n\sigma ^{2}\right)
\end{equation*}が成り立ちます。正規分布の分散より、標本和の分散は、\begin{equation*}
\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =n\sigma ^{2}
\end{equation*}となります。つまり、標本和の分散は母分散の\(n\)倍ですが、この結果は先の命題の主張と整合的です。
例(正規母集団から抽出したランダムサンプルの標本和のモーメント母関数)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim N\left( \mu ,\sigma ^{2}\right)
\end{equation*}が成り立つものとします。正規分布のモーメント母関数より、\(X\)のモーメント母関数\(M_{X}:\mathbb{R} \rightarrow \mathbb{R} \)が存在して、それぞれの\(t\in \mathbb{R} \)に対して、\begin{equation}M_{X}\left( t\right) =\exp \left( \mu t+\frac{1}{2}\sigma ^{2}t^{2}\right)
\quad \cdots (1)
\end{equation}を定めます。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。すると先の命題より、\begin{equation*}X_{1}+\cdots +X_{n}\sim N\left( n\mu ,n\sigma ^{2}\right)
\end{equation*}が成り立ちます。正規分布のモーメント母関数より、標本和\(X_{1}+\cdots +X_{n}\)のモーメント母関数母関数\(M_{X_{1}+\cdots +X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)が存在して、それぞれの\(t\in \mathbb{R} \)に対して、\begin{equation}M_{X_{1}+\cdots +X_{n}}\left( t\right) =\exp \left( n\mu t+\frac{1}{2}n\sigma ^{2}t^{2}\right) \quad \cdots (2)
\end{equation}を定めます。\(\left( 1\right) ,\left(2\right) \)より、\begin{equation*}\forall t\in \mathbb{R} :M_{X_{1}+\cdots +X_{n}}\left( t\right) =\left[ M_{X}\left( t\right) \right] ^{n}
\end{equation*}すなわち、\begin{equation*}
M_{X_{1}+\cdots +X_{n}}=\left( M_{X}\right) ^{n}
\end{equation*}が成立しますが、この結果は先の命題の主張と整合的です。

 

漸近的正規性

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。ただし、これまでとは異なり、母集団分布が必ずしも明らかではない状況を想定します。母平均が\(\mu \)であり、母分散が\(\sigma ^{2}\)であるものとします。

確率変数\(X_{1},\cdots ,X_{n}\)は正規母集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数ですが、中心極限定理より、\(n\)が十分大きい場合には、標本和はパラメータ\(\left( n\mu ,n\sigma ^{2}\right) \in \mathbb{R} \times \mathbb{R} _{++}\)の正規分布にしたがうことが保証されます。つまり、\begin{equation*}X_{1}+\cdots +X_{n}\sim N\left( n\mu ,n\sigma ^{2}\right)
\end{equation*}が成り立つということです。この場合、\(X_{1}+\cdots +X_{n}\)の確率質量関数\(f_{X_{1}+\cdots +X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X_{1}+\cdots +X_{n}}\left( x\right) =\frac{1}{\sqrt{2\pi n\sigma ^{2}}}\exp \left( -\frac{\left( x-n\mu \right) ^{2}}{2n\sigma ^{2}}\right)
\end{equation*}を値として定めます。

 

有限母集団から非復元抽出する場合の標本和の期待値と分散

これまでは確率変数\(X_{1},\cdots ,X_{n}\)が母集団分布から抽出したランダムサンプルであることを仮定しました。つまり、大きさ\(N\)の母集団から大きさ\(n\)の標本を抽出する際に、\(n\)個の個体を復元抽出したり、もしくは、\(N\)が\(n\)よりも十分大きい状況において\(n\)個の個体を非復元抽出する状況を想定していたということです。一方、\(N\)が小さい場合や\(N\)と\(n\)の差が小さい状況において\(n\)個の個体を非復元抽出する際には、各個体を抽出する際の条件が同一にならないため確率変数\(X_{1},\cdots ,X_{n}\)がランダムサンプルにならず、これまでの議論と同様の結論が得られるとは限りません。

標本和の期待値に関しては、先と同様の主張が成り立ちます。

命題(有限母集団から非復元抽出する場合の標本和の期待値)
大きさ\(N\)の母集団から大きさ\(n\)のサンプル\(X_{1},\cdots ,X_{n}\)をランダムに非復元抽出する場合、以下の関係\begin{equation*}E\left( X_{1}+\cdots +X_{n}\right) =n\mu
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

標本和の分散に関しては、先と同様の主張が成り立ちません。まずは以下の補題を示します。

命題(有限母集団から非復元抽出する場合の共分散)
大きさ\(N\)の母集団から大きさ\(n\)のサンプル\(X_{1},\cdots ,X_{n}\)をランダムに非復元抽出する場合、\begin{equation*}\forall i,j\in \left\{ 1,\cdots ,n\right\} :\left( i\not=j\Rightarrow \mathrm{Cov}\left( X_{i},X_{j}\right) =-\frac{\sigma ^{2}}{N-1}\right)
\end{equation*}が成り立つ。ただし、\(\sigma ^{2}\)は母分散である。
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

以上の命題を踏まえた上で以下を示します。

命題(有限母集団から非復元抽出する場合の標本和の分散)
大きさ\(N\)の母集団から大きさ\(n\)のサンプル\(X_{1},\cdots ,X_{n}\)をランダムに非復元抽出する場合、以下の関係\begin{equation*}\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =\frac{ N-n }{N-1}n\sigma ^{2}
\end{equation*}が成り立つ。ただし、\(\sigma ^{2}\)は母分散である。
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

確率変数\(X_{1},\cdots ,X_{n}\)がランダムサンプルである場合の標本和の分散は、\begin{equation}\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =n\sigma ^{2} \quad \cdots (1)
\end{equation}である一方で、有限母集団から非復元抽出する場合の標本和の分散は、\begin{equation}
\mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =\frac{N-n}{N-1}n\sigma ^{2}
\quad \cdots (2)
\end{equation}であることが明らかになりました。つまり、有限母集団から非復元抽出する場合には、標本和の分散を、\begin{equation*}
\frac{N-n}{N-1}
\end{equation*}だけ修正する必要があります。これを有限母集団修正(finite population correction)と呼びます。

母集団の個体数\(N\)が十分大きい場合、標本を非復元抽出する場合においても、確率変数\(X_{1},\cdots ,X_{n}\)は近似的にランダムサンプルになります。実際、\begin{eqnarray*}\lim_{N\rightarrow +\infty }\frac{N-n}{N-1} &=&\lim_{N\rightarrow +\infty }\frac{1-\frac{n}{N}}{1-\frac{1}{N}} \\
&=&\lim_{N\rightarrow +\infty }\frac{1-0}{1-0} \\
&=&1
\end{eqnarray*}となるため、\(N\)が十分大きい場合、有限母集団修正は\(1\)へ限りなく近づくため、\(\left( 2\right) \)は\(\left( 1\right) \)へ限りなく近づきます。

 

演習問題

問題(有限母集団からの非復元抽出)
ある指標に注目した場合、大きさ\(N=5\)の母集団に属する個体のデータからなる集合が、\begin{equation*}\left\{ 100,101,102,103,104\right\}
\end{equation*}であるものとします。以下の問いに答えてください。

  1. 母平均\(\mu \)と母分散\(\sigma^{2}\)を求めてください。
  2. 母集団から大きさ\(n=3\)の標本をランダムに非復元抽出します。起こり得るすべての標本を列挙した上で、それぞれの標本の標本和を求めてください。
  3. 母集団分布からランダムに非復元抽出された大きさ\(3\)のサンプル\(X_{1},X_{2},X_{3}\)から標本和\(X_{1}+X_{2}+X_{3}\)を定義します。本文中で示したように、\begin{eqnarray*}&&\left( a\right) \ E\left( X_{1}+\cdots +X_{n}\right) =n\mu \\&&\left( b\right) \ \mathrm{Var}\left( X_{1}+\cdots +X_{n}\right) =\frac{N-n}{N-1}n\sigma ^{2}
    \end{eqnarray*}が成り立ちますが、ここでは\(N=5\)かつ\(n=3\)の場合を想定しているため、以上の関係は、\begin{eqnarray*}&&\left( a\right) \ E\left( X_{1}+X_{2}+X_{3}\right) =3\mu \\
    &&\left( b\right) \ \mathrm{Var}\left( X_{1}+X_{2}+X_{3}\right) =\frac{3}{2}\sigma ^{2}
    \end{eqnarray*}となります。問1,2の結果を利用して、\(\left( a\right),\left( b\right) \)が成り立つことを確認してください。
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(感染者数)
ある母集団の\(1\)パーセントが感染者であるものとします。大きさ\(n\)の標本をランダムかつ独立に抽出します。標本の中に感染者が含まれる確率が\(95\)パーセント以上であるためには、標本の大きさ\(n\)をどれくらい大きく設定する必要があるでしょうか。ただし、母集団の大きさ\(N\)は十分大きいため、抽出されたサンプル\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(標本和の確率分布)
母集団分布が連続型確率変数\(X\)の分布関数\(F_{X}\)として表現されているものとします。母平均は\(\mu \)です。確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。以上を踏まえた上で、確率変数\(Y_{1},\cdots ,Y_{n}\)を、\begin{equation*}Y_{i}=\left\{
\begin{array}{cc}
1 & \left( if\ X_{i}>E\left( X_{i}\right) \right) \\
0 & \left( if\ X_{i}\leq E\left( X_{i}\right) \right)
\end{array}\right. \quad \left( i=1,\cdots ,n\right)
\end{equation*}と定義します。確率変数\(Y_{1}+\cdots +Y_{n}\)の確率分布を求めてください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

前のページ:

統計量と標本分布

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録