WIIS

標本分布

標本平均とその標本分布

目次

Mailで保存
Xで共有

統計量と標本分布

統計量と標本分布の概念について簡単に復習した上で、標本平均と呼ばれる統計量を定義します。

母集団分布が確率変数\(X\)の分布関数
\begin{equation*}
F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。確率変数\(X\)がしたがう確率分布の種類が判明しているとともに、その確率分布の形状が有限\(k\in \mathbb{N} \)個のパラメータ\begin{equation*}\boldsymbol{\theta }=\left( \theta _{1},\cdots ,\theta _{k}\right) \in \Theta
\end{equation*}によって決定される場合には、パラメトリック族が、\begin{equation*}
\Phi =\left\{ F\left( \cdot ,\boldsymbol{\theta }\right) \ |\ \boldsymbol{\theta }\in \Theta \right\}
\end{equation*}と定義されます。パラメトリック族が正しく設定されている場合には、\begin{equation*}
\exists \boldsymbol{\theta }\in \Theta :F_{X}=F\left( \cdot ,\boldsymbol{\theta }\right)
\end{equation*}が成り立つため、母集団分布を推測する作業は、以上の条件を満たす母数\(\boldsymbol{\theta }\)を推測する作業に相当します。

全数調査が困難である場合には、母集団から選び出した標本を調査することを通じて母集団分布や母数を推測する必要があります。「母集団から標本を抽出する」という試行を確率空間\begin{equation*}
\left( \Omega ,\mathcal{F},P\right)
\end{equation*}として表現します。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率ベクトル\(\boldsymbol{X}\)の同時分布が同時分布関数\begin{equation*}F_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}として表現されているものとします。加えて、確率ベクトル\(\boldsymbol{X}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。つまり、確率ベクトル\(\boldsymbol{X}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)が独立同一分布にしたがうとともに、それらの周辺分布\(F_{X_{1}},\cdots ,F_{X_{n}}\)がいずれも母集団分布\(F_{X}\)と一致するということです。この場合、任意の標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)に対して、以下の関係\begin{equation*}F_{\boldsymbol{X}}\left( \boldsymbol{x},\boldsymbol{\theta }\right)
=F_{X}\left( x_{1},\boldsymbol{\theta }\right) \times \cdots \times
F_{X}\left( x_{n},\boldsymbol{\theta }\right)
\end{equation*}が成り立ちます。

統計的推測とは、観察可能な標本\(\boldsymbol{x}\)を頼りに、観察不可能な母集団分布\(F_{X}\)またはその母数\(\boldsymbol{\theta }\)を探り当てる作業に相当します。その際、標本\(\boldsymbol{x}\)をありのまま観察するだけでなく、標本が含む情報を何らかの形で要約した統計量と呼ばれる概念を利用します。

標本\(\boldsymbol{x}\)は確率ベクトル\(\boldsymbol{X}:\Omega \rightarrow \mathbb{R} ^{n}\)の実現値とみなされるため、起こり得る標本をすべて集めることにより得られる集合は確率ベクトル\(\boldsymbol{X}\)の値域\begin{eqnarray*}\boldsymbol{X}\left( \Omega \right) &=&\left\{ \boldsymbol{X}\left( \omega
\right) \in \mathbb{R} ^{n}\ |\ \omega \in \Omega \right\} \\
&=&\left\{ \left( \left( X_{1},\cdots ,X_{n}\right) \right) \left( \omega
\right) \in \mathbb{R} ^{n}\ |\ \omega \in \Omega \right\}
\end{eqnarray*}です。多変数関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)が与えられれば、合成関数\begin{equation*}T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \end{equation*}に相当する確率変数が定義可能です。この確率変数を統計量と呼び、\begin{equation*}
T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega \right)
\quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)が定める値は、\begin{eqnarray*}T\left( X_{1},\cdots ,X_{n}\right) \left( \omega \right) &=&\left( T\circ
\boldsymbol{X}\right) \left( \omega \right) \quad \because T\left(
X_{1},\cdots ,X_{n}\right) \text{の定義} \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \quad \because \text{合成関数の定義} \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&T\left( x_{1},\cdots ,x_{n}\right)
\end{eqnarray*}となります。つまり、統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)は観察された標本\(\boldsymbol{x}\)を1つの実数\(T\left( \boldsymbol{x}\right) \)として集約的に表現する関数です。この値\(T\left( \boldsymbol{x}\right) \)を標本\(\boldsymbol{x}\)の統計量と呼びます。

統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)は確率変数であるため、その確率分布が定義可能です。統計量\(T\left(X_{1},\cdots ,X_{n}\right) \)の確率分布を標本分布と呼びます。確率変数\(X_{1},\cdots ,X_{n}\)が母集団分布から抽出したランダムサンプルである場合、これらの確率分布は母集団分布と一致します。したがって、ランダムサンプルから定義される統計量\(T\left( X_{1},\cdots,X_{n}\right) \)の確率分布、すなわち標本分布は母集団分布に依存します。

 

標本平均の定義

確率ベクトル\(\boldsymbol{X}:\Omega\rightarrow \mathbb{R} ^{n}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)はそれぞれのベクトル\(\boldsymbol{x}\in \mathbb{R} ^{n}\)に対して、以下の実数\begin{eqnarray*}T\left( \boldsymbol{x}\right) &=&\frac{x_{1}+\cdots +x_{n}}{n} \\
&=&\frac{1}{n}\sum_{i=1}^{n}x_{i}
\end{eqnarray*}を定めるものとします。これらの合成関数\(T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \)として定義される統計量\begin{equation*}T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}を標本和(sample sum)と呼び、\begin{equation*}
\frac{X_{1}+\cdots +X_{n}}{n}:\Omega \rightarrow \mathbb{R} \end{equation*}または、\begin{equation*}
\overline{X}:\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega
\right) \quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して標本平均\(\overline{X}\)が定める値は、\begin{eqnarray*}\left( X_{1}+\cdots +X_{n}\right) \left( \omega \right) &=&T\left(
X_{1},\cdots ,X_{n}\right) \\
&=&\left( T\circ \boldsymbol{X}\right) \left( \omega \right) \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&\frac{x_{1}+\cdots +x_{n}}{n}\quad \because T\text{の定義}
\end{eqnarray*}となります。以上より、標本平均\(\overline{X}\)のもとでの標本\(\boldsymbol{x}\)の統計量は、\begin{eqnarray*}\overline{x} &=&\frac{x_{1}+\cdots +x_{n}}{n} \\
&=&\frac{1}{n}\sum_{i=1}^{n}x_{i}
\end{eqnarray*}であることが明らかになりました。これを標本\(\boldsymbol{x}\)の標本平均(sample mean)と呼びます。

例(標本平均)
母集団から大きさ\(5\)の標本をランダムかつ独立に抽出したところ、\begin{equation*}\boldsymbol{x}=\left( 131,148,139,142,152\right)
\end{equation*}が得られました。この標本の標本平均は、\begin{eqnarray*}
\overline{x} &=&\frac{131+148+139+142+152}{5} \\
&=&\frac{712}{5} \\
&=&142.4
\end{eqnarray*}です。

 

標本平均の期待値と母平均の関係

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。\(X\)が離散型の確率変数である場合、母集団分布は確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されますが、この場合、\(X\)の期待値は、\begin{equation*}\mu =\sum_{x\in X\left( \Omega \right) }\left[ x\cdot f_{X}\left( x\right) \right] \end{equation*}と定義されます。一方、\(X\)が連続型の確率変数である場合、母集団分布は確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されますが、この場合、\(X\)の期待値は、\begin{equation*}\mu =\int_{-\infty }^{+\infty }xf_{X}\left( x\right) dx
\end{equation*}と定義されます。いずれにせよ、母集団分布の期待値\(\mu \)を母平均(population mean)と呼びます。母集団分布は観察不可能であるため、母平均\(\mu \)もまた観察不可能です。

確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。その上で、標本平均\begin{equation*}\overline{X}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本平均は確率変数であるためその期待値\(E\left( \overline{X}\right) \)が定義可能ですが、標本平均の期待値と母平均の間には以下の関係\begin{equation*}E\left( \overline{X}\right) =n\mu
\end{equation*}が成り立つことが保証されます。つまり、標本平均の期待値は母平均と一致するため、標本平均は母平均を推測する上での手掛かりになります。

命題(標本平均の期待値)
母集団分布が確率変数\(X\)の確率分布として表現されているものとする。さらに、母平均\(\mu \)が有限な実数として定まるものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、以下の関係\begin{equation*}E\left( \overline{X}\right) =\mu
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

標本平均の分散と母分散の関係

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。\(X\)が離散型の確率変数である場合、母集団分布は確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されますが、この場合、\(X\)の分散は、\begin{equation*}\sigma ^{2}=\sum_{x\in X\left( \Omega \right) }\left( x-\mu \right)
^{2}f_{X}\left( x\right)
\end{equation*}と定義されます。ただし、\(\mu \)は母平均です。一方、\(X\)が連続型の確率変数である場合、母集団分布は確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されますが、この場合、\(X\)の分散は、\begin{equation*}\sigma ^{2}=\int_{-\infty }^{+\infty }\left( x-\mu \right) ^{2}f_{X}\left(
x\right) dx
\end{equation*}と定義されます。いずれにせよ、母集団分布の分散\(\sigma \)を母分散(population variance)と呼びます。母集団分布は観察不可能であるため、母分散\(\sigma ^{2}\)もまた観察不可能です。

確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。その上で、標本平均\begin{equation*}\overline{X}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本平均は確率変数であるためその分散\(\mathrm{Var}\left( \overline{X}\right) \)が定義可能ですが、標本平均の分散と母分散の間には以下の関係\begin{equation*}\mathrm{Var}\left( \overline{X}\right) =\frac{\sigma ^{2}}{n}
\end{equation*}が成り立つことが保証されます。つまり、標本平均の分散は母平均を標本の大きさで割ることにより得られるため、標本平均は母分散を推測する上での手掛かりになります。

命題(標本平均の分散)

母集団分布が確率変数\(X\)の確率分布として表現されているものとする。さらに、母分散\(\sigma ^{2}\)が有限な実数として定まるものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、以下の関係\begin{equation*}\mathrm{Var}\left( \overline{X}\right) =\frac{\sigma ^{2}}{n}
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

標本平均のモーメント母関数と母集団分布のモーメント母関数の関係

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。さらに、そのモーメント母関数\begin{equation*}M_{X}:\mathbb{R} \supset N_{\varepsilon }\left( 0\right) \rightarrow \mathbb{R} \end{equation*}が存在するものとします。

確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。その上で、標本平均\begin{equation*}\overline{X}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本平均は確率変数ですが、そのモーメント母関数\begin{equation*}
M_{\overline{X}}:\mathbb{R} \supset N_{\varepsilon }\left( 0\right) \rightarrow \mathbb{R} \end{equation*}が存在するとともに、以下の関係\begin{equation*}
\forall t\in N_{\varepsilon }\left( 0\right) :M_{\overline{X}}\left(
t\right) =M_{X}\left( \frac{t}{n}\right) \times \cdots \times M_{X}\left(
\frac{t}{n}\right)
\end{equation*}すなわち、\begin{equation*}
\forall t\in N_{\varepsilon }\left( 0\right) :M_{\overline{X}}\left(
t\right) =\left[ M_{X}\left( \frac{t}{n}\right) \right] ^{n}
\end{equation*}が成り立つことが保証されます。

命題(標本平均のモーメント母関数)
母集団分布が確率変数\(X\)の確率分布として表現されているものとする。さらに、モーメント母関数\(M_{X}:\mathbb{R} \supset N_{\varepsilon }\left( 0\right) \rightarrow \mathbb{R} \)が存在するものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、モーメント母関数\(M_{\overline{X}}:\mathbb{R} \supset N_{\varepsilon }\left( 0\right) \rightarrow \mathbb{R} \)が存在するとともに、以下の関係\begin{equation*}\forall t\in N_{\varepsilon }\left( 0\right) :M_{\overline{X}}\left(
t\right) =\left[ M_{X}\left( \frac{t}{n}\right) \right] ^{n}
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

ベルヌーイ母集団から抽出したランダムサンプルの標本平均の標本分布

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。加えて、確率変数\(X\)はパラメータ\(p\in \left[ 0,1\right] \)のベルヌーイ分布にしたがうものとします。つまり、\begin{equation*}X\sim B_{i}\left( 1,p\right)
\end{equation*}が成り立つということです。この場合、\(X\)の確率質量関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X}\left( x\right) =\left\{
\begin{array}{cl}
p & \left( if\ x=1\right) \\
1-p & \left( if\ x=0\right) \\
0 & \left( otherwise\right)\end{array}\right.
\end{equation*}を値として定めます。

確率変数\(X_{1},\cdots ,X_{n}\)はベルヌーイ集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数ですが、この場合、\(X_{1}+\cdots +X_{n}\)はパラメータ\(\left( n,p\right) \in \mathbb{N} \times \left[ 0,1\right] \)の二項分布にしたがうことが保証されます。つまり、\begin{equation*}X_{1}+\cdots +X_{n}\sim B_{i}\left( n,p\right)
\end{equation*}が成り立つということです。この場合、\(X_{1}+\cdots +X_{n}\)の確率質量関数\(f_{X_{1}+\cdots +X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X_{1}+\cdots +X_{n}}\left( x\right) =\left\{
\begin{array}{cl}
\tbinom{n}{x}p^{x}\left( 1-p\right) ^{n-x} & \left( if\ x\in \mathbb{Z} _{+}\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定めます。

以上の事実を利用することにより、標本平均の確率分布が導かれます。

命題(ベルヌーイ母集団から抽出したランダムサンプルの平均の標本分布)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim B_{i}\left( 1,p\right)
\end{equation*}が成り立つものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、標本平均\(\overline{X}\)の値域は、\begin{equation*}\overline{X}\left( \Omega \right) =\left\{ \frac{z}{n}\ |\ z\in \mathbb{Z} _{+}\right\}
\end{equation*}であるとともに、確率質量関数\(f_{\overline{X}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{\overline{X}}\left( x\right) =\left\{
\begin{array}{cl}
\tbinom{n}{nx}p^{nx}\left( 1-p\right) ^{n-nx} & \left( if\ x\in \overline{X}\left( \Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定める。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

例(ベルヌーイ母集団から抽出したランダムサンプルの標本平均の標本分布)
立候補者\(A\)を支持する有権者の割合が\(\frac{1}{2}\)であるものとします。つまり、母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim B_{i}\left( 1,\frac{1}{2}\right)
\end{equation*}が成り立つということです。すべての有権者の中から\(10\)人をランダムかつ独立に抽出した上で、標本平均\begin{equation*}\overline{X}=\frac{X_{1}+\cdots +X_{10}}{10}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。これは、選ばれた\(10\)人の有権者に占める候補者\(A\)の支持者の割合を特定する確率変数です。すると先の命題より、\(\overline{X}\)の値域は、\begin{equation*}\overline{X}\left( \Omega \right) =\left\{ \frac{z}{10}\ |\ z\in \mathbb{Z} _{+}\right\}
\end{equation*}であるとともに、確率質量関数\(f_{\overline{X}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{\overline{X}}\left( x\right) =\left\{
\begin{array}{cl}
\tbinom{10}{10x}\left( \frac{1}{2}\right) ^{10} & \left( if\ x\in \overline{X}\left( \Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めます。したがって、\(10\)人の有権者を選んだときにその半数が候補者\(A\)の支持者である確率は、\begin{eqnarray*}f_{\overline{X}}\left( \frac{1}{2}\right) &=&\tbinom{10}{5}\left( \frac{1}{2}\right) ^{10} \\
&=&\frac{63}{256}
\end{eqnarray*}となります。

 

ポアソン母集団から抽出したランダムサンプルの標本平均の標本分布

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。加えて、確率変数\(X\)はパラメータ\(\lambda >0\)のベルヌーイ分布にしたがうものとします。つまり、\begin{equation*}X\sim P_{oisson}\left( \lambda \right)
\end{equation*}が成り立つということです。この場合、\(X\)の確率質量関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X}\left( x\right) =\left\{
\begin{array}{cl}
\frac{\lambda ^{x}}{x!}e^{-\lambda } & \left( if\ x\in \mathbb{Z} _{+}\right) \\
0 & \left( otherwise\right)\end{array}\right.
\end{equation*}を値として定めます。

確率変数\(X_{1},\cdots ,X_{n}\)はポアソン母集団分布から抽出したランダムサンプルであるものとします。その上で、標本和\begin{equation*}X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本和は確率変数ですが、この場合、\(X_{1}+\cdots +X_{n}\)はパラメータ\(n\lambda >0\)のポアソン分布にしたがうことが保証されます。つまり、\begin{equation*}X_{1}+\cdots +X_{n}\sim P_{oisson}\left( n\lambda \right)
\end{equation*}が成り立つということです。この場合、\(X_{1}+\cdots +X_{n}\)の確率質量関数\(f_{X_{1}+\cdots +X_{n}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X_{1}+\cdots +X_{n}}\left( x\right) =\left\{
\begin{array}{cl}
\frac{\left( n\lambda \right) ^{x}}{x!}e^{-n\lambda } & \left( if\ x\in \mathbb{Z} _{+}\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定めます。

以上の事実を利用することにより、標本平均の確率分布が導かれます。

命題(ポアソン母集団から抽出したランダムサンプルの平均の標本分布)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim B_{i}\left( 1,p\right)
\end{equation*}が成り立つものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、標本平均\(\overline{X}\)の値域は、\begin{equation*}\overline{X}\left( \Omega \right) =\left\{ \frac{z}{n}\ |\ z\in \mathbb{Z} _{+}\right\}
\end{equation*}であるとともに、確率質量関数\(f_{\overline{X}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{\overline{X}}\left( x\right) =\left\{
\begin{array}{cl}
\frac{\left( n\lambda \right) ^{nx}}{\left( nx\right) !}e^{-n\lambda } &
\left( if\ x\in \overline{X}\left( \Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定める。\begin{equation*}
f_{X}\left( x\right) =\left\{
\begin{array}{cl}
\frac{\lambda ^{x}}{x!}e^{-\lambda } & \left( if\ x\in \mathbb{Z} _{+}\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

例(ポアソン母集団から抽出したランダムサンプルの標本平均の標本分布)
1日あたりの平均\(0.7\)人が遭難するものとします。つまり、母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim P_{oisson}\left( 0.7\right)
\end{equation*}が成り立つということです。カレンダーから\(7\)日をランダムかつ独立に抽出した上で、標本平均\begin{equation*}\overline{X}=\frac{X_{1}+\cdots +X_{7}}{7}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。これは、選ばれた\(7\)日間における1日あたりの平均遭難者数を特定する確率変数です。すると先の命題より、\(\overline{X}\)の値域は、\begin{equation*}\overline{X}\left( \Omega \right) =\left\{ \frac{z}{7}\ |\ z\in \mathbb{Z} _{+}\right\}
\end{equation*}であるとともに、確率質量関数\(f_{\overline{X}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{\overline{X}}\left( x\right) =\left\{
\begin{array}{cl}
\frac{4.9^{7x}}{\left( 7x\right) !}e^{-4.9} & \left( if\ x\in \overline{X}\left( \Omega \right) \right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めます。したがって、\(7\)日間を選んだときに1日あたり平均で\(1\)人の遭難者が発生する確率は、\begin{eqnarray*}f_{\overline{X}}\left( 1\right) &=&\frac{4.9^{7}}{7!}e^{-4.9} \\
&=&0.10021
\end{eqnarray*}です。

 

正規母集団から抽出したランダムサンプルの標本平均の標本分布

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。加えて、確率変数\(X\)はパラメータ\(\left( \mu ,\sigma ^{2}\right) \in \mathbb{R} \times \mathbb{R} _{++}\)の正規分布にしたがうものとします。つまり、\begin{equation*}X\sim N\left( \mu ,\sigma ^{2}\right)
\end{equation*}が成り立つということです。この場合、\(X\)の確率密度関数\(f_{X}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{X}\left( x\right) =\frac{1}{\sqrt{2\pi \sigma ^{2}}}\exp \left( -\frac{\left( x-\mu \right) ^{2}}{2\sigma ^{2}}\right)
\end{equation*}を値として定めます。

確率変数\(X_{1},\cdots ,X_{n}\)は正規母集団分布から抽出したランダムサンプルであるものとします。その上で、標本平均\begin{equation*}\overline{X}=\frac{X_{1}+\cdots +X_{n}}{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本平均は確率変数ですが、この場合、\(\overline{X}\)はパラメータ\(\left( \mu ,\frac{\sigma^{2}}{n}\right) \in \mathbb{R} \times \mathbb{R} _{++}\)の正規分布にしたがうことが保証されます。つまり、\begin{equation*}\overline{X}\sim N\left( \mu ,\frac{\sigma ^{2}}{n}\right)
\end{equation*}が成り立つということです。この場合、\(\overline{X}\)の確率密度関数\(f_{\overline{X}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{\overline{X}}\left( x\right) =\frac{1}{\sqrt{2\pi \frac{\sigma ^{2}}{n}}}\exp \left( -\frac{\left( x-\mu \right) ^{2}}{2\frac{\sigma ^{2}}{n}}\right)
\end{equation*}を値として定めます。

命題(正規母集団から抽出したランダムサンプルの標本平均の標本分布)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim N\left( \mu ,\sigma ^{2}\right)
\end{equation*}が成り立つものとする。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとする。このとき、以下の関係\begin{equation*}\overline{X}\sim N\left( \mu ,\frac{\sigma ^{2}}{n}\right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

例(正規母集団から抽出したランダムサンプルの標本平均の標本分布)
\(100\)cmの棒の長さを計測したときの計測値を表す確率変数\(X\)が、\begin{equation*}X\sim N\left( 100,0.1^{2}\right)
\end{equation*}を満たすものとします。測定を\(100\)回繰り返した上で、標本平均\begin{equation*}\overline{X}=\frac{X_{1}+\cdots +X_{100}}{100}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。これは、\(100\)回の計測値の平均値を表す確率変数です。すると先の命題より、\begin{equation*}\overline{X}\sim N\left( 100,\frac{0.1^{2}}{100}\right)
\end{equation*}が成り立ちます。

 

漸近的正規性

母集団分布が確率変数\(X\)の確率分布として表現されているものとします。ただし、これまでとは異なり、母集団分布が必ずしも明らかではない状況を想定します。母平均が\(\mu \)であり、母分散が\(\sigma ^{2}\)であるものとします。

確率変数\(X_{1},\cdots ,X_{n}\)は正規母集団分布から抽出したランダムサンプルであるものとします。その上で、標本平均\begin{equation*}\overline{X}=\frac{X_{1}+\cdots +X_{n}}{n}:\Omega \rightarrow \mathbb{R} \end{equation*}を定義します。標本平均は確率変数ですが、中心極限定理より、\(n\)が十分大きい場合には、標本平均はパラメータ\(\left( \mu ,\frac{\sigma ^{2}}{n}\right) \in \mathbb{R} \times \mathbb{R} _{++}\)の正規分布にしたがうことが保証されます。つまり、\begin{equation*}\overline{X}\sim N\left( \mu ,\frac{\sigma ^{2}}{n}\right)
\end{equation*}が成り立つということです。この場合、\(\overline{X}\)の確率質量関数\(f_{\overline{X}}:\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f_{\overline{X}}\left( x\right) =\frac{1}{\sqrt{2\pi \frac{\sigma ^{2}}{n}}}\exp \left( -\frac{\left( x-\mu \right) ^{2}}{2\frac{\sigma ^{2}}{n}}\right)
\end{equation*}を値として定めます。

 

有限母集団から非復元抽出する場合の標本平均の期待値と分散

これまでは確率変数\(X_{1},\cdots ,X_{n}\)が母集団分布から抽出したランダムサンプルであることを仮定しました。つまり、大きさ\(N\)の母集団から大きさ\(n\)の標本を抽出する際に、\(n\)個の個体を復元抽出したり、もしくは、\(N\)が\(n \)よりも十分大きい状況において\(n\)個の個体を非復元抽出する状況を想定していたということです。一方、\(N\)が小さい場合や\(N\)と\(n\)の差が小さい状況において\(n\)個の個体を非復元抽出する際には、各個体を抽出する際の条件が同一にならないため確率変数\(X_{1},\cdots ,X_{n}\)がランダムサンプルにならず、これまでの議論と同様の結論が得られるとは限りません。

標本平均の期待値に関しては、先と同様の主張が成り立ちます。

命題(有限母集団から非復元抽出する場合の標本平均の期待値)
大きさ\(N\)の母集団から大きさ\(n\)のサンプル\(X_{1},\cdots ,X_{n}\)をランダムに非復元抽出する場合、以下の関係\begin{equation*}E\left( \overline{X}\right) =\mu
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

標本和の分散に関しては、先と同様の主張が成り立ちません。

命題(有限母集団から非復元抽出する場合の標本平均の分散)
大きさ\(N\)の母集団から大きさ\(n\)のサンプル\(X_{1},\cdots ,X_{n}\)をランダムに非復元抽出する場合、以下の関係\begin{equation*}\mathrm{Var}\left( \overline{X}\right) =\frac{N-n}{N-1}\cdot \frac{\sigma ^{2}}{n}
\end{equation*}が成り立つ。ただし、\(\sigma ^{2}\)は母分散である。
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

確率変数\(X_{1},\cdots ,X_{n}\)がランダムサンプルである場合の標本平均の分散は、\begin{equation}\mathrm{Var}\left( \overline{X}\right) =\frac{\sigma ^{2}}{n} \quad \cdots (1)
\end{equation}である一方で、有限母集団から非復元抽出する場合の標本平均の分散は、\begin{equation}
\mathrm{Var}\left( \overline{X}\right) =\frac{N-n}{N-1}\cdot \frac{\sigma ^{2}}{n} \quad \cdots (2)
\end{equation}であることが明らかになりました。つまり、有限母集団から非復元抽出する場合には、標本平均の分散を、\begin{equation*}
\frac{N-n}{N-1}
\end{equation*}だけ修正する必要があります。これを有限母集団修正(finite population correction)と呼びます。

母集団の個体数\(N\)が十分大きい場合、標本を非復元抽出する場合においても、確率変数\(X_{1},\cdots ,X_{n}\)は近似的にランダムサンプルになります。実際、\begin{eqnarray*}\lim_{N\rightarrow +\infty }\frac{N-n}{N-1} &=&\lim_{N\rightarrow +\infty }\frac{1-\frac{n}{N}}{1-\frac{1}{N}} \\
&=&\lim_{N\rightarrow +\infty }\frac{1-0}{1-0} \\
&=&1
\end{eqnarray*}となるため、\(N\)が十分大きい場合、有限母集団修正は\(1\)へ限りなく近づくため、\(\left( 2\right) \)は\(\left( 1\right) \)へ限りなく近づきます。

 

演習問題

問題(標本平均の期待値が一定の範囲の値をとる確率)
ある植物種の高さ\(X\)が、母平均が\(\mu =21\)であり母分散が\(\sigma ^{2}=90\)であるような正規分布にしたがって分布しているものとします。母集団から\(10\)個体をランダムかつ独立に抽出した上で高さを測定し、標本平均を導出します。標本平均が\(18\)以上\(27\)以下である確率を求めてください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(正規母集団から抽出したランダムサンプルの標本平均の標本分布)
母集団分布が確率変数\(X\)の確率分布として表現されているとともに、\begin{equation*}X\sim N\left( \mu ,\sigma ^{2}\right)
\end{equation*}が成り立つものとします。母集団分布から抽出した大きさ\(n\)のランダムサンプル\(X_{1},\cdots ,X_{n}\)が与えられているものとします。このとき、以下の関係\begin{equation}\overline{X}\sim N\left( \mu ,\frac{\sigma ^{2}}{n}\right) \quad \cdots (1)
\end{equation}が成り立ちます。本文中では、正規分布の線型結合は正規分布にしたがうという事実を用いて\(\left( 1\right) \)を証明しました。さて、与えられた条件のもとでは、標本和について、\begin{equation}X_{1}+\cdots +X_{n}\sim N\left( n\mu ,n\sigma ^{2}\right) \quad \cdots (2)
\end{equation}が成り立ちますが、\(\left( 2\right) \)を用いて\(\left( 1\right) \)を証明してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録