WIIS

標本分布

統計量と標本分布

目次

Mailで保存
Xで共有

統計量

母集団分布が確率変数\(X\)の分布関数
\begin{equation*}
F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。確率変数\(X\)がしたがう確率分布の種類が判明しているとともに、その確率分布の形状が有限\(k\in \mathbb{N} \)個のパラメータ\begin{equation*}\boldsymbol{\theta }=\left( \theta _{1},\cdots ,\theta _{k}\right) \in \Theta
\end{equation*}によって決定される場合には、パラメトリック族が、\begin{equation*}
\Phi =\left\{ F\left( \cdot ,\boldsymbol{\theta }\right) \ |\ \boldsymbol{\theta }\in \Theta \right\}
\end{equation*}と定義されます。パラメトリック族が正しく設定されている場合には、\begin{equation*}
\exists \boldsymbol{\theta }\in \Theta :F_{X}=F\left( \cdot ,\boldsymbol{\theta }\right)
\end{equation*}が成り立つため、母集団分布を推測する作業は、以上の条件を満たす母数\(\boldsymbol{\theta }\)を推測する作業に相当します。

全数調査が困難である場合には、母集団から選び出した標本を調査することを通じて母集団分布や母数を推測する必要があります。「母集団から標本を抽出する」という試行を確率空間\begin{equation*}
\left( \Omega ,\mathcal{F},P\right)
\end{equation*}として表現します。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率ベクトル\(\boldsymbol{X}\)の同時分布が同時分布関数\begin{equation*}F_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}として表現されているものとします。加えて、確率ベクトル\(\boldsymbol{X}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。つまり、確率ベクトル\(\boldsymbol{X}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)が独立同一分布にしたがうとともに、それらの周辺分布\(F_{X_{1}},\cdots ,F_{X_{n}}\)がいずれも母集団分布\(F_{X}\)と一致するということです。この場合、任意の標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)に対して、以下の関係\begin{equation*}F_{\boldsymbol{X}}\left( \boldsymbol{x},\boldsymbol{\theta }\right)
=F_{X}\left( x_{1},\boldsymbol{\theta }\right) \times \cdots \times
F_{X}\left( x_{n},\boldsymbol{\theta }\right)
\end{equation*}が成り立ちます。

統計的推測とは、観察可能な標本\(\boldsymbol{x}\)を頼りに、観察不可能な母集団分布\(F_{X}\)またはその母数\(\boldsymbol{\theta }\)を探り当てる作業に相当します。その際、標本\(\boldsymbol{x}\)をありのまま観察するだけでなく、標本が含む情報を何らかの形で要約した指標を作成し、その指標をもとに母集団分布ないし母数を推測する手法を採用します。そのような指標を統計量(statistic)と呼びます。以下では統計量の概念を定義するとともに、その具体例を提示します。

標本\(\boldsymbol{x}\)は確率ベクトル\(\boldsymbol{X}:\Omega \rightarrow \mathbb{R} ^{n}\)の実現値とみなされるため、起こり得る標本をすべて集めることにより得られる集合は確率ベクトル\(\boldsymbol{X}\)の値域\begin{eqnarray*}\boldsymbol{X}\left( \Omega \right) &=&\left\{ \boldsymbol{X}\left( \omega
\right) \in \mathbb{R} ^{n}\ |\ \omega \in \Omega \right\} \\
&=&\left\{ \left( \left( X_{1},\cdots ,X_{n}\right) \right) \left( \omega
\right) \in \mathbb{R} ^{n}\ |\ \omega \in \Omega \right\}
\end{eqnarray*}です。多変数関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)が与えられれば、合成関数\begin{equation*}T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \end{equation*}に相当する確率変数が定義可能です。この確率変数を統計量(statistic)と呼び、\begin{equation*}
T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega
\right) \quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)が定める値は、\begin{eqnarray*}T\left( X_{1},\cdots ,X_{n}\right) \left( \omega \right) &=&\left( T\circ
\boldsymbol{X}\right) \left( \omega \right) \quad \because T\left(
X_{1},\cdots ,X_{n}\right) \text{の定義} \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \quad \because \text{合成関数の定義} \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&T\left( x_{1},\cdots ,x_{n}\right)
\end{eqnarray*}となります。つまり、統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)は観察された標本\(\boldsymbol{x}\)を1つの実数\(T\left( \boldsymbol{x}\right) \)として集約的に表現する関数です。この値\(T\left( \boldsymbol{x}\right) \)を標本\(\boldsymbol{x}\)の統計量(statistic)と呼びます。

 

統計量の具体例:標本和

確率ベクトル\(\boldsymbol{X}:\Omega\rightarrow \mathbb{R} ^{n}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)はそれぞれのベクトル\(\boldsymbol{x}\in \mathbb{R} ^{n}\)に対して、以下の実数\begin{eqnarray*}T\left( \boldsymbol{x}\right) &=&x_{1}+\cdots +x_{n} \\
&=&\sum_{i=1}^{n}x_{i}
\end{eqnarray*}を定めるものとします。これらの合成関数\(T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \)として定義される統計量\begin{equation*}T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}を標本和(sample sum)と呼び、\begin{equation*}
X_{1}+\cdots +X_{n}:\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega
\right) \quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して標本和\(X_{1}+\cdots +X_{n}\)が定める値は、\begin{eqnarray*}\left( X_{1}+\cdots +X_{n}\right) \left( \omega \right) &=&T\left(
X_{1},\cdots ,X_{n}\right) \\
&=&\left( T\circ \boldsymbol{X}\right) \left( \omega \right) \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&x_{1}+\cdots +x_{n}\quad \because T\text{の定義}
\end{eqnarray*}となります。以上より、標本和\(X_{1}+\cdots +X_{n}\)のもとでの標本\(\boldsymbol{x}\)の統計量は、\begin{equation*}x_{1}+\cdots +x_{n}=\sum_{i=1}^{n}x_{i}
\end{equation*}であることが明らかになりました。これを標本\(\boldsymbol{x}\)の標本和(sample sum)と呼びます。

例(標本和)
母集団から大きさ\(5\)の標本をランダムかつ独立に抽出したところ、\begin{equation*}\boldsymbol{x}=\left( 131,148,139,142,152\right)
\end{equation*}が得られました。この標本の標本和は、\begin{eqnarray*}
x_{1}+\cdots +x_{n} &=&131+148+139+142+152 \\
&=&712
\end{eqnarray*}です。

 

統計量の具体例:標本平均

確率ベクトル\(\boldsymbol{X}:\Omega\rightarrow \mathbb{R} ^{n}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)はそれぞれのベクトル\(\boldsymbol{x}\in \mathbb{R} ^{n}\)に対して、以下の実数\begin{eqnarray*}T\left( \boldsymbol{x}\right) &=&\frac{x_{1}+\cdots +x_{n}}{n} \\
&=&\frac{1}{n}\sum_{i=1}^{n}x_{i}
\end{eqnarray*}を定めるものとします。これらの合成関数\(T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \)として定義される統計量\begin{equation*}T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}を標本平均(sample mean)と呼び、\begin{equation*}
\frac{X_{1}+\cdots +X_{n}}{n}:\Omega \rightarrow \mathbb{R} \end{equation*}または、\begin{equation*}
\overline{X}:\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega
\right) \quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して標本平均\(\overline{X}\)が定める値は、\begin{eqnarray*}\overline{X}\left( \omega \right) &=&T\left( X_{1},\cdots ,X_{n}\right) \\
&=&\left( T\circ \boldsymbol{X}\right) \left( \omega \right) \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&\frac{x_{1}+\cdots +x_{n}}{n}\quad \because T\text{の定義}
\end{eqnarray*}となります。以上より、標本平均\(\overline{X}\)のもとでの標本\(\boldsymbol{x}\)の統計量は、\begin{eqnarray*}\overline{x} &=&\frac{x_{1}+\cdots +x_{n}}{n} \\
&=&\frac{1}{n}\sum_{i=1}^{n}x_{i}
\end{eqnarray*}であることが明らかになりました。これを標本\(\boldsymbol{x}\)の標本平均(sample mean)と呼びます。

例(標本平均)
母集団から大きさ\(5\)の標本をランダムかつ独立に抽出したところ、\begin{equation*}\boldsymbol{x}=\left( 131,148,139,142,152\right)
\end{equation*}が得られました。この標本の標本平均は、\begin{eqnarray*}
\overline{x} &=&\frac{x_{1}+\cdots +x_{n}}{n} \\
&=&\frac{131+148+139+142+152}{5} \\
&=&\frac{712}{5} \\
&=&142.4
\end{eqnarray*}です。

 

統計量の具体例:不偏分散

確率ベクトル\(\boldsymbol{X}:\Omega\rightarrow \mathbb{R} ^{n}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)はそれぞれのベクトル\(\boldsymbol{x}\in \mathbb{R} ^{n}\)に対して、以下の実数\begin{eqnarray*}T\left( \boldsymbol{x}\right) &=&\frac{\left( x_{1}-\overline{x}\right)
^{2}+\cdots +\left( x_{n}-\overline{x}\right) ^{2}}{n-1} \\
&=&\frac{1}{n-1}\sum_{i=1}^{n}\left( x_{i}-\overline{x}\right) ^{2}
\end{eqnarray*}を定めるものとします。ただし、\(\overline{x}\)は標本\(\boldsymbol{x}\)の標本平均です。これらの合成関数\(T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \)として定義される統計量\begin{equation*}T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}を不偏分散(unbiased variance)と呼び、\begin{equation*}
\frac{1}{n-1}\sum_{i=1}^{n}\left( X_{i}-\overline{X}\right) ^{2}:\Omega
\rightarrow \mathbb{R} \end{equation*}または、\begin{equation*}
S^{2}:\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega
\right) \quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して不偏分散\(S^{2}\)が定める値は、\begin{eqnarray*}S^{2}\left( \omega \right) &=&T\left( X_{1},\cdots ,X_{n}\right) \\
&=&\left( T\circ \boldsymbol{X}\right) \left( \omega \right) \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&\frac{\left( x_{1}-\overline{x}\right) ^{2}+\cdots +\left( x_{n}-\overline{x}\right) ^{2}}{n-1}\quad \because T\text{の定義}
\end{eqnarray*}となります。以上より、不偏分散\(S^{2}\)のもとでの標本\(\boldsymbol{x}\)の統計量は、\begin{eqnarray*}s^{2} &=&\frac{\left( x_{1}-\overline{x}\right) ^{2}+\cdots +\left( x_{n}-\overline{x}\right) ^{2}}{n-1} \\
&=&\frac{1}{n-1}\sum_{i=1}^{n}\left( x_{i}-\overline{x}\right) ^{2}
\end{eqnarray*}であることが明らかになりました。これを標本\(\boldsymbol{x}\)の不偏分散(unbiased variance)と呼びます。

例(不偏分散)
母集団から大きさ\(5\)の標本をランダムかつ独立に抽出したところ、\begin{equation*}\boldsymbol{x}=\left( 131,148,139,142,152\right)
\end{equation*}が得られました。先に明らかにしたように、この標本の標本平均は、\begin{equation*}
\overline{x}=142.4
\end{equation*}です。したがって、この標本の不偏分散は、\begin{eqnarray*}
s^{2} &=&\frac{\left( x_{1}-\overline{x}\right) ^{2}+\left( x_{2}-\overline{x}\right) ^{2}+\left( x_{3}-\overline{x}\right) ^{2}+\left( x_{4}-\overline{x}\right) ^{2}+\left( x_{5}-\overline{x}\right) ^{2}}{5-1} \\
&=&\frac{\left( 131-142.4\right) ^{2}+\left( 148-142.4\right) ^{2}+\left(
139-142.4\right) ^{2}+\left( 142-142.4\right) ^{2}+\left( 152-142.4\right)
^{2}}{4} \\
&=&66.3
\end{eqnarray*}です。

 

統計量の具体例:標本標準偏差

確率ベクトル\(\boldsymbol{X}:\Omega\rightarrow \mathbb{R} ^{n}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。関数\(T:\mathbb{R} ^{n}\rightarrow \mathbb{R} \)はそれぞれのベクトル\(\boldsymbol{x}\in \mathbb{R} ^{n}\)に対して、以下の実数\begin{equation*}T\left( \boldsymbol{x}\right) =\sqrt{s^{2}}
\end{equation*}を定めるものとします。ただし、\(s\)は標本\(\boldsymbol{x}\)の不偏分散です。これらの合成関数\(T\circ \boldsymbol{X}:\Omega \rightarrow \mathbb{R} \)として定義される統計量\begin{equation*}T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}を標本標準偏差(sample standard deviation)と呼び、\begin{equation*}
S:\Omega \rightarrow \mathbb{R} \end{equation*}で表記します。

標本\(\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right) \)を任意に選んだとき、値域の定義より、\begin{equation}\exists \omega \in \Omega :\boldsymbol{x}=\boldsymbol{X}\left( \omega
\right) \quad \cdots (1)
\end{equation}が成り立つとともに、この\(\omega \in \Omega \)に対して標本分散\(S\)が定める値は、\begin{eqnarray*}S^{2}\left( \omega \right) &=&T\left( X_{1},\cdots ,X_{n}\right) \\
&=&\left( T\circ \boldsymbol{X}\right) \left( \omega \right) \\
&=&T\left( \boldsymbol{X}\left( \omega \right) \right) \\
&=&T\left( \boldsymbol{x}\right) \quad \because \left( 1\right) \\
&=&\sqrt{s^{2}}\quad \because T\text{の定義} \\
&=&s \\
&=&\sqrt{\frac{\left( x_{1}-\overline{x}\right) ^{2}+\cdots +\left( x_{n}-\overline{x}\right) ^{2}}{n-1}}
\end{eqnarray*}となります。以上より、標本分散\(S\)のもとでの標本\(\boldsymbol{x}\)の統計量は、\begin{eqnarray*}s &=&\sqrt{\frac{\left( x_{1}-\overline{x}\right) ^{2}+\cdots +\left( x_{n}-\overline{x}\right) ^{2}}{n-1}} \\
&=&\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left( x_{i}-\overline{x}\right) ^{2}}
\end{eqnarray*}であることが明らかになりました。これを標本\(\boldsymbol{x}\)の標本標準偏差(sample standard deviation)と呼びます。

例(標本標準偏差)
母集団から大きさ\(5\)の標本をランダムかつ独立に抽出したところ、\begin{equation*}\boldsymbol{x}=\left( 131,148,139,142,152\right)
\end{equation*}が得られました。先に明らかにしたように、この標本の標本分散は、\begin{equation*}
s^{2}=66.3
\end{equation*}です。したがって、この標本の標本標準偏差は、\begin{eqnarray*}
s &=&\sqrt{66.3} \\
&=&8.142\,5
\end{eqnarray*}です。

 

標本分布

確率ベクトル\(\boldsymbol{X}:\Omega\rightarrow \mathbb{R} ^{n}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)は母集団分布から抽出したランダムサンプルであるものとします。統計量\begin{equation*}T\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} \end{equation*}は確率変数であるため、その確率分布が定義可能です。統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)の確率分布を標本分布(sampling distribution)と呼びます。

確率変数\(X_{1},\cdots ,X_{n}\)が母集団分布から抽出したランダムサンプルである場合、これらの確率分布は母集団分布と一致します。したがって、ランダムサンプルから定義される統計量\(T\left( X_{1},\cdots ,X_{n}\right) \)の確率分布、すなわち標本分布は母集団分布に依存します。通常、母集団分布から統計量の標本分布を特定する作業は複雑で困難です。ただし、母集団分布が特定の確率分布である場合や、サンプルの大きさ\(n\)が十分大きい場合などには、母集団分布から様々な統計量の標本分布を比較的容易に導出できます。詳細は場を改めて解説します。

統計量は母集団から抽出した標本が含む情報を何らかの形で要約した指標であるため、標本が与えられればその統計量の値を特定できます。統計量の値の出方は標本分布にしたがってランダムに決定されますが、標本分布は母集団分布から決定されるため、統計量の値の出方もまた母集団分布によって左右されます。以上の関係を逆に利用することにより、母集団分布から抽出した標本の統計量の値の出方から母集団分布や母数を推測することができます。詳細は場を改めて解説します。

関連知識

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録