WIIS

標本分布

統計的推測(母集団・標本・母集団分布・母数)

目次

前のページ:
次のページ:

統計量と標本分布

Mailで保存
Xで共有

統計的推測(母集団と標本)

調査対象をすべて集めることにより得られる集合を母集団(population)と呼びます。身長、体重、所得水準、回数、属性の有無などのように、1つの数値として表現可能な何らかの指標に注目した上で、母集団においてその指標の値がどのように分布しているかを調査しようとしている状況を想定します。

調査対象となる指標の値が母集団においてどのように分布しているか、その状況が確率変数\(X\)の確率分布として記述されているものとします。これを母集団分布(population distribution)と呼びます。母集団分布を表現する手段として分布関数\begin{equation*}F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}を利用します。調査を行う前の時点において、母集団分布\(F_{X}\)の形状を観察できません。母集団分布\(F_{X}\)の形状を把握することが調査の目的です。

確率変数\(X\)が離散型である場合には、母集団分布を表現する手段として確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}を利用することもできます。確率変数\(X\)が連続型である場合には、母集団分布を表現する手段として確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}を利用することもできます。以降では主に分布関数\(F_{X}\)を用いて議論しますが、母集団分布を表現する手段として確率質量関数や確率密度関数を採用するケースについても同様の議論が成り立ちます。

母集団に属するすべての個体を対象とした調査を全数調査(complete survey)や悉皆調査などと呼びます。全数調査を行えば母集団分布\(F_{X}\)の形状を正確に特定できますが、多くの場合、全数調査の実施は困難です。

母集団が多くの個体を含む場合、すべての個体を調査しようとすると膨大な時間と手間がかかるため、全数調査の実施は困難です。

例(識字率の調査)
日本人の識字率に興味がある場合、母集団はすべての日本人からなる集合です。ただ、日本の人口は膨大であるため、すべての日本人を対象に読み書きの調査を実施するのは困難です。

調査を行うことにより個体が失われてしまう場合などには、全数調査を行う意味がありません。

例(強度の調査)
工場で生産した製品の強度に興味がある場合、母集団はすべての生産物です。破壊強度を調査する場合、調査後の製品は売り物にならなくなってしまうため、全数調査を実施する意味がありません。

将来に関する調査を行う場合、将来のデータを現時点において収集できないため、全数調査は不可能です。

例(株価の調査)
上場企業の10年後までの株価に興味ある場合、母集団は上場時から10年後までの株価からなる集合です。上場時から現在までの株価は取得可能ですが、将来の株価に関する情報は現存しないため、全数調査は不可能です。

全数調査が困難である場合には、母集団から一部の個体を選び出し、選び出した個体を調査することを通じて、母集団の性質を推測する必要があります。このような手法を統計的推測(statistical inference)と呼びます。統計的推測のために母集団から選び出される個体や、母集団から選び出された個体を調査することにより得られたデータを標本(sample)と呼びます。母集団から標本を選び出すこと標本抽出(sampling)や抽出などと呼びます。

例(識字率の調査)
日本人の識字率に興味がある場合、母集団はすべての日本人からなる集合です。\(1000 \)人の日本人をランダムに選んだ上で読み書きを調査する場合、その\(1000\)人(もしくは\(1000\)人の調査データ)が標本となります。
例(強度の調査)
工場で生産した製品の強度に興味がある場合、母集団はすべての生産物です。\(30\)個の製品をランダムに選んだ上で破壊強度を調査する場合、その\(30\)個(もしくは\(30\)個の調査データ)が標本となります。
例(株価の調査)
上場企業の10年後までの株価に興味ある場合、母集団は上場時から10年後までの株価からなる集合です。上場時から現在までの株価を調査対象とする場合、それらの株価が標本となります。

 

確率ベクトルの実現値としての標本

統計的推測の目標は、標本を通じて母集団分布の形状を推測することにありますが、そのような作業をどのような形で定式化できるでしょうか。議論の前提として、「母集団から標本を抽出する」という試行を確率空間\begin{equation*}
\left( \Omega ,\mathcal{F},P\right)
\end{equation*}として表現します。

1つの数値として表現される指標に注目した場合、母集団から抽出した有限\(n\)個のデータからなる標本は\(n\)次元のベクトル\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}として表現されます。\(n\)を標本の大きさ(sample size)と呼びます。また、標本\(\boldsymbol{x}\)を構成する個々の値\(x_{1},\cdots ,x_{n}\)を標本からの観測値(observation)と呼びます。

母集団から標本をランダムに抽出する場合、同一の母集団を対象としていても、実際に選ばれる標本を事前に特定することはできません。そこで、標本\(\boldsymbol{x}\)を構成する個々の観測値\(x_{1},\cdots ,x_{n}\)をそれぞれ確率変数\begin{eqnarray*}X_{1} &:&\Omega \rightarrow \mathbb{R} \\
&&\vdots \\
X_{n} &:&\Omega \rightarrow \mathbb{R} \end{eqnarray*}の実現値とみなすのであれば、標本\(\boldsymbol{x}\)そのものを確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなすことができます。確率ベクトル\(\boldsymbol{X}\)の値域、すなわち\(\boldsymbol{X}\)がとり得る値からなる集合は、\begin{equation*}\boldsymbol{X}\left( \Omega \right) =\left\{ \boldsymbol{X}\left( \omega
\right) \in \mathbb{R} ^{n}\ |\ \omega \in \Omega \right\}
\end{equation*}ですが、母集団から標本を抽出することは、値域に属する特定の値\begin{equation*}
\boldsymbol{x}\in \boldsymbol{X}\left( \Omega \right)
\end{equation*}が実現することを意味します。標本をランダムに抽出する場合、どの標本が実際に実現するかを事前に特定できません。どの標本点が実現するかは、確率ベクトル\(\boldsymbol{X}\)の同時確率分布のもとでランダムに決定されます。確率ベクトル\(\boldsymbol{X}:\Omega \rightarrow \mathbb{R} ^{n}\)がしたがう同時分布は同時分布関数\begin{equation*}F_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}として定式化できます。

これまでは1つの数値として表現される指標に注目した上で、標本\(\boldsymbol{x}\)を構成する個々の観測値\(x_{1},\cdots ,x_{n}\)が数値である状況を想定しましたが、複数の指標に興味がある場合にも同様に考えます。以下が具体例です。

例(複数の指標を扱う場合)
母集団に属する人たちの身長と体重の関係に興味がある場合には、母集団分布は身長を表す確率変数\(H\)と体重を表す確率変数\(W\)からなる確率ベクトル\(\left( X,Y\right) \)の同時分布関数\begin{equation*}F_{X,Y}:\mathbb{R} ^{2}\rightarrow \mathbb{R} \end{equation*}として表現されます。この場合、母集団から抽出した人たちの身長と体重をともに計測することになります。母集団から\(n\)人をランダムに抽出します。\(i\ \left( =1,\cdots ,n\right) \)番目の人の身長を\(h_{i}\)で表記し、体重を\(w_{i}\)で表記する場合、標本は\(2n\)次元ベクトル\begin{equation*}\left( \left( h_{1},w_{1}\right) ,\cdots ,\left( h_{n},w_{n}\right) \right)
\in \mathbb{R} ^{2n}
\end{equation*}として表現されます。標本に含まれる個々の観測値\(\left( h_{i},w_{i}\right) \)を確率ベクトル\(H_{i}\times W_{i}\)の実現値とみなすのであれば、標本そのものを確率ベクトル\begin{equation*}\left( H_{1}\times W_{1},\cdots ,H_{n}\times W_{n}\right) :\mathbb{R} ^{2n}\rightarrow \mathbb{R} \end{equation*}の実現値とみなすことができます。この確率ベクトルの同時確率分布は同時分布関数\begin{equation*}
F_{H_{1}\times W_{1},\cdots ,H_{n}\times W_{n}}:\mathbb{R} ^{2n}\rightarrow \mathbb{R} \end{equation*}として表現されます。

 

ランダムサンプル(無作為標本)

母集団分布が確率変数\(X\)の分布関数\begin{equation*}F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。その一方で、母集団から抽出される大きさ\(n\)の標本は確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率ベクトル\(\boldsymbol{X}\)の同時確率分布が同時分布関数\begin{equation*}F_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}として表現されるとともに、個々の確率変数\(X_{1},\cdots ,X_{n}\)に関する周辺分布が分布関数\begin{eqnarray*}F_{X_{1}} &:&\mathbb{R} \rightarrow \mathbb{R} \\
&&\vdots \\
F_{X_{n}} &:&\mathbb{R} \rightarrow \mathbb{R} \end{eqnarray*}として表現されているものとします。このような状況において、確率ベクトル\(\boldsymbol{X}\)を構成する確率変数\(X_{1},\cdots ,X_{n}\)が独立同一分布にしたがうとともに、それらの周辺分布がいずれも母集団分布と一致する場合には、すなわち、\begin{equation}\forall i\in \left\{ 1,\cdots ,n\right\} :F_{X_{i}}=F_{X} \quad \cdots (1)
\end{equation}が成り立つ場合には、確率変数\(X_{1},\cdots ,X_{n}\)のことを母集団分布\(F_{X}\)から抽出された大きさ\(n\)のランダムサンプル(random sample of size \(n\) from \(F_{X}\))や無作為標本などと呼びます。この場合、任意の標本\(\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \)に対して、以下の関係\begin{eqnarray*}F_{\boldsymbol{X}}\left( \boldsymbol{x}\right) &=&F_{X_{1}}\left(
x_{1}\right) \times \cdots \times F_{X_{n}}\quad \because \text{独立性の仮定} \\
&=&F_{X}\left( x_{1}\right) \times \cdots \times F_{X}\left( x_{n}\right)
\quad \because \text{同一分布の仮定および}\left( 1\right)
\end{eqnarray*}すなわち、\begin{equation*}
F_{\boldsymbol{X}}\left( \boldsymbol{x}\right) =F_{X}\left( x_{1}\right)
\times \cdots \times F_{X}\left( x_{n}\right)
\end{equation*}が成り立ちます。

母集団の大きさが\(N\in \mathbb{N} \)であり、標本の大きさが\(n\in \mathbb{N} \)であるものとします。\(n<N\)です。母集団から標本\(\boldsymbol{x}\)を抽出することは、確率変数\(X_{1},\cdots ,X_{n}\)の実現値\(x_{1},\cdots ,x_{n}\)を次々に観察していくプロセスに相当します。その際、これらの実現値\(x_{1},\cdots ,x_{n}\)は周辺分布関数\(F_{X_{1}},\cdots ,F_{X_{n}}\)にもとづいてランダムに選ばれます。確率変数\(X_{1},\cdots ,X_{n}\)が母集団分布\(F_{X}\)から抽出されたランダムサンプルであることは、すべての確率変数\(X_{1},\cdots ,X_{n}\)の実現値\(x_{1},\cdots ,x_{n}\)が同一の母集団分布\(F_{X}\)にもとづいてランダムかつ独立に選ばれることを意味します。では、ランダムサンプルの仮定が成り立つことを保証するためには、標本をどのように抽出する必要があるのでしょうか。

大きさ\(N\)の母集団から大きさ\(n\)の標本を抽出する際に、\(n\)個の個体を1つずつ順番にとり出す状況を想定します。最初に選ばれた個体の観測値が\(x_{1}\)であり、2番目に選ばれた個体の観測値が\(x_{2}\)です。以降についても同様です。とり出した個体の観測値を得た後、その個体を母集団に戻してから次の個体をとり出す場合、そのような抽出を復元抽出(sampling with replace ment)と呼びます。各回の選定において、その時点において残されている個体はいずれも等しい確率で選ばれるものとします。復元抽出を想定しているため、各回において\(N\)個の個体が残されており、それらの個体がいずれも確率\(\frac{1}{N}\)で選ばれます。つまり、\(n\)回の選定作業は同一条件のもとで行われるため、すべての確率変数\(X_{1},\cdots ,X_{n}\)が同一の母集団分布\(F_{X}\)にしたがいます。さらに、\(n\)回の選定作業が独立である場合、確率変数\(X_{1},\cdots ,X_{n}\)は独立になります。したがって、この場合にはランダムサンプルの仮定が成り立ちます。

先と同様に、大きさ\(N\)の母集団から大きさ\(n\)の標本を抽出する際に、\(n\)個の個体を1つずつ順番にとり出す状況を想定します。最初に選ばれた個体の観測値が\(x_{1}\)であり、2番目に選ばれた個体の観測値が\(x_{2}\)です。以降についても同様です。とり出した個体の観測値を得た後、その個体を母集団に戻さずに次の個体をとり出す場合、そのような抽出を非復元抽出(sampling without replacement)と呼びます。各回の選定において、その時点において残されている個体はいずれも等しい確率で選ばれるものとします。非復元抽出を想定しているため、最初の選定において\(N\)個の個体が残されており、それらの個体がいずれも確率\(\frac{1}{N}\)で選ばれます。次の選定において\(N-1\)個の個体が残されており、それらの個体がいずれも確率\(\frac{1}{N-1}\)で選ばれます。以降についても同様です。つまり、\(n\)回の選定作業は異なる条件のもとで行われるため、すべての確率変数\(X_{1},\cdots ,X_{n}\)が同一分布にしたがうとは言えず、独立であるとも言えません。したがって、非復元抽出が行われる場合にはランダムサンプルの仮定が成立しません。ただし、母集団の大きさ\(N\)が標本の大きさ\(n\)と比べて十分大きい場合には、\(n\)回の選定作業は近似的に等しい条件のもとで行われることになるため、すべての確率変数\(X_{1},\cdots ,X_{n}\)が同一の母集団分布\(F_{X}\)にしたがうとともに、確率変数\(X_{1},\cdots ,X_{n}\)は独立になります。したがって、この場合にはランダムサンプルの仮定が成り立ちます。

例(独立同一分布の仮定とランダムサンプル)
母集団分布が確率変数\(X\)の分布関数\begin{equation*}F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。母集団分布が確率ベクトル\(\boldsymbol{X}\)の同時分布関数\begin{equation*}F_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}として定式化されているものとします。確率変数\(X_{1},\cdots ,X_{n}\)が独立同一分布にしたがうとともに、その分布が母集団分布と一致する場合、個々の確率変数\(X_{1},\cdots ,X_{n}\)に関する周辺分布関数が母集団分布\(F_{X}\)として表現されるとともに、任意の標本\(\boldsymbol{x}=\left( x_{1},\cdots,x_{n}\right) \)に対して、以下の関係\begin{equation*}F_{\boldsymbol{X}}\left( \boldsymbol{x}\right) =F_{X}\left( x_{1}\right)
\times \cdots \times F_{X}\left( x_{n}\right)
\end{equation*}が成り立ちます。つまり、確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルです。
例(独立性の仮定とランダムサンプル)
母集団分布が確率変数\(X\)の分布関数\begin{equation*}F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。母集団分布が確率ベクトル\(\boldsymbol{X}\)の同時分布関数\begin{equation*}F_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}として定式化されているものとします。確率変数\(X_{1},\cdots ,X_{n}\)は独立である一方で同一分布にしたがうとは限らない場合、個々の確率変数\(X_{1},\cdots ,X_{n}\)に関する周辺分布関数\begin{eqnarray*}F_{X_{1}} &:&\mathbb{R} \rightarrow \mathbb{R} \\
&&\vdots \\
F_{X_{n}} &:&\mathbb{R} \rightarrow \mathbb{R} \end{eqnarray*}が与えられれば、任意の標本\(\boldsymbol{x}=\left( x_{1},\cdots,x_{n}\right) \)に対して、以下の関係\begin{equation*}F_{\boldsymbol{X}}\left( \boldsymbol{x}\right) =F_{X_{1}}\left( x_{1}\right)
\times \cdots \times F_{X_{n}}\left( x_{n}\right)
\end{equation*}が成り立ちます。この場合、確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルではありません。
例(同一分布の仮定とランダムサンプル)
母集団分布が確率変数\(X\)の分布関数\begin{equation*}F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。母集団分布が確率ベクトル\(\boldsymbol{X}\)の同時分布関数\begin{equation*}F_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}として定式化されているものとします。確率変数\(X_{1},\cdots ,X_{n}\)が同一分布にしたがう一方で独立であるとは限らない場合、個々の確率変数\(X_{1},\cdots ,X_{n}\)に関する周辺分布関数が母集団分布\(F_{X}\)として表現される一方で、標本\(\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \)に対して、以下の関係\begin{equation*}F_{\boldsymbol{X}}\left( \boldsymbol{x}\right) =F_{X}\left( x_{1}\right)
\times \cdots \times F_{X}\left( x_{n}\right)
\end{equation*}は成り立つとは限りません。この場合、確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルではありません。

 

統計モデル

母集団分布が確率変数\(X\)の分布関数\begin{equation*}F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。確率変数\(X\)の分布関数となり得るすべての関数からなる集合を、\begin{equation*}\Psi =\left\{ F:\mathbb{R} \rightarrow \mathbb{R} \ |\ F\text{は}X\text{の同時分布関数}\right\}
\end{equation*}で表記します。母集団分布\(F_{X}\)もまたこの集合\(\Psi \)に属しますが、\(\Psi \)に属するどの関数が真の母集団分布\(F_{X}\)であるかを事前に観察することはできません。統計的推測とは、観察可能な標本\(\boldsymbol{x}\)を頼りに、集合\(\Psi \)の中から真の母集団分布\(F_{X}\)を探り当てる作業に相当します。

多くの場合、標本\(\boldsymbol{x}\)を観察する前の段階において、理論や経験にもとづいて、母集団分布\(F_{X}\)がとり得る形状の範囲を限定した上で分析を行います。つまり、以下の条件\begin{equation*}\Phi \subset \Psi
\end{equation*}を満たす集合\(\Phi \)を念頭に置くということです。このような集合\(\Phi \)を統計モデル(statistical model)と呼びます。

統計モデル\(\Phi \subset \Psi \)と真の母集団分布\(F_{X}\)の間に以下の関係\begin{equation*}F_{X}\in \Phi
\end{equation*}が成り立つ場合、すなわち、真の母集団分布が統計モデルに含まれている場合には、統計モデル\(\Phi \)は正しく設定されている(correctly specified)と言います。逆に、以下の条件\begin{equation*}F_{X}\not\in \Phi
\end{equation*}を満たす場合には、すなわち、真の母集団分布が統計モデルに含まれない場合には、統計モデル\(\Phi \)は誤って設定されている(mis-specified)と言います。

統計モデル\(\Phi \)が正しく設定されている場合には、統計的推測とは、観察された標本\(\boldsymbol{x}\)を頼りに、統計モデル\(\Phi \)の中から真の母集団分布\(F_{X}\)を探り当てる作業に相当します。

例(統計モデル)
母集団分布が離散型確率変数\(X\)の確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。確率変数\(X\)の確率質量関数となり得るすべての関数からなる集合を、\begin{equation*}\Psi =\left\{ f:\mathbb{R} \rightarrow \mathbb{R} \ |\ f\text{は}X\text{の確率質量関数}\right\}
\end{equation*}で表記します。母集団分布に関する手がかりが存在しない場合、もしくは母集団分布に対して何も仮定しない場合の統計モデルは、\begin{equation*}
\Phi =\Psi
\end{equation*}となります。一方、母集団分布がベルヌーイ分布にしたがうことが分かっている場合、もしくはそれを仮定する場合の統計モデルは、それぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f\left( x,p\right) =\left\{
\begin{array}{cl}
p^{x}\left( 1-p\right) ^{1-x} & \left( if\ x\in \left\{ 0,1\right\} \right)
\\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定める関数\begin{equation*}
f\left( \cdot ,p\right) :\mathbb{R} \rightarrow \mathbb{R} \end{equation*}を用いて、\begin{equation*}
\Phi =\left\{ f\left( \cdot ,p\right) \in \Psi \ |\ p\in \left( 0,1\right)
\right\}
\end{equation*}と表現できます。つまり、母集団分布がベルヌーイ分布であることが分かっているものの、分布の具体的な形状を特定するパラメータ\(p\)の真の値は不明である状況を統計モデル\(\Phi \)を用いて表現しています。
例(統計モデル)
母集団分布が連続型確率変数\(X\)の確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。確率変数\(X\)の確率密度関数となり得るすべての関数からなる集合を、\begin{equation*}\Psi =\left\{ f:\mathbb{R} \rightarrow \mathbb{R} \ |\ f\text{は}X\text{の確率密度関数}\right\}
\end{equation*}で表記します。母集団分布に関する手がかりが存在しない場合、もしくは母集団分布に対して何も仮定しない場合の統計モデルは、\begin{equation*}
\Phi =\Psi
\end{equation*}となります。一方、母集団分布が正規分布にしたがうことが分かっている場合、もしくはそれを仮定する場合の統計モデルは、それぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f\left( x,\mu ,\sigma \right) =\frac{1}{\sqrt{2\pi \sigma ^{2}}}\exp \left( -\frac{\left( x-\mu \right) ^{2}}{2\sigma ^{2}}\right)
\end{equation*}を値として定める関数\begin{equation*}
f\left( \cdot ,\mu ,\sigma \right) :\mathbb{R} \rightarrow \mathbb{R} \end{equation*}を用いて、\begin{equation*}
\Phi =\left\{ f\left( \cdot ,\mu ,\sigma \right) \in \Psi \ |\ \left( \mu
,\sigma \right) \in \mathbb{R} \times \mathbb{R} _{++}\right\}
\end{equation*}と表現できます。つまり、母集団分布が正規分布であることが分かっているものの、分布の具体的な形状を特定するパラメータ\(\left( \mu ,\sigma \right) \)の真の値は不明である状況を統計モデル\(\Phi \)を用いて表現しています。

 

パラメトリック族と母数

母集団分布が特定の種類の確率分布にしたがうことが判明している場合、もしくはそれを仮定する場合には、確率分布の具体的な形状とパラメータの値の間には対応関係が成立するため、母集団分布を推測する作業は、パラメータの真の値を推測する作業と実質的に等しくなります。

例(母集団分布がベルヌーイ分布にしたがう場合)
母集団分布が離散型確率変数\(X\)の確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。母集団分布がベルヌーイ分布にしたがう状況を想定します。ベルヌーイ分布の形状は1つのパラメータ\(p\in\left( 0,1\right) \)によって決定されますが、その確率質量関数\begin{equation*}f\left( \cdot ,p\right) :\mathbb{R} \rightarrow \mathbb{R} \end{equation*}はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f\left( x,p\right) =\left\{
\begin{array}{cl}
p^{x}\left( 1-p\right) ^{1-x} & \left( if\ x\in \left\{ 0,1\right\} \right)
\\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定めます。母集団分布\(f_{X}\)がベルヌーイ分布にしたがう場合には、\begin{equation*}\exists p\in \left( 0,1\right) :f_{X}=f\left( x,p\right)
\end{equation*}が成り立つため、母集団分布\(f_{X}\)を特定することと、以上の関係を満たすパラメータ\(p\)の値を特定することは同義になります。
例(母集団分布が正規分布にしたがう場合)
母集団分布が連続型確率変数\(X\)の確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。母集団分布が正規分布にしたがう状況を想定します。正規分布の形状は2つのパラメータ\(\left( \mu ,\sigma \right) \in \mathbb{R} \times \mathbb{R} _{++}\)によって決定されますが、その確率質量関数\begin{equation*}f\left( \cdot ,\mu ,\sigma \right) :\mathbb{R} \rightarrow \mathbb{R} \end{equation*}はそれぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f\left( x,\mu ,\sigma \right) =\frac{1}{\sqrt{2\pi \sigma ^{2}}}\exp \left( -\frac{\left( x-\mu \right) ^{2}}{2\sigma ^{2}}\right)
\end{equation*}を値として定めます。母集団分布\(f_{X}\)が正規分布にしたがう場合には、\begin{equation*}\exists \left( \mu ,\sigma \right) \in \mathbb{R} \times \mathbb{R} _{++}:f_{X}=f\left( x,\mu ,\sigma \right)
\end{equation*}が成り立つため、母集団分布\(f_{X}\)を特定することと、以上の関係を満たすパラメータ\(\left( \mu ,\sigma \right) \)の値を特定することは同義になります。

母集団分布が確率変数\(X\)の分布関数\begin{equation*}F_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。確率変数\(X\)の分布関数となり得るすべての関数からなる集合\begin{equation*}\Psi =\left\{ F:\mathbb{R} \rightarrow \mathbb{R} \ |\ F\text{は}X\text{の同時分布関数}\right\}
\end{equation*}に加えて、統計モデル\begin{equation*}
\Phi \subset \Psi
\end{equation*}が与えられているものとします。確率変数\(X\)がしたがう確率分布の種類が判明しているとともに、その確率分布の形状が有限\(k\in \mathbb{N} \)個のパラメータ\begin{equation*}\boldsymbol{\theta }=\left( \theta _{1},\cdots ,\theta _{k}\right) \in
\Theta
\end{equation*}によって決定されるものとします。ただし、\(\Theta \subset \mathbb{R} ^{k}\)はパラメータがとり得る値からなる集合であり、これをパラメータ空間(parameter space)と呼びます。この場合、パラメータのそれぞれの値\(\boldsymbol{\theta }\in\Theta \)に対して、それに対応する同時分布関数\begin{equation*}F\left( \cdot ,\boldsymbol{\theta }\right) \in \Phi
\end{equation*}が定まるため、統計モデルを、\begin{equation*}
\Phi =\left\{ F\left( \cdot ,\boldsymbol{\theta }\right) \ |\ \boldsymbol{\theta }\in \Theta \right\}
\end{equation*}と表現できます。このような統計モデル\(\Phi \)を特にパラメトリック族(parametric family)と呼びます。

パラメトリック族\(\Phi \)が正しく設定されている状況を想定します。すなわち、母集団分布\(F_{X}\)との間に以下の関係\begin{equation*}F_{X}\in \Phi
\end{equation*}が成り立つということです。その一方で、パラメトリック族の定義より、\begin{equation*}
\Phi =\left\{ F\left( \cdot ,\boldsymbol{\theta }\right) \ |\ \boldsymbol{\theta }\in \Theta \right\}
\end{equation*}が成り立つため、このとき、\begin{equation*}
\exists \boldsymbol{\theta }\in \Theta :F_{\boldsymbol{X}}=F\left( \cdot ,\boldsymbol{\theta }\right)
\end{equation*}が成り立ちます。つまり、統計モデルが正しく設定されているとともにパラメトリック族が与えられている場合、母集団分布\(F_{X}\)を推測する作業は、以下の条件\begin{equation*}F_{X}=F\left( \cdot ,\boldsymbol{\theta }\right)
\end{equation*}を満たすパラメータの値\(\boldsymbol{\theta }\)を推測する作業と実質的に等しくなります。また、以上の条件を満たす値\(\boldsymbol{\theta }\)を母集団分布\(F_{X}\)の母数(parameter)と呼びます。

例(ベルヌーイ分布のもとでのパラメトリック族と母数)
母集団分布が離散型確率変数\(X\)の確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。母集団分布がベルヌーイ分布にしたがうことが分かっている場合、もしくはそれを仮定する場合のパラメトリック族は、それぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f\left( x,p\right) =\left\{
\begin{array}{cl}
p^{x}\left( 1-p\right) ^{1-x} & \left( if\ x\in \left\{ 0,1\right\} \right)
\\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を値として定める関数\begin{equation*}
f\left( \cdot ,p\right) :\mathbb{R} \rightarrow \mathbb{R} \end{equation*}を用いて、\begin{equation*}
\Phi =\left\{ f\left( \cdot ,p\right) \in \Psi \ |\ p\in \left( 0,1\right)
\right\}
\end{equation*}と表現されます。母集団分布\(f_{X}\)の母数は、以下の条件\begin{equation*}f_{X}=f\left( \cdot ,p\right)
\end{equation*}を満たすパラメータの値\(p\)に相当します。
例(正規分布のもとでのパラメトリック族と母数)
母集団分布が連続型確率変数\(X\)の確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。母集団分布が正規分布にしたがうことが分かっている場合、もしくはそれを仮定する場合のパラメトリック族は、それぞれの\(x\in \mathbb{R} \)に対して、\begin{equation*}f\left( x,\mu ,\sigma \right) =\frac{1}{\sqrt{2\pi \sigma ^{2}}}\exp \left( -\frac{\left( x-\mu \right) ^{2}}{2\sigma ^{2}}\right)
\end{equation*}を値として定める関数\begin{equation*}
f\left( \cdot ,\mu ,\sigma \right) :\mathbb{R} \rightarrow \mathbb{R} \end{equation*}を用いて、\begin{equation*}
\Phi =\left\{ f\left( \cdot ,\mu ,\sigma \right) \in \Psi \ |\ \left( \mu
,\sigma \right) \in \mathbb{R} \times \mathbb{R} _{++}\right\}
\end{equation*}と表現されます。母集団分布\(f_{X}\)の母数は、以下の条件\begin{equation*}f_{X}=f\left( \cdot ,\mu ,\sigma \right)
\end{equation*}を満たすパラメータの値\(\left( \mu ,\sigma \right) \)に相当します。

 

演習問題

問題(ベルヌーイ分布のもとでのパラメトリック族と母数)
母集団分布が離散型確率変数\(X\)の確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。確率変数\(X\)がベルヌーイ分布にしたがう場合のパラメトリック族と母数を定式化してください。その上で、確率ベクトル\(\boldsymbol{X}\)の同時確率質量関数\begin{equation*}f_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}を特定してください。

解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(ポアソン分布のもとでのパラメトリック族と母数)
母集団分布が離散型確率変数\(X\)の確率質量関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。確率変数\(X\)がポアソン分布にしたがう場合のパラメトリック族と母数を定式化してください。その上で、確率ベクトル\(\boldsymbol{X}\)の同時確率質量関数\begin{equation*}f_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}を特定してください。

解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(連続一様分布のもとでのパラメトリック族と母数)
母集団分布が連続型確率変数\(X\)の確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。確率変数\(X\)が連続一様分布にしたがう場合のパラメトリック族と母数を定式化してください。その上で、確率ベクトル\(\boldsymbol{X}\)の同時確率密度関数\begin{equation*}f_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}を特定してください。

解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(指数分布のもとでのパラメトリック族と母数)
母集団分布が連続型確率変数\(X\)の確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。確率変数\(X\)が指数分布にしたがう場合のパラメトリック族と母数を定式化してください。その上で、確率ベクトル\(\boldsymbol{X}\)の同時確率密度関数\begin{equation*}f_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}を特定してください。

解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(正規分布のもとでのパラメトリック族と母数)
母集団分布が連続型確率変数\(X\)の確率密度関数\begin{equation*}f_{X}:\mathbb{R} \rightarrow \mathbb{R} \end{equation*}として表現されているものとします。大きさ\(n\)の標本\begin{equation*}\boldsymbol{x}=\left( x_{1},\cdots ,x_{n}\right) \in \mathbb{R} ^{n}
\end{equation*}は\(n\)次元の確率ベクトル\begin{equation*}\boldsymbol{X}=\left( X_{1},\cdots ,X_{n}\right) :\Omega \rightarrow \mathbb{R} ^{n}
\end{equation*}の実現値とみなされます。確率変数\(X_{1},\cdots ,X_{n}\)はランダムサンプルであるものとします。確率変数\(X\)が正規分布にしたがう場合のパラメトリック族と母数を定式化してください。その上で、確率ベクトル\(\boldsymbol{X}\)の同時確率密度関数\begin{equation*}f_{\boldsymbol{X}}:\mathbb{R} ^{n}\rightarrow \mathbb{R} \end{equation*}を特定してください。

解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

前のページ:
次のページ:

統計量と標本分布

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録