教材一覧
教材一覧
教材検索
STATIC GAME OF INCOMPLETE INFORMATION

ベイジアンナッシュ均衡

目次

Share on twitter
Twitterで共有
Share on email
メールで共有

ベイジアンゲームにおける最適反応

問題としている戦略的状況が不完備情報の静学ゲームであり、それがベイジアンゲーム\(G\)として表現されているものとします。任意のプレイヤーの純粋戦略集合は共有知識であるため、プレイヤー\(i\)は他のプレイヤーたちが選び得る純粋戦略からなる集合\(S_{-i}\)を把握していますが、ゲームの静学性より、他のプレイヤーたちが実際に選ぶ純粋戦略の組\(s_{-i}\in S_{-i}\)を事前に観察することはできません。また、任意のプレイヤーのタイプ集合は共有知識であるため、プレイヤー\(i\)は他のプレイヤーたちのタイプがとり得る値からなる集合\(\Theta _{-i}\)を把握していますが、ゲームの不完備性より、他のプレイヤーたちの真のタイプ\(\theta _{-i}^{\ast }\in \Theta _{-i}\)を事前に観察することはできません。このような状況において、プレイヤー\(i\)は何らかの純粋戦略\(s_{i}:\Theta _{i}\rightarrow A_{i}\)を選択しますが、これは自身のそれぞれのタイプ値\(\theta _{i}\in \Theta _{i}\)に対して、そのときに自分が選択するであろう行動\(s_{i}\left( \theta _{i}\right) \in A_{i}\)を包括的に指定する行動計画に相当します。プレイヤー\(i\)は自身の真のタイプ\(\theta _{i}^{\ast }\)を知っていますが、純粋戦略\(s_{i}\)のもとでは、真のタイプ\(\theta _{i}^{\ast }\)のもとでの行動\(s_{i}\left( \theta _{i}^{\ast }\right) \)を指定するだけでなく、真のタイプとは限らないそれぞれのタイプ\(\theta _{i}\)に対しても、その場合に自分が選ぶであろう行動\(s_{i}\left(\theta _{i}\right) \)をそれぞれ指定する必要があります。

以上を踏まえた上で、プレイヤー\(i\)が他のプレイヤーたちの純粋戦略\(s_{-i}\in S_{-i}\)に直面した状況を想定します。仮に他のプレイヤーたちのタイプが\(\theta_{-i}\in \Theta _{-i}\)である場合、彼らが選ぶ行動の組は\(s_{-i}\left( \theta _{-i}\right) \in A_{-i}\)となります。仮にプレイヤー\(i\)のタイプが\(\theta _{i}\in \Theta_{i}\)であり、なおかつ純粋戦略\(s_{i}\in S_{i}\)を選ぶのであれば、プレイヤー\(i\)が選ぶ行動は\(s_{i}\left(\theta _{i}\right) \in A_{i}\)となります。以上のタイプの組から構成される状態\(\theta_{I}=\left( \theta _{i},\theta _{-i}\right) \)におけるプレイヤー\(i\)の利得関数は\(u_{i}\left( \cdot ,\theta _{I}\right) \)であるため、以上の想定のもとでプレイヤー\(i\)が得る利得は、\begin{equation}u_{i}\left( s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta _{-i}\right)
,\theta _{I}\right) \quad \cdots (1)
\end{equation}であり、プレイヤー\(i\)はこの利得を事前に把握しています。プレイヤー\(i\)は他のプレイヤーたちのタイプ\(\theta _{-i}\)がとり得る値の集合\(\Theta _{-i}\)を把握しているため、\(\Theta _{-i}\)に属するそれぞれの\(\theta _{-i}\)に対して利得\(\left( 1\right) \)を計算できます。加えて、プレイヤー\(i\)は、他のプレイヤーたちのタイプ\(\theta _{-i}\)がしたがう分布に関する主観的な予想をタイプ\(\theta _{i}\)のもとでの信念\(f_{i}\left( \cdot|\theta _{i}\right) :\Theta _{-i}\rightarrow \mathbb{R} \)として形成しているものとします。以上を踏まえたとき、他のプレイヤーたちが\(s_{-i}\)を選ぶという前提のもとで自身は\(s_{i}\)を選ぶ場合、信念\(f_{i}\left( \cdot|\theta _{i}\right) \)を持つタイプ\(\theta_{i}\)のプレイヤー\(i\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{-i}}\left[ u_{i}\left( s_{i}\left( \theta _{i}\right)
,s_{-i}\left( \theta _{-i}\right) ,\theta _{I}\right) \ |\ \theta _{i}\right] \\
&=&\sum_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{I}\right) \cdot
f_{i}\left( \theta _{-i}|\theta _{i}\right) \right\} \quad \because \text{タイプが離散型の場合} \\
&=&\int_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{I}\right) \cdot
f_{i}\left( \theta _{-i}|\theta _{i}\right) \right\} d\theta _{-i}\quad
\because \text{タイプが連続型の場合}
\end{eqnarray*}となります。プレイヤー\(i\)のタイプ\(\theta _{i}\)が変われば先の純粋戦略\(s_{i}\)のもとで自身が選ぶ行動\(s_{i}\left( \theta _{i}\right) \)が変わり、自身のタイプにもとづく信念\(f_{i}\left(\cdot |\theta _{i}\right) \)も変わるため、プレイヤー\(i\)が直面する中間期待利得もまた変化します。ただ、他のプレイヤーたちが\(s_{-i}\)を選ぶという前提のもとで自身は\(s_{i}\)を選ぶ場合、自身のタイプ\(\theta _{i}\)によらず、自身の信念\(f_{i}\)のもとで中間期待利得を常に最大化できる場合には、すなわち、\begin{equation*}\forall \theta _{i}\in \Theta _{i},\ \forall a_{i}\in A_{i}:E_{\theta _{-i}}
\left[ u_{i}\left( s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta
_{-i}\right) ,\theta _{I}\right) \ |\ \theta _{i}\right] \geq E_{\theta
_{-i}}\left[ u_{i}\left( a_{i},s_{-i}\left( \theta _{-i}\right) ,\theta
_{I}\right) \ |\ \theta _{i}\right] \end{equation*}が成り立つ場合には、\(s_{i}\)を\(s_{-i}\)に対する中間最適反応(interim best response)と呼びます。

つまり、ベイジアンゲーム\(G\)においてプレイヤー\(i\)の純粋戦略\(s_{i}\)が他のプレイヤーたちの純粋戦略\(s_{-i}\)に対する中間最適反応であることとは、他のプレイヤーたちが\(s_{-i}\)にしたがって行動することを前提とした場合、さらに自身が主観的に形成する信念\(f_{i}\)にもとづいて他のプレイヤーたちのタイプを予想する場合、自分は\(s_{i}\)にしたがって行動を選択すれば、自身のタイプ\(\theta _{i}\)によらず、自身が直面する中間期待利得を常に最大化できることを意味します。

例(私的価値モデルの場合)
プレイヤー\(i\)の利得関数\(u_{i}\)に関して私的価値の仮定が成り立つ場合には、\(u_{i}\)の形状は他のプレイヤーたちのタイプの組\(\theta _{-i}\)に依存せず、自身のタイプ\(\theta _{i}\)にのみ依存するため、信念\(f_{i}\)のもとで、プレイヤー\(i\)の純粋戦略\(s_{i}\)が他のプレイヤーの純粋戦略\(s_{-i}\)に対する中間最適反応であることは、\begin{equation*}\forall \theta _{i}\in \Theta _{i},\ \forall a_{i}\in A_{i}:E_{\theta _{-i}}
\left[ u_{i}\left( s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta
_{-i}\right) ,\theta _{i}\right) \ |\ \theta _{i}\right] \geq E_{\theta
_{-i}}\left[ u_{i}\left( a_{i},s_{-i}\left( \theta _{-i}\right) ,\theta
_{i}\right) \ |\ \theta _{i}\right] \end{equation*}が成り立つことを意味します。

プレイヤー\(i\)の中間最適反応は、他のプレイヤーたちの純粋戦略に依存して変化します。つまり、ある\(s_{-i}\)に対するプレイヤー\(i\)の中間最適反応が\(s_{i}\)であるとき、\(s_{-i}\)とは別の\(s_{-i}^{\prime }\)に対するプレイヤー\(i\)の中間最適反応は\(s_{i}\)であるとは限りません。

プレイヤー\(i\)の中間最適反応は、自身が主観的に形成する信念に依存して変化します。つまり、ある信念\(f_{i}\)のもとでは\(s_{-i}\)に対する中間最適反応が\(s_{i}\)であるとき、別の信念\(f_{i}^{\prime }\)のもとでは\(s_{-i}\)に対する中間最適反応は\(s_{i}\)であるとは限りません。ただ、ベイジアンゲームの定義において、プレイヤーたちが信念を形成する際の主観が具体的にどのようなものであるかが記述されていません。プレイヤーはいかなる信念をも形成することができます。ただ、合理的なプレイヤーは自身の中間期待利得を最大化することを踏まえると、それぞれのプレイヤーは自身が形成し得る様々な信念の中でも自分が中間期待利得を最大化する上で最も有効な信念を探そうとするものと考えるのは自然です。さらに、ゲームにおいてプレイヤーたちは相互依存関係に直面している以上、それぞれのプレイヤーが自身の信念を選ぶプロセスにおいて、プレイヤーたちが互いの信念を読み合う状況が発生することが容易に予期されます。しかし、このような読み合いが行われることを許容すると、ベイジアンゲームの分析が突如として複雑になってしまいます。この点に関する詳しい議論は場を改めて行いますが、現段階では、ベイジアンゲームにおける信念が分析家たちにとって所与である状況を想定します。つまり、それぞれのプレイヤーがある特定の信念を形成したとき、その根拠や正当性については深く立ち入らないことにします。

例(中間最適反応)
ベイジアンゲーム\(G\)のプレイヤー集合が\(I=\{1,2\}\)、行動集合が\(A_{1}=A_{2}=\{a,b\}\)、タイプ集合が\(\Theta _{1}=\left\{ \theta_{11}\right\} \)かつ\(\Theta _{2}=\left\{ \theta _{21},\theta_{22}\right\} \)であるものとします。この場合、2通りの状態\(\left( \theta _{11},\theta _{21}\right) \)と\(\left( \theta _{11},\theta _{22}\right) \)が存在します。状態ゲーム\(G\left( \theta _{11},\theta _{21}\right) \)は以下の利得行列$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 2,1 & 0,0 \\ \hline
b & 0,0 & 1,2 \\ \hline
\end{array}$$

表:状態ゲーム

として、状態ゲーム\(G\left( \theta _{11},\theta _{22}\right) \)は以下の利得行列$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 2,2 & 0,0 \\ \hline
b & 0,0 & 1,4 \\ \hline
\end{array}$$

表:状態ゲーム

としてそれぞれ与えられているものとします。プレイヤー\(1\)の信念\(f_{1}=\left\{ f_{1}\left( \cdot |\theta _{11}\right)\right\} \)を任意に選びます。さらに、以下の純粋戦略\begin{eqnarray*}s_{1} &=&\left( s_{1}\left( \theta _{11}\right) \right) =\left( a\right) \\
s_{2} &=&\left( s_{2}\left( \theta _{21}\right) ,s_{2}\left( \theta
_{22}\right) \right) =\left( a,a\right)
\end{eqnarray*}に注目します。2人が上の純粋戦略\(s_{1},s_{2}\)をそれぞれプレーする場合、タイプ\(\theta _{11}\)のプレイヤー\(1\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{2}\right) ,\theta _{11},\theta _{2}\right) \ |\ \theta
_{11}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) +u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{22}\right) ,\theta _{11},\theta _{22}\right) \cdot
f_{1}\left( \theta _{22}|\theta _{11}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) +u_{1}\left( a,a,\theta _{11},\theta _{22}\right)
\cdot \left[ 1-f_{1}\left( \theta _{21}|\theta _{11}\right) \right] \\
&=&2\cdot f_{1}\left( \theta _{21}|\theta _{11}\right) +2\cdot \left[
1-f_{1}\left( \theta _{21}|\theta _{11}\right) \right] \\
&=&2
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{11}\)のプレイヤー\(1\)が\(s_{1}\left( \theta_{11}\right) =a\)とは異なる行動、すなわち\(b\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( b,s_{2}\left( \theta _{2}\right) ,\theta
_{11},\theta _{2}\right) \ |\ \theta _{11}\right] \\
&=&u_{1}\left( b,s_{2}\left( \theta _{21}\right) ,\theta _{11},\theta
_{21}\right) \cdot f_{1}\left( \theta _{21}|\theta _{11}\right) +u_{1}\left(
b,s_{2}\left( \theta _{22}\right) ,\theta _{11},\theta _{22}\right) \cdot
f_{1}\left( \theta _{22}|\theta _{11}\right) \\
&=&u_{1}\left( b,a,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) +u_{1}\left( b,a,\theta _{11},\theta _{22}\right)
\cdot \left[ 1-f_{1}\left( \theta _{21}|\theta _{11}\right) \right] \\
&=&0\cdot f_{1}\left( \theta _{21}|\theta _{11}\right) +0\cdot \left[
1-f_{1}\left( \theta _{21}|\theta _{11}\right) \right] \\
&=&0
\end{eqnarray*}となりますが、これは先の\(2\)より小さい値です。他にプレイヤー\(1\)の行動は存在しません。また、他にプレイヤー\(1\)のタイプは存在しません。したがって、プレイヤー\(1\)の信念に関わらず、\(s_{1}\)は\(s_{2}\)に対する中間最適反応であることが明らかになりました。一方、プレイヤー\(1\)のタイプがとり得る値は\(\theta _{11}\)だけであるため、プレイヤー\(2\)の信念\(f_{2}=\left\{ f_{2}\left( \cdot |\theta _{21}\right) ,_{2}\left( \cdot|\theta _{22}\right) \right\} \)は必然的に、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) =f_{2}\left( \theta
_{11}|\theta _{22}\right) =1
\end{equation*}となります。2人が先の純粋戦略\(s_{1},s_{2}\)をそれぞれプレーする場合、タイプ\(\theta _{21}\)のプレイヤー\(2\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{11},\theta _{21}\right) \ |\
\theta _{21}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&1\cdot 1 \\
&=&1
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{21}\)のプレイヤー\(2\)が\(s_{2}\left( \theta_{21}\right) =a\)とは異なる行動、すなわち\(b\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,b,\theta _{11},\theta _{21}\right) \ |\ \theta _{21}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,b,\theta _{11},\theta
_{21}\right) \cdot f_{2}\left( \theta _{11}|\theta _{21}\right) \\
&=&u_{1}\left( a,b,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&0\cdot 1
\end{eqnarray*}となりますが、これは先の\(1\)より小さい値です。他にプレイヤー\(2\)の行動は存在しません。続いて、タイプ\(\theta _{22}\)のプレイヤー\(2\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{22}\right) ,\theta _{11},\theta _{22}\right) \ |\
\theta _{22}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{22}\right) ,\theta _{11},\theta _{22}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{22}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{22}\right) \cdot 1 \\
&=&2\cdot 1 \\
&=&2
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{22}\)のプレイヤー\(2\)が\(s_{2}\left( \theta_{22}\right) =a\)とは異なる行動、すなわち\(b\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,b,\theta _{11},\theta _{22}\right) \ |\ \theta _{22}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,b,\theta _{11},\theta
_{22}\right) \cdot f_{2}\left( \theta _{11}|\theta _{22}\right) \\
&=&u_{1}\left( a,b,\theta _{11},\theta _{22}\right) \cdot 1 \\
&=&0\cdot 1 \\
&=&0
\end{eqnarray*}となりますが、これは先の\(2\)より小さい値です。他にプレイヤー\(2\)の行動は存在しません。また、他にプレイヤー\(2\)のタイプは存在しません。したがって、プレイヤー\(2\)の先の唯一の信念のもとで、\(s_{2}\)は\(s_{1}\)に対する中間最適反応であることが明らかになりました。

 

ベイジアンナッシュ均衡

繰り返しになりますが、ベイジアンゲーム\(G\)においてプレイヤー\(i\in I\)の純粋戦略\(s_{i}^{\ast }\in S_{i}\)が他のプレイヤーたちの純粋戦略\(s_{-i}\in S_{-i}\)に対する中間最適反応であることは、自身の信念\(f_{i}\)のもとで、\begin{equation*}\forall \theta _{i}\in \Theta _{i},\ \forall a_{i}\in A_{i}:E_{\theta _{-i}}
\left[ u_{i}\left( s_{i}^{\ast }\left( \theta _{i}\right) ,s_{-i}\left(
\theta _{-i}\right) ,\theta _{I}\right) \ |\ \theta _{i}\right] \geq
E_{\theta _{-i}}\left[ u_{i}\left( a_{i},s_{-i}\left( \theta _{-i}\right)
,\theta _{I}\right) \ |\ \theta _{i}\right] \end{equation*}が成り立つことを意味します。さて、プレイヤーたちの純粋戦略の組\(s_{I}^{\ast }=\left( s_{i}^{\ast }\right)_{i\in I}\in S_{I}\)において、任意のプレイヤー\(i\)の純粋戦略\(s_{i}^{\ast }\)が他のプレイヤーたちの純粋戦略\(s_{-i}^{\ast }\)に対する中間最適反応になっているならば、すなわち、全員の信念\(\left\{ f_{i}\right\}_{i\in I}\)のもとで、\begin{equation*}\forall i\in I,\ \forall \theta _{i}\in \Theta _{i},\ \forall a_{i}\in
A_{i}:E_{\theta _{-i}}\left[ u_{i}\left( s_{i}^{\ast }\left( \theta
_{i}\right) ,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{I}\right) \
|\ \theta _{i}\right] \geq E_{\theta _{-i}}\left[ u_{i}\left(
a_{i},s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{I}\right) \ |\
\theta _{i}\right] \end{equation*}が成り立つならば、\(s_{I}^{\ast }\)を\(G\)のベイジアンナッシュ均衡(Bayesian Nash equilibrium)や中間ベイジアンナッシュ均衡(interim Bayesian Nash equilibrium)などと呼びます。

例(私的価値モデルの場合)
プレイヤー\(i\)の利得関数\(u_{i}\)に関して私的価値の仮定が成り立つ場合には、\(u_{i}\)の形状は他のプレイヤーたちのタイプの組\(\theta _{-i}\)に依存せず、自身のタイプ\(\theta _{i}\)にのみ依存するため、純粋戦略の組\(s_{I}^{\ast }\)がベイジアンナッシュ均衡であることは、全員の信念\(f=\left\{ f_{i}\right\} _{i\in I}\)のもとで、\begin{equation*}\forall i\in I,\ \forall \theta _{i}\in \Theta _{i},\ \forall a_{i}\in
A_{i}:E_{\theta _{-i}}\left[ u_{i}\left( s_{i}^{\ast }\left( \theta
_{i}\right) ,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{i}\right) \
|\ \theta _{i}\right] \geq E_{\theta _{-i}}\left[ u_{i}\left(
a_{i},s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{i}\right) \ |\
\theta _{i}\right] \end{equation*}が成り立つことを意味します。

ベイジアンゲーム\(G\)において純粋戦略の組\(s_{I}^{\ast }\)がベイジアンナッシュ均衡であるものとします。プレイヤー\(i\)とそのタイプ\(\theta_{i}\)を任意に選んだ上で、他のすべてのプレイヤーが均衡戦略\(s_{-i}^{\ast }\)にしたがって行動することを前提とするとき、プレイヤー\(i\)だけが均衡戦略\(s_{i}^{\ast }\)から逸脱して他の純粋戦略\(s_{i}\)を選ぶと、ベイジアンナッシュ均衡の定義より、\begin{equation*}E_{\theta _{-i}}\left[ u_{i}\left( s_{i}^{\ast }\left( \theta _{i}\right)
,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{I}\right) \ |\ \theta
_{i}\right] \geq E_{\theta _{-i}}\left[ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{I}\right) \
|\ \theta _{i}\right] \end{equation*}という関係が成り立つため、タイプ\(\theta _{i}\)のプレイヤー\(i\)はそのような逸脱から得できる可能性はありません。同様の議論は任意のプレイヤーとその任意のタイプについて成り立ちます。つまり、プレイヤーたちがベイジアンナッシュ均衡\(s_{i}^{\ast }\)をプレーしているとき、それぞれのプレイヤー\(i\)は自身のタイプ\(\theta_{i}\)に関わらず、他のプレイヤーたちが均衡戦略\(s_{-i}^{\ast }\)にしたがう限りにおいて、自分は均衡戦略\(s_{i}^{\ast }\)から逸脱しても得できません。ベイジアンナッシュ均衡ではプレイヤーたちの戦略がお互いに最適戦略になっているため、誰もそこから逸脱する動機を持たないということです。ただし、プレイヤーたちがベイジアンナッシュ均衡\(s_{I}^{\ast }\)を実際にプレーすることを保証するためには、それぞれのプレイヤー\(i\)が、他のプレイヤーたちが均衡戦略\(s_{-i}^{\ast }\)にしたがうことを正しく予想する必要があります。これはどのような理屈によって正当化できるのでしょうか。この点については場を改めて議論します。

例(ベイジアンナッシュ均衡)
ベイジアンゲーム\(G\)のプレイヤー集合が\(I=\{1,2\}\)、行動集合が\(A_{1}=A_{2}=\{a,b\}\)、タイプ集合が\(\Theta _{1}=\left\{ \theta_{11}\right\} \)かつ\(\Theta _{2}=\left\{ \theta _{21},\theta_{22}\right\} \)であるものとします。この場合、2通りの状態\(\left( \theta _{11},\theta _{21}\right) \)と\(\left( \theta _{11},\theta _{22}\right) \)が存在します。状態ゲーム\(G\left( \theta _{11},\theta _{21}\right) \)は以下の利得行列$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 2,1 & 0,0 \\ \hline
b & 0,0 & 1,2 \\ \hline
\end{array}$$

表:状態ゲーム

として、状態ゲーム\(G\left( \theta _{11},\theta _{22}\right) \)は以下の利得行列$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 2,2 & 0,0 \\ \hline
b & 0,0 & 1,4 \\ \hline
\end{array}$$

表:状態ゲーム

としてそれぞれ与えられているものとします。以下の純粋戦略\begin{eqnarray*}
s_{1} &=&\left( s_{1}\left( \theta _{11}\right) \right) =\left( a\right) \\
s_{2} &=&\left( s_{2}\left( \theta _{21}\right) ,s_{2}\left( \theta
_{22}\right) \right) =\left( a,a\right)
\end{eqnarray*}に注目します。先に確認したように、プレイヤー\(1\)の信念に関わらず、\(s_{1}\)は\(s_{2}\)に対する中間最適反応です。一方、プレイヤー\(2\)の唯一の信念のもとで、\(s_{2}\)は\(s_{1}\)に対する中間最適反応です。したがって、プレイヤーたちの信念に関わらず、純粋戦略の組\(\left(s_{1},s_{2}\right) \)はこのゲームのベイジアンナッシュ均衡です。

上の例で扱ったベイジアンゲームにはプレイヤーたちの信念に依存しないベイジアンナッシュ均衡が存在しますが、一般に、ベイジアンゲームにおける中間最適反応はプレイヤーの信念に依存して変化するため、中間最適反応の組として定義されるベイジアンナッシュ均衡もまたプレイヤーたちの信念に応じて変化します。以下が具体例です。

例(ベイジアンナッシュ均衡)
ベイジアンゲーム\(G\)のプレイヤー集合が\(I=\{1,2\}\)、行動集合が\(A_{1}=A_{2}=\{a,b\}\)、タイプ集合が\(\Theta _{1}=\left\{ \theta_{11},\theta _{12}\right\} \)かつ\(\Theta _{2}=\left\{ \theta_{21}\right\} \)であるものとします。この場合、2通りの状態\(\left( \theta _{11},\theta _{21}\right) \)と\(\left( \theta _{12},\theta _{21}\right) \)が存在します。状態ゲーム\(G\left( \theta _{11},\theta _{21}\right) \)は以下の利得行列
$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 0,-1 & 2,0 \\ \hline
b & 2,1 & 3,0 \\ \hline
\end{array}$$

表:状態ゲーム

として、状態ゲーム\(G\left( \theta _{12},\theta _{21}\right) \)は以下の利得行列
$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 3,-1 & 5,0 \\ \hline
b & 2,1 & 3,0 \\ \hline
\end{array}$$

表:状態ゲーム

としてそれぞれ与えられているものとします。プレイヤー\(2\)のタイプがとり得る値は\(\theta _{21}\)だけであるため、プレイヤー\(1\)の信念\(f_{1}=\left\{ f_{1}\left( \cdot |\theta _{11}\right) ,f_{1}\left(\cdot |\theta _{12}\right) \right\} \)は必然的に、\begin{equation*}f_{1}\left( \theta _{21}|\theta _{11}\right) =f_{1}\left( \theta
_{21}|\theta _{12}\right) =1
\end{equation*}を満たします。現段階ではプレイヤー\(2\)の信念\(f_{2}=\left\{ f_{2}\left( \cdot |\theta _{21}\right)\right\} \)を具体的に指定しないまま議論を進めます。ただし、信念の定義より、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) +f_{2}\left( \theta
_{12}|\theta _{21}\right) =1
\end{equation*}が常に成り立つことに注意してください。さて、プレイヤー\(1\)の純粋戦略\begin{equation*}s_{1}=\left( s_{1}\left( \theta _{11}\right) ,s_{1}\left( \theta
_{12}\right) \right) =\left( b,a\right)
\end{equation*}と、プレイヤー\(2\)の2つの純粋戦略\begin{eqnarray*}s_{2} &=&\left( s_{2}\left( \theta _{21}\right) \right) =\left( a\right) \\
s_{2}^{\prime } &=&\left( s_{2}^{\prime }\left( \theta _{21}\right) \right)
=\left( b\right)
\end{eqnarray*}に注目します。2人がプレーする純粋戦略が\(\left( s_{1},s_{2}\right) \)である場合、タイプ\(\theta _{11}\)のプレイヤー\(1\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{11},\theta _{21}\right) \ |\
\theta _{11}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) \\
&=&u_{1}\left( b,a,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&2\cdot 1 \\
&=&2
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{11}\)のプレイヤー\(1\)が\(s_{1}\left( \theta_{11}\right) =b\)とは異なる行動、すなわち\(a\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( a,s_{2}\left( \theta _{21}\right)
,\theta _{11},\theta _{21}\right) \ |\ \theta _{11}\right] \\
&=&u_{1}\left( a,s_{2}\left( \theta _{21}\right) ,\theta _{11},\theta
_{21}\right) \cdot f_{1}\left( \theta _{21}|\theta _{11}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&0\cdot 1 \\
&=&0
\end{eqnarray*}となりますが、これは先の\(2\)より小さい値です。他のプレイヤー\(1\)の行動は存在しません。続いて、タイプ\(\theta _{12}\)のプレイヤー\(1\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( s_{1}\left( \theta _{12}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{12},\theta _{21}\right) \ |\
\theta _{12}\right] \\
&=&u_{1}\left( a,a,\theta _{12},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{12}\right) \\
&=&u_{1}\left( a,a,\theta _{12},\theta _{21}\right) \cdot 1 \\
&=&3\cdot 1 \\
&=&3
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{12}\)のプレイヤー\(1\)が\(s_{1}\left( \theta_{12}\right) =a\)とは異なる行動、すなわち\(b\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( b,s_{2}\left( \theta _{21}\right)
,\theta _{12},\theta _{21}\right) \ |\ \theta _{12}\right] \\
&=&u_{1}\left( b,a,\theta _{12},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{12}\right) \\
&=&2\cdot 1 \\
&=&2
\end{eqnarray*}となりますが、これは先の\(3\)より小さい値です。他のプレイヤー\(1\)の行動は存在しません。また、他のプレイヤー\(1\)のタイプは存在しません。したがって、プレイヤー\(1\)の唯一の信念のもとで\(s_{1}\)は\(s_{2}\)に対する中間最適反応であることが明らかになりました。プレイヤー\(1\)の唯一の信念のもとで\(s_{1}\)が\(s_{2}^{\prime }\)に対する中間最適反応であることも同様にして示されます。一方、2人がプレーする純粋戦略が\(\left( s_{1},s_{2}\right) \)である場合、タイプ\(\theta _{21}\)のプレイヤー\(2\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{2}\left( s_{1}\left( \theta _{1}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{1},\theta _{21}\right) \ |\
\theta _{21}\right] \\
&=&u_{2}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) +u_{2}\left( s_{1}\left( \theta _{12}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{12},\theta _{21}\right) \cdot
f_{2}\left( \theta _{12}|\theta _{21}\right) \\
&=&u_{2}\left( b,a,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) +u_{2}\left( a,a,\theta _{12},\theta _{21}\right)
\cdot f_{2}\left( \theta _{12}|\theta _{21}\right) \\
&=&1\cdot f_{2}\left( \theta _{11}|\theta _{21}\right) +\left( -1\right)
\cdot \left[ 1-f_{2}\left( \theta _{11}|\theta _{21}\right) \right] \\
&=&2\cdot f_{2}\left( \theta _{11}|\theta _{21}\right) -1
\end{eqnarray*}となります。一方、2人がプレーする純粋戦略が\(\left( s_{1},s_{2}^{\prime }\right) \)である場合、タイプ\(\theta _{21}\)のプレイヤー\(2\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{2}\left( s_{1}\left( \theta _{1}\right)
,s_{2}^{\prime }\left( \theta _{21}\right) ,\theta _{1},\theta _{21}\right)
\ |\ \theta _{21}\right] \\
&=&u_{2}\left( s_{1}\left( \theta _{11}\right) ,s_{2}^{\prime }\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) +u_{2}\left( s_{1}\left( \theta _{12}\right)
,s_{2}^{\prime }\left( \theta _{21}\right) ,\theta _{12},\theta _{21}\right)
\cdot f_{2}\left( \theta _{12}|\theta _{21}\right) \\
&=&u_{2}\left( b,b,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) +u_{2}\left( a,b,\theta _{12},\theta _{21}\right)
\cdot f_{2}\left( \theta _{12}|\theta _{21}\right) \\
&=&0\cdot f_{2}\left( \theta _{11}|\theta _{21}\right) +0\cdot \left[
1-f_{2}\left( \theta _{11}|\theta _{21}\right) \right] \\
&=&0
\end{eqnarray*}となります。したがって、プレイヤー\(2\)の信念\(f_{2}\)が、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) >\frac{1}{2}
\end{equation*}を満たす場合には\(s_{1}\)が\(s_{2}\)に対する中間最適反応であるため、この場合には\(\left( s_{1},s_{2}\right) \)がベイジアンナッシュ均衡になります。一方、プレイヤー\(2\)の信念\(f_{2}\)が、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) <\frac{1}{2}
\end{equation*}を満たす場合には\(s_{1}^{\prime }\)が\(s_{2}\)に対する中間最適反応であるため、この場合には\(\left( s_{1}^{\prime},s_{2}\right) \)がベイジアンナッシュ均衡になります。また、プレイヤー\(2\)の信念\(f_{2}\)が、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) =\frac{1}{2}
\end{equation*}を満たす場合には\(s_{1}\)と\(s_{1}^{\prime }\)の両方が\(s_{2}\)に対する中間最適反応であるため、この場合には\(\left( s_{1},s_{2}\right) \)と\(\left( s_{1}^{\prime},s_{2}\right) \)がベイジアンナッシュ均衡になります。

Share on twitter
Twitterで共有
Share on email
メールで共有
DISCUSSION

質問とコメント

プレミアム会員専用コンテンツです
ログイン】【会員登録

RELATED KNOWLEDGE

関連知識

ベイジアンゲーム
ベイジアンゲームの定義

不完備情報の静学ゲームを記述するためにはプレイヤー、行動、情報、結果、利得などをそれぞれ具体的に特定する必要があります。それらの要素を記述する方法はいくつか存在しますが、ここではベイジアンゲームと呼ばれるモデルについて解説します。

ベイジアンゲーム
ベイジアンゲームの私的価値モデル

不完備情報の静学ゲームをベイジアンゲームとして表現するとき、すべてのプレイヤーの利得関数が自身のタイプのみに依存し、他のプレイヤーのタイプに依存しないものと仮定する場合には、そのようなモデルを私的価値モデルと呼びます。

ベイジアンゲーム
メカニズムのもとでのゲーム

単一財オークション市場においてメカニズムを提示された入札者たちが直面する戦略的状況はベイジアンゲームとして定式化されます。そのようなゲームにおいて、それぞれの入札者は自身のタイプと信念にもとづいて他の入札者たちのタイプを予想し、その予想から算出される中間期待利得を最大化するような純粋戦略を採用するものと仮定します。

ハーサニ変換
共通事前分布とハーサニ変換

メカニズムのもとでのベイジアンゲームは不完備情報であり、そこに均衡は存在するとは限りません。一方、共通事前分布を導入してゲームをハサーニ変換すればゲームは完備情報ゲームになるため、均衡の存在を保証できるとともに分析が容易になります。

ベイジアンゲーム
ベイジアンゲームにおける純粋戦略

不完備情報の静学ゲームをベイジアンゲームとして表現したとき、プレイヤーによる意思決定は純粋戦略と呼ばれる概念として定式化されます。プレイヤーの純粋戦略とは、自身のそれぞれのタイプに対して行動を1つずつ定める行動計画です。

ベイジアンゲーム
ベイジアンゲームにおける信念

ベイジアンゲームにおいて不確実な状況下で意思決定を迫られるプレイヤーは、自身のそれぞれのタイプに対して、その場合に自分が直面し得る状態ゲームがそれぞれどの程度の確率で起こりえるか主観的に定めた上で、その予想にもとづいて意思決定を行うものとします。

ベイジアンゲーム
中間期待利得とベイジアン仮説

不完備情報の静学ゲームを表現するベイジアンゲームに直面したそれぞれのプレイヤーは、自身のタイプと信念にもとづいて他のプレイヤーたちのタイプを予想し、その予想から算出される中間期待利得を最大化するような純粋戦略を採用するものと仮定します。

ベイジアンゲーム
ベイジアンゲームにおける支配戦略均衡

ベイジアンゲームにおいてプレイヤーがある純粋戦略を選ぶとき、自身を含めた全員のタイプや他のプレイヤーたちの行動、信念に関わらず利得を常に最大化できるならば、そのような戦略を支配純粋戦略と呼びます。支配純粋戦略の組を支配純粋戦略均衡と呼びます。

ベイジアンゲーム
ベイジアンゲームにおける事後均衡

ベイジアンゲームにおいて他のプレイヤーたちの純粋戦略に直面したプレイヤーがある純粋戦略を選ぶ場合、自身のタイプや他のプレイヤーたちのタイプによらず利得を最大化できる場合、そのような純粋戦略を事後最適反応と呼びます。事後最適反応の組を事後均衡と呼びます。

ベイジアンゲーム
ベイジアンナッシュ均衡と事後均衡の関係

ベイジアンゲームにおいて、事後均衡はベイジアンナッシュ均衡でもある一方で、その逆は成り立つとは限りません。また、支配戦略均衡はベイジアンナッシュ均衡でもある一方で、その逆は成り立つとは限りません。

ベイジアンゲーム
ベイジアンゲームにおける高階の信念と共通事前分布

ベイジアンゲームにおいてプレイヤーたちが各々のタイプを読み合う可能性を認めると、ゲームの分析が突如として複雑になってしまいます。このような問題を解消するために、多くの場合、プレイヤーたちのタイプに関して共通事前分布という仮定を設けます。

ハーサニ変換
ベイジアンゲームのハーサニ変換とベイズ同値仮説

ベイジアンゲームの分析を容易にするため、共通事前分布の仮定のもとで、ゲームを不完全な動学ゲームへハーサニ変換します。変換後のゲームにおける均衡概念は事前ベイジアンナッシュ均衡です。