ベイジアンゲームにおける最適反応
問題としている戦略的状況が不完備情報の静学ゲームであり、それがベイジアンゲーム\(G\)として表現されているものとします。任意のプレイヤーの純粋戦略集合は共有知識であるため、プレイヤー\(i\)は他のプレイヤーたちが選び得る純粋戦略からなる集合\(S_{-i}\)を把握していますが、ゲームの静学性より、他のプレイヤーたちが実際に選ぶ純粋戦略の組\(s_{-i}\in S_{-i}\)を事前に観察することはできません。また、任意のプレイヤーのタイプ集合は共有知識であるため、プレイヤー\(i\)は他のプレイヤーたちのタイプがとり得る値からなる集合\(\Theta _{-i}\)を把握していますが、ゲームの不完備性より、他のプレイヤーたちの真のタイプ\(\theta _{-i}^{\ast }\in \Theta _{-i}\)を事前に観察することはできません。このような状況において、プレイヤー\(i\)は何らかの純粋戦略\(s_{i}:\Theta _{i}\rightarrow A_{i}\)を選択しますが、これは自身のそれぞれのタイプ値\(\theta _{i}\in \Theta _{i}\)に対して、そのときに自分が選択するであろう行動\(s_{i}\left( \theta _{i}\right) \in A_{i}\)を包括的に指定する行動計画に相当します。プレイヤー\(i\)は自身の真のタイプ\(\theta _{i}^{\ast }\)を知っていますが、純粋戦略\(s_{i}\)のもとでは、真のタイプ\(\theta _{i}^{\ast }\)のもとでの行動\(s_{i}\left( \theta _{i}^{\ast }\right) \)を指定するだけでなく、真のタイプとは限らないそれぞれのタイプ\(\theta _{i}\)に対しても、その場合に自分が選ぶであろう行動\(s_{i}\left(\theta _{i}\right) \)をそれぞれ指定する必要があります。
以上を踏まえた上で、プレイヤー\(i\)が他のプレイヤーたちの純粋戦略\(s_{-i}\in S_{-i}\)に直面した状況を想定します。仮に他のプレイヤーたちのタイプが\(\theta_{-i}\in \Theta _{-i}\)である場合、彼らが選ぶ行動の組は\(s_{-i}\left( \theta _{-i}\right) \in A_{-i}\)となります。仮にプレイヤー\(i\)のタイプが\(\theta _{i}\in \Theta_{i}\)であり、なおかつ純粋戦略\(s_{i}\in S_{i}\)を選ぶのであれば、プレイヤー\(i\)が選ぶ行動は\(s_{i}\left(\theta _{i}\right) \in A_{i}\)となります。以上のタイプの組から構成される状態\(\theta_{I}=\left( \theta _{i},\theta _{-i}\right) \)におけるプレイヤー\(i\)の利得関数は\(u_{i}\left( \cdot ,\theta _{I}\right) \)であるため、以上の想定のもとでプレイヤー\(i\)が得る利得は、\begin{equation}u_{i}\left( s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta _{-i}\right)
,\theta _{I}\right) \quad \cdots (1)
\end{equation}であり、プレイヤー\(i\)はこの利得を事前に把握しています。プレイヤー\(i\)は他のプレイヤーたちのタイプ\(\theta _{-i}\)がとり得る値の集合\(\Theta _{-i}\)を把握しているため、\(\Theta _{-i}\)に属するそれぞれの\(\theta _{-i}\)に対して利得\(\left( 1\right) \)を計算できます。加えて、プレイヤー\(i\)は、他のプレイヤーたちのタイプ\(\theta _{-i}\)がしたがう分布に関する主観的な予想をタイプ\(\theta _{i}\)のもとでの信念\(f_{i}\left( \cdot|\theta _{i}\right) :\Theta _{-i}\rightarrow \mathbb{R} \)として形成しているものとします。以上を踏まえたとき、他のプレイヤーたちが\(s_{-i}\)を選ぶという前提のもとで自身は\(s_{i}\)を選ぶ場合、信念\(f_{i}\left( \cdot|\theta _{i}\right) \)を持つタイプ\(\theta_{i}\)のプレイヤー\(i\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{-i}}\left[ u_{i}\left( s_{i}\left( \theta _{i}\right)
,s_{-i}\left( \theta _{-i}\right) ,\theta _{I}\right) \ |\ \theta _{i}\right]
\\
&=&\sum_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{I}\right) \cdot
f_{i}\left( \theta _{-i}|\theta _{i}\right) \right\} \quad \because \text{タイプが離散型の場合} \\
&=&\int_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{I}\right) \cdot
f_{i}\left( \theta _{-i}|\theta _{i}\right) \right\} d\theta _{-i}\quad
\because \text{タイプが連続型の場合}
\end{eqnarray*}となります。プレイヤー\(i\)のタイプ\(\theta _{i}\)が変われば先の純粋戦略\(s_{i}\)のもとで自身が選ぶ行動\(s_{i}\left( \theta _{i}\right) \)が変わり、自身のタイプにもとづく信念\(f_{i}\left(\cdot |\theta _{i}\right) \)も変わるため、プレイヤー\(i\)が直面する中間期待利得もまた変化します。ただ、他のプレイヤーたちが\(s_{-i}\)を選ぶという前提のもとで自身は\(s_{i}\)を選ぶ場合、自身のタイプ\(\theta _{i}\)によらず、自身の信念\(f_{i}\)のもとで中間期待利得を常に最大化できる場合には、すなわち、\begin{equation*}\forall \theta _{i}\in \Theta _{i},\ \forall a_{i}\in A_{i}:E_{\theta _{-i}}
\left[ u_{i}\left( s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta
_{-i}\right) ,\theta _{I}\right) \ |\ \theta _{i}\right] \geq E_{\theta
_{-i}}\left[ u_{i}\left( a_{i},s_{-i}\left( \theta _{-i}\right) ,\theta
_{I}\right) \ |\ \theta _{i}\right]
\end{equation*}が成り立つ場合には、\(s_{i}\)を\(s_{-i}\)に対する中間最適反応(interim best response)と呼びます。
つまり、ベイジアンゲーム\(G\)においてプレイヤー\(i\)の純粋戦略\(s_{i}\)が他のプレイヤーたちの純粋戦略\(s_{-i}\)に対する中間最適反応であることとは、他のプレイヤーたちが\(s_{-i}\)にしたがって行動することを前提とした場合、さらに自身が主観的に形成する信念\(f_{i}\)にもとづいて他のプレイヤーたちのタイプを予想する場合、自分は\(s_{i}\)にしたがって行動を選択すれば、自身のタイプ\(\theta _{i}\)によらず、自身が直面する中間期待利得を常に最大化できることを意味します。
\left[ u_{i}\left( s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta
_{-i}\right) ,\theta _{i}\right) \ |\ \theta _{i}\right] \geq E_{\theta
_{-i}}\left[ u_{i}\left( a_{i},s_{-i}\left( \theta _{-i}\right) ,\theta
_{i}\right) \ |\ \theta _{i}\right] \end{equation*}が成り立つことを意味します。
プレイヤー\(i\)の中間最適反応は、他のプレイヤーたちの純粋戦略に依存して変化します。つまり、ある\(s_{-i}\)に対するプレイヤー\(i\)の中間最適反応が\(s_{i}\)であるとき、\(s_{-i}\)とは別の\(s_{-i}^{\prime }\)に対するプレイヤー\(i\)の中間最適反応は\(s_{i}\)であるとは限りません。
プレイヤー\(i\)の中間最適反応は、自身が主観的に形成する信念に依存して変化します。つまり、ある信念\(f_{i}\)のもとでは\(s_{-i}\)に対する中間最適反応が\(s_{i}\)であるとき、別の信念\(f_{i}^{\prime }\)のもとでは\(s_{-i}\)に対する中間最適反応は\(s_{i}\)であるとは限りません。ただ、ベイジアンゲームの定義において、プレイヤーたちが信念を形成する際の主観が具体的にどのようなものであるかが記述されていません。プレイヤーはいかなる信念をも形成することができます。ただ、合理的なプレイヤーは自身の中間期待利得を最大化することを踏まえると、それぞれのプレイヤーは自身が形成し得る様々な信念の中でも自分が中間期待利得を最大化する上で最も有効な信念を探そうとするものと考えるのは自然です。さらに、ゲームにおいてプレイヤーたちは相互依存関係に直面している以上、それぞれのプレイヤーが自身の信念を選ぶプロセスにおいて、プレイヤーたちが互いの信念を読み合う状況が発生することが容易に予期されます。しかし、このような読み合いが行われることを許容すると、ベイジアンゲームの分析が突如として複雑になってしまいます。この点に関する詳しい議論は場を改めて行いますが、現段階では、ベイジアンゲームにおける信念が分析家たちにとって所与である状況を想定します。つまり、それぞれのプレイヤーがある特定の信念を形成したとき、その根拠や正当性については深く立ち入らないことにします。
1\diagdown 2 & a & b \\ \hline
a & 2,1 & 0,0 \\ \hline
b & 0,0 & 1,2 \\ \hline
\end{array}$$
として、状態ゲーム\(G\left( \theta _{11},\theta _{22}\right) \)は以下の利得行列$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 2,2 & 0,0 \\ \hline
b & 0,0 & 1,4 \\ \hline
\end{array}$$
としてそれぞれ与えられているものとします。プレイヤー\(1\)の信念\(f_{1}=\left\{ f_{1}\left( \cdot |\theta _{11}\right)\right\} \)を任意に選びます。さらに、以下の純粋戦略\begin{eqnarray*}s_{1} &=&\left( s_{1}\left( \theta _{11}\right) \right) =\left( a\right) \\
s_{2} &=&\left( s_{2}\left( \theta _{21}\right) ,s_{2}\left( \theta
_{22}\right) \right) =\left( a,a\right)
\end{eqnarray*}に注目します。2人が上の純粋戦略\(s_{1},s_{2}\)をそれぞれプレーする場合、タイプ\(\theta _{11}\)のプレイヤー\(1\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{2}\right) ,\theta _{11},\theta _{2}\right) \ |\ \theta
_{11}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) +u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{22}\right) ,\theta _{11},\theta _{22}\right) \cdot
f_{1}\left( \theta _{22}|\theta _{11}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) +u_{1}\left( a,a,\theta _{11},\theta _{22}\right)
\cdot \left[ 1-f_{1}\left( \theta _{21}|\theta _{11}\right) \right] \\
&=&2\cdot f_{1}\left( \theta _{21}|\theta _{11}\right) +2\cdot \left[
1-f_{1}\left( \theta _{21}|\theta _{11}\right) \right] \\
&=&2
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{11}\)のプレイヤー\(1\)が\(s_{1}\left( \theta_{11}\right) =a\)とは異なる行動、すなわち\(b\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( b,s_{2}\left( \theta _{2}\right) ,\theta
_{11},\theta _{2}\right) \ |\ \theta _{11}\right] \\
&=&u_{1}\left( b,s_{2}\left( \theta _{21}\right) ,\theta _{11},\theta
_{21}\right) \cdot f_{1}\left( \theta _{21}|\theta _{11}\right) +u_{1}\left(
b,s_{2}\left( \theta _{22}\right) ,\theta _{11},\theta _{22}\right) \cdot
f_{1}\left( \theta _{22}|\theta _{11}\right) \\
&=&u_{1}\left( b,a,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) +u_{1}\left( b,a,\theta _{11},\theta _{22}\right)
\cdot \left[ 1-f_{1}\left( \theta _{21}|\theta _{11}\right) \right] \\
&=&0\cdot f_{1}\left( \theta _{21}|\theta _{11}\right) +0\cdot \left[
1-f_{1}\left( \theta _{21}|\theta _{11}\right) \right] \\
&=&0
\end{eqnarray*}となりますが、これは先の\(2\)より小さい値です。他にプレイヤー\(1\)の行動は存在しません。また、他にプレイヤー\(1\)のタイプは存在しません。したがって、プレイヤー\(1\)の信念に関わらず、\(s_{1}\)は\(s_{2}\)に対する中間最適反応であることが明らかになりました。一方、プレイヤー\(1\)のタイプがとり得る値は\(\theta _{11}\)だけであるため、プレイヤー\(2\)の信念\(f_{2}=\left\{ f_{2}\left( \cdot |\theta _{21}\right) ,_{2}\left( \cdot|\theta _{22}\right) \right\} \)は必然的に、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) =f_{2}\left( \theta
_{11}|\theta _{22}\right) =1
\end{equation*}となります。2人が先の純粋戦略\(s_{1},s_{2}\)をそれぞれプレーする場合、タイプ\(\theta _{21}\)のプレイヤー\(2\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{11},\theta _{21}\right) \ |\
\theta _{21}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&1\cdot 1 \\
&=&1
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{21}\)のプレイヤー\(2\)が\(s_{2}\left( \theta_{21}\right) =a\)とは異なる行動、すなわち\(b\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,b,\theta _{11},\theta _{21}\right) \ |\ \theta _{21}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,b,\theta _{11},\theta
_{21}\right) \cdot f_{2}\left( \theta _{11}|\theta _{21}\right) \\
&=&u_{1}\left( a,b,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&0\cdot 1
\end{eqnarray*}となりますが、これは先の\(1\)より小さい値です。他にプレイヤー\(2\)の行動は存在しません。続いて、タイプ\(\theta _{22}\)のプレイヤー\(2\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{22}\right) ,\theta _{11},\theta _{22}\right) \ |\
\theta _{22}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{22}\right) ,\theta _{11},\theta _{22}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{22}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{22}\right) \cdot 1 \\
&=&2\cdot 1 \\
&=&2
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{22}\)のプレイヤー\(2\)が\(s_{2}\left( \theta_{22}\right) =a\)とは異なる行動、すなわち\(b\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,b,\theta _{11},\theta _{22}\right) \ |\ \theta _{22}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,b,\theta _{11},\theta
_{22}\right) \cdot f_{2}\left( \theta _{11}|\theta _{22}\right) \\
&=&u_{1}\left( a,b,\theta _{11},\theta _{22}\right) \cdot 1 \\
&=&0\cdot 1 \\
&=&0
\end{eqnarray*}となりますが、これは先の\(2\)より小さい値です。他にプレイヤー\(2\)の行動は存在しません。また、他にプレイヤー\(2\)のタイプは存在しません。したがって、プレイヤー\(2\)の先の唯一の信念のもとで、\(s_{2}\)は\(s_{1}\)に対する中間最適反応であることが明らかになりました。
ベイジアンナッシュ均衡
繰り返しになりますが、ベイジアンゲーム\(G\)においてプレイヤー\(i\in I\)の純粋戦略\(s_{i}^{\ast }\in S_{i}\)が他のプレイヤーたちの純粋戦略\(s_{-i}\in S_{-i}\)に対する中間最適反応であることは、自身の信念\(f_{i}\)のもとで、\begin{equation*}\forall \theta _{i}\in \Theta _{i},\ \forall a_{i}\in A_{i}:E_{\theta _{-i}}
\left[ u_{i}\left( s_{i}^{\ast }\left( \theta _{i}\right) ,s_{-i}\left(
\theta _{-i}\right) ,\theta _{I}\right) \ |\ \theta _{i}\right] \geq
E_{\theta _{-i}}\left[ u_{i}\left( a_{i},s_{-i}\left( \theta _{-i}\right)
,\theta _{I}\right) \ |\ \theta _{i}\right]
\end{equation*}が成り立つことを意味します。さて、プレイヤーたちの純粋戦略の組\(s_{I}^{\ast }=\left( s_{i}^{\ast }\right)_{i\in I}\in S_{I}\)において、任意のプレイヤー\(i\)の純粋戦略\(s_{i}^{\ast }\)が他のプレイヤーたちの純粋戦略\(s_{-i}^{\ast }\)に対する中間最適反応になっているならば、すなわち、全員の信念\(\left\{ f_{i}\right\}_{i\in I}\)のもとで、\begin{equation*}\forall i\in I,\ \forall \theta _{i}\in \Theta _{i},\ \forall a_{i}\in
A_{i}:E_{\theta _{-i}}\left[ u_{i}\left( s_{i}^{\ast }\left( \theta
_{i}\right) ,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{I}\right) \
|\ \theta _{i}\right] \geq E_{\theta _{-i}}\left[ u_{i}\left(
a_{i},s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{I}\right) \ |\
\theta _{i}\right]
\end{equation*}が成り立つならば、\(s_{I}^{\ast }\)を\(G\)のベイジアンナッシュ均衡(Bayesian Nash equilibrium)や中間ベイジアンナッシュ均衡(interim Bayesian Nash equilibrium)などと呼びます。
A_{i}:E_{\theta _{-i}}\left[ u_{i}\left( s_{i}^{\ast }\left( \theta
_{i}\right) ,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{i}\right) \
|\ \theta _{i}\right] \geq E_{\theta _{-i}}\left[ u_{i}\left(
a_{i},s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{i}\right) \ |\
\theta _{i}\right] \end{equation*}が成り立つことを意味します。
ベイジアンゲーム\(G\)において純粋戦略の組\(s_{I}^{\ast }\)がベイジアンナッシュ均衡であるものとします。プレイヤー\(i\)とそのタイプ\(\theta_{i}\)を任意に選んだ上で、他のすべてのプレイヤーが均衡戦略\(s_{-i}^{\ast }\)にしたがって行動することを前提とするとき、プレイヤー\(i\)だけが均衡戦略\(s_{i}^{\ast }\)から逸脱して他の純粋戦略\(s_{i}\)を選ぶと、ベイジアンナッシュ均衡の定義より、\begin{equation*}E_{\theta _{-i}}\left[ u_{i}\left( s_{i}^{\ast }\left( \theta _{i}\right)
,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{I}\right) \ |\ \theta
_{i}\right] \geq E_{\theta _{-i}}\left[ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{I}\right) \
|\ \theta _{i}\right]
\end{equation*}という関係が成り立つため、タイプ\(\theta _{i}\)のプレイヤー\(i\)はそのような逸脱から得できる可能性はありません。同様の議論は任意のプレイヤーとその任意のタイプについて成り立ちます。つまり、プレイヤーたちがベイジアンナッシュ均衡\(s_{i}^{\ast }\)をプレーしているとき、それぞれのプレイヤー\(i\)は自身のタイプ\(\theta_{i}\)に関わらず、他のプレイヤーたちが均衡戦略\(s_{-i}^{\ast }\)にしたがう限りにおいて、自分は均衡戦略\(s_{i}^{\ast }\)から逸脱しても得できません。ベイジアンナッシュ均衡ではプレイヤーたちの戦略がお互いに最適戦略になっているため、誰もそこから逸脱する動機を持たないということです。ただし、プレイヤーたちがベイジアンナッシュ均衡\(s_{I}^{\ast }\)を実際にプレーすることを保証するためには、それぞれのプレイヤー\(i\)が、他のプレイヤーたちが均衡戦略\(s_{-i}^{\ast }\)にしたがうことを正しく予想する必要があります。これはどのような理屈によって正当化できるのでしょうか。この点については場を改めて議論します。
1\diagdown 2 & a & b \\ \hline
a & 2,1 & 0,0 \\ \hline
b & 0,0 & 1,2 \\ \hline
\end{array}$$
として、状態ゲーム\(G\left( \theta _{11},\theta _{22}\right) \)は以下の利得行列$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 2,2 & 0,0 \\ \hline
b & 0,0 & 1,4 \\ \hline
\end{array}$$
としてそれぞれ与えられているものとします。以下の純粋戦略\begin{eqnarray*}
s_{1} &=&\left( s_{1}\left( \theta _{11}\right) \right) =\left( a\right) \\
s_{2} &=&\left( s_{2}\left( \theta _{21}\right) ,s_{2}\left( \theta
_{22}\right) \right) =\left( a,a\right)
\end{eqnarray*}に注目します。先に確認したように、プレイヤー\(1\)の信念に関わらず、\(s_{1}\)は\(s_{2}\)に対する中間最適反応です。一方、プレイヤー\(2\)の唯一の信念のもとで、\(s_{2}\)は\(s_{1}\)に対する中間最適反応です。したがって、プレイヤーたちの信念に関わらず、純粋戦略の組\(\left(s_{1},s_{2}\right) \)はこのゲームのベイジアンナッシュ均衡です。
上の例で扱ったベイジアンゲームにはプレイヤーたちの信念に依存しないベイジアンナッシュ均衡が存在しますが、一般に、ベイジアンゲームにおける中間最適反応はプレイヤーの信念に依存して変化するため、中間最適反応の組として定義されるベイジアンナッシュ均衡もまたプレイヤーたちの信念に応じて変化します。以下が具体例です。
$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 0,-1 & 2,0 \\ \hline
b & 2,1 & 3,0 \\ \hline
\end{array}$$
として、状態ゲーム\(G\left( \theta _{12},\theta _{21}\right) \)は以下の利得行列
$$\begin{array}{ccc}\hline
1\diagdown 2 & a & b \\ \hline
a & 3,-1 & 5,0 \\ \hline
b & 2,1 & 3,0 \\ \hline
\end{array}$$
としてそれぞれ与えられているものとします。プレイヤー\(2\)のタイプがとり得る値は\(\theta _{21}\)だけであるため、プレイヤー\(1\)の信念\(f_{1}=\left\{ f_{1}\left( \cdot |\theta _{11}\right) ,f_{1}\left(\cdot |\theta _{12}\right) \right\} \)は必然的に、\begin{equation*}f_{1}\left( \theta _{21}|\theta _{11}\right) =f_{1}\left( \theta
_{21}|\theta _{12}\right) =1
\end{equation*}を満たします。現段階ではプレイヤー\(2\)の信念\(f_{2}=\left\{ f_{2}\left( \cdot |\theta _{21}\right)\right\} \)を具体的に指定しないまま議論を進めます。ただし、信念の定義より、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) +f_{2}\left( \theta
_{12}|\theta _{21}\right) =1
\end{equation*}が常に成り立つことに注意してください。さて、プレイヤー\(1\)の純粋戦略\begin{equation*}s_{1}=\left( s_{1}\left( \theta _{11}\right) ,s_{1}\left( \theta
_{12}\right) \right) =\left( b,a\right)
\end{equation*}と、プレイヤー\(2\)の2つの純粋戦略\begin{eqnarray*}s_{2} &=&\left( s_{2}\left( \theta _{21}\right) \right) =\left( a\right) \\
s_{2}^{\prime } &=&\left( s_{2}^{\prime }\left( \theta _{21}\right) \right)
=\left( b\right)
\end{eqnarray*}に注目します。2人がプレーする純粋戦略が\(\left( s_{1},s_{2}\right) \)である場合、タイプ\(\theta _{11}\)のプレイヤー\(1\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{11},\theta _{21}\right) \ |\
\theta _{11}\right] \\
&=&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) \\
&=&u_{1}\left( b,a,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&2\cdot 1 \\
&=&2
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{11}\)のプレイヤー\(1\)が\(s_{1}\left( \theta_{11}\right) =b\)とは異なる行動、すなわち\(a\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( a,s_{2}\left( \theta _{21}\right)
,\theta _{11},\theta _{21}\right) \ |\ \theta _{11}\right] \\
&=&u_{1}\left( a,s_{2}\left( \theta _{21}\right) ,\theta _{11},\theta
_{21}\right) \cdot f_{1}\left( \theta _{21}|\theta _{11}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&0\cdot 1 \\
&=&0
\end{eqnarray*}となりますが、これは先の\(2\)より小さい値です。他のプレイヤー\(1\)の行動は存在しません。続いて、タイプ\(\theta _{12}\)のプレイヤー\(1\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( s_{1}\left( \theta _{12}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{12},\theta _{21}\right) \ |\
\theta _{12}\right] \\
&=&u_{1}\left( a,a,\theta _{12},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{12}\right) \\
&=&u_{1}\left( a,a,\theta _{12},\theta _{21}\right) \cdot 1 \\
&=&3\cdot 1 \\
&=&3
\end{eqnarray*}となります。その一方で、タイプ\(\theta _{12}\)のプレイヤー\(1\)が\(s_{1}\left( \theta_{12}\right) =a\)とは異なる行動、すなわち\(b\)を選ぶ場合に直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{2}}\left[ u_{1}\left( b,s_{2}\left( \theta _{21}\right)
,\theta _{12},\theta _{21}\right) \ |\ \theta _{12}\right] \\
&=&u_{1}\left( b,a,\theta _{12},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{12}\right) \\
&=&2\cdot 1 \\
&=&2
\end{eqnarray*}となりますが、これは先の\(3\)より小さい値です。他のプレイヤー\(1\)の行動は存在しません。また、他のプレイヤー\(1\)のタイプは存在しません。したがって、プレイヤー\(1\)の唯一の信念のもとで\(s_{1}\)は\(s_{2}\)に対する中間最適反応であることが明らかになりました。プレイヤー\(1\)の唯一の信念のもとで\(s_{1}\)が\(s_{2}^{\prime }\)に対する中間最適反応であることも同様にして示されます。一方、2人がプレーする純粋戦略が\(\left( s_{1},s_{2}\right) \)である場合、タイプ\(\theta _{21}\)のプレイヤー\(2\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{2}\left( s_{1}\left( \theta _{1}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{1},\theta _{21}\right) \ |\
\theta _{21}\right] \\
&=&u_{2}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) +u_{2}\left( s_{1}\left( \theta _{12}\right)
,s_{2}\left( \theta _{21}\right) ,\theta _{12},\theta _{21}\right) \cdot
f_{2}\left( \theta _{12}|\theta _{21}\right) \\
&=&u_{2}\left( b,a,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) +u_{2}\left( a,a,\theta _{12},\theta _{21}\right)
\cdot f_{2}\left( \theta _{12}|\theta _{21}\right) \\
&=&1\cdot f_{2}\left( \theta _{11}|\theta _{21}\right) +\left( -1\right)
\cdot \left[ 1-f_{2}\left( \theta _{11}|\theta _{21}\right) \right] \\
&=&2\cdot f_{2}\left( \theta _{11}|\theta _{21}\right) -1
\end{eqnarray*}となります。一方、2人がプレーする純粋戦略が\(\left( s_{1},s_{2}^{\prime }\right) \)である場合、タイプ\(\theta _{21}\)のプレイヤー\(2\)が直面する中間期待利得は、\begin{eqnarray*}&&E_{\theta _{1}}\left[ u_{2}\left( s_{1}\left( \theta _{1}\right)
,s_{2}^{\prime }\left( \theta _{21}\right) ,\theta _{1},\theta _{21}\right)
\ |\ \theta _{21}\right] \\
&=&u_{2}\left( s_{1}\left( \theta _{11}\right) ,s_{2}^{\prime }\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) +u_{2}\left( s_{1}\left( \theta _{12}\right)
,s_{2}^{\prime }\left( \theta _{21}\right) ,\theta _{12},\theta _{21}\right)
\cdot f_{2}\left( \theta _{12}|\theta _{21}\right) \\
&=&u_{2}\left( b,b,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta
_{11}|\theta _{21}\right) +u_{2}\left( a,b,\theta _{12},\theta _{21}\right)
\cdot f_{2}\left( \theta _{12}|\theta _{21}\right) \\
&=&0\cdot f_{2}\left( \theta _{11}|\theta _{21}\right) +0\cdot \left[
1-f_{2}\left( \theta _{11}|\theta _{21}\right) \right] \\
&=&0
\end{eqnarray*}となります。したがって、プレイヤー\(2\)の信念\(f_{2}\)が、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) >\frac{1}{2}
\end{equation*}を満たす場合には\(s_{1}\)が\(s_{2}\)に対する中間最適反応であるため、この場合には\(\left( s_{1},s_{2}\right) \)がベイジアンナッシュ均衡になります。一方、プレイヤー\(2\)の信念\(f_{2}\)が、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) <\frac{1}{2}
\end{equation*}を満たす場合には\(s_{1}^{\prime }\)が\(s_{2}\)に対する中間最適反応であるため、この場合には\(\left( s_{1}^{\prime},s_{2}\right) \)がベイジアンナッシュ均衡になります。また、プレイヤー\(2\)の信念\(f_{2}\)が、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) =\frac{1}{2}
\end{equation*}を満たす場合には\(s_{1}\)と\(s_{1}^{\prime }\)の両方が\(s_{2}\)に対する中間最適反応であるため、この場合には\(\left( s_{1},s_{2}\right) \)と\(\left( s_{1}^{\prime},s_{2}\right) \)がベイジアンナッシュ均衡になります。
プレミアム会員専用コンテンツです
【ログイン】【会員登録】