純粋戦略の範囲での広義の最適反応
問題としている戦略的状況が完備情報の静学ゲームであり、それが戦略型ゲーム\(G\)として表現されているものとします。ゲームの静学性より、プレイヤー\(i\in I\)は意思決定を行う時点において他のプレイヤーたちが実際に選ぶ純粋戦略の組\(s_{-i}\in S_{-i}\)を事前に観察することはできません。ただ、ゲームの完備性より、プレイヤー\(i\)は他のプレイヤーたちが選択し得る純粋戦略の組からなる集合\(S_{-i}\)を把握しているため、その要素であるそれぞれの組\(s_{-i}\)に対して自身の利得\(u_{i}\left( s_{i},s_{-i}\right) \)を最大化するような自身の純粋戦略\(s_{i}^{\ast }\)を事前に特定することはできます。そのような純粋戦略\(s_{i}^{\ast }\)を\(s_{-i}\)に対する広義の最適反応(weak best response)と呼びます。
より正確には、プレイヤー\(i\in I\)の純粋戦略\(s_{i}^{\ast }\in S_{i}\)が他のプレイヤーたちの純粋戦略の組\(s_{-i}\in S_{-i}\)に対する広義の最適反応であることとは、\begin{equation*}\forall s_{i}\in S_{i}:u_{i}\left( s_{i}^{\ast },s_{-i}\right) \geq
u_{i}\left( s_{i},s_{-i}\right)
\end{equation*}が成り立つこととして定義されます。つまり、\(s_{-i}\)を所与としたとき、プレイヤー\(i\)が得る利得は\(s_{i}^{\ast }\)のもとで最大化されるということです。
プレイヤー\(i\)による広義の最適反応は、他のプレイヤーたちの純粋戦略の組に依存して変化します。つまり、ある\(s_{-i}\)に対するプレイヤー\(i\)の広義の最適反応が\(s_{i}^{\ast }\)であるとき、\(s_{-i}\)とは別の\(s_{-i}^{\prime }\)に対するプレイヤー\(i\)の広義の最適反応は\(s_{i}^{\ast }\)であるとは限りません。以下の例より明らかです。
$$\begin{array}{ccc}\hline
1\diagdown 2 & L & R \\ \hline
U & 5,5 & 2,8 \\ \hline
D & 8,2 & 0,0 \\ \hline
\end{array}$$
プレイヤー\(1\)の広義の最適反応について考えます。プレイヤー\(2\)の戦略\(L\)に対しては、\begin{equation*}u_{1}\left( U,L\right) =5\leq 8=u_{1}\left( D,L\right)
\end{equation*}が成り立つため、\(L\)に対するプレイヤー\(1\)の広義の最適反応は\(D\)です。また、プレイヤー\(2\)の戦略\(R\)に対しては、\begin{equation*}u_{1}\left( U,R\right) =2\geq 0=u_{1}\left( D,R\right)
\end{equation*}が成り立つため、\(R\)に対するプレイヤー\(1\)の広義の最適反応は\(U\)です。一方、プレイヤー\(1\)の戦略\(U\)に対するプレイヤー\(2\)の広義の最適反応は\(R\)であり、プレイヤー\(1\)の戦略\(D\)に対するプレイヤー\(2\)の広義の最適反応は\(L\)です。
以下の例が示すように、広義の最適反応は1つであるとは限りません。
$$\begin{array}{ccc}\hline
1\diagdown 2 & L & R \\ \hline
U & 5,5 & 0,5 \\ \hline
D & 5,0 & 2,2 \\ \hline
\end{array}$$
プレイヤー\(1\)にとって、プレイヤー\(2\)の戦略\(L\)に対する広義の最適反応は\(U,D\)の2つであり、戦略\(R\)に対する広義の最適反応は\(D\)です。一方、プレイヤー\(2\)にとって、プレイヤー\(1\)の戦略\(U\)に対する広義の最適反応は\(L,R\)の2つであり、戦略\(D\)に対する広義の最適反応は\(R\)です。
繰り返しになりますが、戦略型ゲーム\(G\)において、プレイヤー\(i\)の広義の最適反応は他のプレイヤーたちの戦略の組\(s_{-i}\)に依存して変化します。また、それぞれの\(s_{-i}\)に対するプレイヤー\(i\)の広義の最適反応は1つであるとは限りません。以上を踏まえた上で、それぞれの\(s_{-i}\in S_{-i}\)に対して、それに対するプレイヤー\(i\)の広義の最適反応からなる\(S_{i}\)の部分集合\begin{equation*}b_{i}(s_{-i})=\{s_{i}^{\ast }\in S_{i}\ |\ u_{i}(s_{i}^{\ast
},s_{-i})=\max_{s_{i}\in S_{i}}u_{i}(s_{i},s_{-i})\}
\end{equation*}を像として定める対応\(b_{i}:S_{-i}\twoheadrightarrow S_{i}\)を定義し、これをプレイヤー\(i\)の広義の最適反応対応(weak best response correspondence)と呼びます。
$$\begin{array}{ccc}\hline
1\diagdown 2 & L & R \\ \hline
U & 5,5 & 0,5 \\ \hline
D & 5,0 & 2,2 \\ \hline
\end{array}$$
プレイヤー\(1\)の広義の最適反応対応\(b_{1}:S_{2}\twoheadrightarrow S_{1}\)は、\begin{eqnarray*}b_{1}\left( L\right) &=&\left\{ U,D\right\} \\
b_{1}\left( R\right) &=&\left\{ D\right\}
\end{eqnarray*}を満たし、プレイヤー\(2\)の広義の最適反応対応\(b_{2}:S_{1}\twoheadrightarrow S_{2}\)は、\begin{eqnarray*}b_{2}\left( U\right) &=&\left\{ L,R\right\} \\
b_{2}\left( D\right) &=&\left\{ R\right\}
\end{eqnarray*}を満たします。
プレイヤー\(i\)の最適反応対応\(b_{i}:S_{-i}\twoheadrightarrow S_{i}\)がそれぞれの\(s_{-i}\in S_{-i}\)に対して定める\(b_{i}\left( s_{-i}\right) \)が1点集合である場合には、すなわち、\begin{equation*}\forall s_{-i}\in S_{-i}:\left\vert b_{i}\left( s_{-i}\right) \right\vert =1
\end{equation*}が成り立つ場合には、集合\(b_{i}\left( s_{-i}\right) \)とその唯一の要素を同一視することにより、\(b_{i}\)を\(S_{-i}\)から\(S_{i}\)への写像とみなすことができます。このような写像\(b_{i}:S_{-i}\rightarrow S_{i}\)を広義の最適反応関数(weak bestresponse function)と呼びます。
$$\begin{array}{ccc}\hline
1\diagdown 2 & L & R \\ \hline
U & 5,5 & 2,8 \\ \hline
D & 8,2 & 0,0 \\ \hline
\end{array}$$
プレイヤー\(1\)の広義の最適反応関数\(b_{1}:S_{2}\rightarrow S_{1}\)は、\begin{eqnarray*}b_{1}\left( L\right) &=&D \\
b_{1}\left( R\right) &=&U
\end{eqnarray*}を満たし、プレイヤー\(2\)の広義の最適反応関数\(b_{2}:S_{1}\rightarrow S_{2}\)は、\begin{eqnarray*}b_{2}\left( U\right) &=&R \\
b_{2}\left( D\right) &=&L
\end{eqnarray*}を満たします。
広義の純粋戦略ナッシュ均衡
繰り返しになりますが、プレイヤー\(i\in I\)の純粋戦略\(s_{i}^{\ast }\in S_{i}\)が他のプレイヤーたちの純粋戦略の組\(s_{-i}\in S_{-i}\)に対する広義の最適反応であることとは、\begin{equation*}\forall s_{i}\in S_{i}:u_{i}\left( s_{i}^{\ast },s_{-i}\right) \geq
u_{i}\left( s_{i},s_{-i}\right)
\end{equation*}が成り立つことを意味します。これは、他のプレイヤーたちが\(s_{-i}\)を選ぶ場合には、プレイヤー\(i\)は\(s_{i}^{\ast }\)を選ぶことにより自身の利得を最大化できることを意味します。さて、プレイヤーたちの純粋戦略の組\(s_{I}^{\ast }=\left( s_{i}^{\ast }\right) _{i\in I}\)において、それぞれのプレイヤー\(i\)の純粋戦略\(s_{i}^{\ast }\)が他のプレイヤーたちの純粋戦略の組\(s_{-i}^{\ast }\)に対する最適反応になっているならば、すなわち、\begin{equation*}\forall i\in I,\ \forall s_{i}\in S_{i}:u_{i}\left( s_{i}^{\ast
},s_{-i}^{\ast }\right) \geq u_{i}\left( s_{i},s_{-i}^{\ast }\right)
\end{equation*}が成り立つならば、\(s_{I}^{\ast }\)を\(G\)における広義のナッシュ均衡(weak Nash equilibrium)や広義の純粋戦略ナッシュ均衡(weak pure strategy Nash equilibrium)などと呼びます。
純粋戦略の組\(s_{I}^{\ast }\)が広義のナッシュ均衡であるものとします。プレイヤー\(i\)を任意に選んだ上で、他のすべてのプレイヤーが均衡戦略にしたがい\(s_{-i}^{\ast }\)を選ぶことを前提とするとき、プレイヤー\(i\)だけが均衡戦略\(s_{i}^{\ast }\)から逸脱して他の純粋戦略\(s_{i}\)を選ぶと、広義のナッシュ均衡の定義より、\begin{equation*}u_{i}\left( s_{i}^{\ast },s_{-i}^{\ast }\right) \geq u_{i}\left(
s_{i},s_{-i}^{\ast }\right)
\end{equation*}という関係が成り立つため、プレイヤー\(i\)はそのような逸脱から得できる可能性はありません。同様の議論は任意のプレイヤーについて成り立ちます。
つまり、プレイヤーたちが広義のナッシュ均衡\(s_{I}^{\ast }\)をプレーしているとき、それぞれのプレイヤー\(i\)は、他のプレイヤーたちが均衡戦略\(s_{-i}^{\ast }\)にしたがう限りにおいて、自分は均衡戦略\(s_{i}^{\ast }\)から逸脱しても得できません。広義のナッシュ均衡ではプレイヤーたちの戦略がお互いに最適反応になっているため、誰もそこから逸脱する動機を持たないということです。ただし、プレイヤーたちが広義のナッシュ均衡\(s_{I}^{\ast }\)を実際にプレーすることを保証するために、それぞれのプレイヤー\(i\)が、他のプレイヤーたちが均衡戦略\(s_{-i}^{\ast }\)にしたがうことを正しく予想する必要があります。これはどのような理屈によって正当化できるのでしょうか。この点については場を改めて議論します。
$$\begin{array}{ccc}\hline
1\diagdown 2 & L & R \\ \hline
U & 5,5 & 0,8^{\ast } \\ \hline
D & 8^{\ast },0 & 2^{\ast },2^{\ast } \\ \hline
\end{array}$$
表にはそれぞれのプレイヤーが広義の最適反応を選んだときに得る利得に\(\ast \)を記してあります。表から明らかであるように\(\left( D,R\right) \)は広義の最適反応の組であるため、これは広義の純粋戦略ナッシュ均衡です。
広義の純粋戦略ナッシュ均衡は存在するとは限りません。
$$\begin{array}{ccc}\hline
1\diagdown 2 & L & R \\ \hline
U & -1,1^{\ast } & 1^{\ast },-1 \\ \hline
D & 1^{\ast },-1 & -1,1^{\ast } \\ \hline
\end{array}$$
表にはそれぞれのプレイヤーが広義の最適反応を選んだときに得る利得に\(\ast \)を記してあります。表から明らかであるように広義の最適反応の組は存在しないため、このゲームには広義の純粋戦略ナッシュ均衡が存在しません。
広義の純粋戦略ナッシュ均衡が存在する場合、それは1つだけであるとは限りません。
$$\begin{array}{ccc}\hline
1\diagdown 2 & L & R \\ \hline
U & 5^{\ast },5^{\ast } & 0,5^{\ast } \\ \hline
D & 5^{\ast },0 & 2^{\ast },2^{\ast } \\ \hline
\end{array}$$
表にはそれぞれのプレイヤーが広義の最適反応を選んだときに得る利得に\(\ast \)を記してあります。表から明らかであるように\(\left( U,L\right) \)と\(\left( D,R\right) \)はともに広義の最適反応の組であるため、これらはともに広義の純粋戦略ナッシュ均衡です。
プレイヤー\(i\)による広義の最適反応対応\(b_{i}:S_{-i}\twoheadrightarrow S_{i}\)を用いると、プレイヤー\(i\)の純粋戦略\(s_{i}^{\ast }\)が他のプレイヤーたちの純粋戦略の組\(s_{-i}\)に対する広義の最適反応であることは、\begin{equation*}s_{i}^{\ast }\in b_{i}\left( s_{-i}\right)
\end{equation*}が成り立つこととして表現可能です。したがって、純粋戦略の組\(s_{I}^{\ast }=\left( s_{i}^{\ast }\right) _{i\in I}\)が広義の純粋戦略ナッシュ均衡であることとは、\begin{equation*}\forall i\in I:s_{i}^{\ast }\in b_{i}\left( s_{-i}^{\ast }\right)
\end{equation*}が成り立つことを意味します。
\end{equation*}が成り立つことは、\(s_{I}^{\ast }\)が広義の純粋戦略ナッシュ均衡であるための必要十分条件である。
$$\begin{array}{ccc}\hline
1\diagdown 2 & L & R \\ \hline
U & 5,5 & 0,5 \\ \hline
D & 5,0 & 2,2 \\ \hline
\end{array}$$
プレイヤー\(1\)の広義の最適反応対応\(b_{1}:S_{2}\twoheadrightarrow S_{1}\)は、\begin{eqnarray*}b_{1}\left( L\right) &=&\left\{ U,D\right\} \\
b_{1}\left( R\right) &=&\left\{ D\right\}
\end{eqnarray*}を満たし、プレイヤー\(2\)の広義の最適反応対応\(b_{2}:S_{1}\twoheadrightarrow S_{2}\)は、\begin{eqnarray*}b_{2}\left( U\right) &=&\left\{ L,R\right\} \\
b_{2}\left( D\right) &=&\left\{ R\right\}
\end{eqnarray*}を満たします。このとき、\begin{eqnarray*}
U &\in &b_{1}\left( L\right) \\
L &\in &b_{2}\left( U\right)
\end{eqnarray*}がともに成り立つため、\(\left( U,L\right) \)は広義の純粋戦略ナッシュ均衡です。また、\begin{eqnarray*}D &\in &b_{1}\left( R\right) \\
R &\in &b_{2}\left( D\right)
\end{eqnarray*}がともに成り立つため、\(\left( D,R\right) \)もまた広義の純粋戦略ナッシュ均衡です。
プレイヤー\(i\)による広義の最適反応対応\(b_{i}:S_{-i}\twoheadrightarrow S_{i}\)が、\begin{equation*}\forall s_{-i}\in S_{-i}:\left\vert b_{i}\left( s_{-i}\right) \right\vert =1
\end{equation*}を満たす場合には、集合\(b_{i}\left( s_{-i}\right) \)とその唯一の要素を同一視することにより、最適反応対応を写像\(b_{i}:S_{-i}\rightarrow S_{i}\)とみなすことができます。これを広義の最適反応関数とよびました。プレイヤー\(i\)の最適反応関数\(b_{i}:S_{-i}\rightarrow S_{i}\)が存在するとき、プレイヤー\(i\)の純粋戦略\(s_{i}^{\ast }\)が他のプレイヤーたちの純粋戦略の組\(s_{-i}\)に対する最適反応であることは、\begin{equation*}s_{i}^{\ast }=b_{i}\left( s_{-i}\right)
\end{equation*}が成り立つこととして表現可能です。したがって、すべてのプレイヤーが最適反応関数を持つ場合、純粋戦略の組\(s_{I}^{\ast }=\left(s_{i}^{\ast }\right) _{i\in I}\)が純粋戦略ナッシュ均衡であることとは、\begin{equation*}\forall i\in I:s_{i}^{\ast }=b_{i}\left( s_{-i}^{\ast }\right)
\end{equation*}が成り立つこととして表現可能です。
\end{equation*}が成り立つことは、\(s_{I}^{\ast }\)が広義の純粋戦略ナッシュ均衡であるための必要十分条件である。
u_{2}\left( s_{1},s_{2}\right) &=&\left[ 1-\left( s_{1}+s_{2}\right) \right] s_{2}
\end{eqnarray*}であるものとします。プレイヤー\(2\)の純粋戦略戦略\(s_{2}\)に対するプレイヤー\(1\)の広義の最適反応は、\begin{equation*}\frac{\partial u_{1}\left( s_{1},s_{2}\right) }{\partial s_{1}}=0
\end{equation*}すなわち、\begin{equation*}
1-2s_{1}-s_{2}=0
\end{equation*}を満たす純粋戦略\(s_{1}\)です。したがって、プレイヤー\(1\)の広義の最適反応関数\(b_{1}:\left[ 0,1\right]\rightarrow \left[ 0,1\right] \)が存在し、これはそれぞれの\(s_{2}\in \left[ 0,1\right] \)に対して、\begin{equation}b_{1}\left( s_{2}\right) =\frac{1-s_{2}}{2} \quad \cdots (1)
\end{equation}を像として定めます。同様に、プレイヤー\(2\)の最適反応関数\(b_{2}:\left[ 0,1\right] \rightarrow \left[ 0,1\right] \)が存在し、これはそれぞれの\(s_{1}\in \left[ 0,1\right] \)に対して、\begin{equation}b_{2}\left( s_{1}\right) =\frac{1-s_{1}}{2} \quad \cdots (2)
\end{equation}を像として定めます。広義の純粋戦略ナッシュ均衡\(\left( s_{1}^{\ast },s_{2}^{\ast}\right) \)が存在する場合には、先の命題より、\begin{eqnarray*}s_{1}^{\ast } &=&b_{1}\left( s_{2}^{\ast }\right) \\
s_{2}^{\ast } &=&b_{2}\left( s_{1}^{\ast }\right)
\end{eqnarray*}がともに成り立ちます。\(\left( 1\right) ,\left( 2\right) \)を用いると、これは、\begin{eqnarray*}s_{1}^{\ast } &=&\frac{1-s_{2}^{\ast }}{2} \\
s_{2}^{\ast } &=&\frac{1-s_{1}^{\ast }}{2}
\end{eqnarray*}と言い換え可能です。これを解くと、\begin{equation*}
\left( s_{1}^{\ast },s_{2}^{\ast }\right) =\left( \frac{1}{3},\frac{1}{3}\right)
\end{equation*}を得ます。
演習問題
次回は狭義の純粋戦略ナッシュ均衡について解説します。
プレミアム会員専用コンテンツです
【ログイン】【会員登録】