展開型ゲームにおける行動戦略ナッシュ均衡

行動戦略を前提とした最適反応

問題としている戦略的状況が完備情報の動学ゲームであり、それが展開型ゲーム\(\Gamma \)として表現されているものとします。それぞれのプレイヤー\(i\in I\)が行動戦略\(b_{i}\in B_{i}\)を採用する場合、そこでプレイヤーたちが直面する戦略的状況は\(\Gamma \)の戦略型\begin{equation*}B\left( \Gamma \right) =\left( I,\left\{ B_{i}\right\} _{i\in I},\left\{
F_{i}\right\} _{i\in I}\right)
\end{equation*}として表現されます。ただし、\(I\)はプレイヤー集合、\(B_{i}\)はプレイヤー\(i\)の行動戦略集合、\(F_{i}\)はプレイヤー\(i\)が行動戦略の組どうしを比較する\(B_{I}\)上の期待利得関数です。

広義の最適反応の概念は行動戦略を前提とする戦略型ゲーム\(B\left( \Gamma \right) \)にも適用されます。つまり、プレイヤー\(i\in I\)が他のプレイヤーたちの行動戦略の組\(b_{-i}\in B_{-i}\)に直面したとき、自身の期待利得が行動戦略\(b_{i}^{\ast }\in B_{i}\)のもとで最大化される場合には、すなわち、\begin{equation*}\forall b_{i}\in B_{i}:F_{i}\left( b_{i}^{\ast },b_{-i}\right) \geq
F_{i}\left( b_{i},b_{-i}\right)
\end{equation*}が成り立つのであれば、\(b_{i}^{\ast }\)を\(b_{-i}\)に対する広義の最適反応（weak best response）と呼びます。

プレイヤー\(i\)による広義の最適反応は、他のプレイヤーたちの行動戦略の組に依存して変化します。つまり、ある\(b_{-i}\)に対するプレイヤー\(i\)の広義の最適反応が\(b_{i}^{\ast }\)であるとき、\(b_{-i}\)とは別の\(b_{-i}^{\prime }\)に対するプレイヤー\(i\)の広義の最適反応は\(b_{i}^{\ast }\)であるとは限りません。以下の例より明らかです。

例（広義の最適反応）

以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。

図：ゲームの木

それぞれのプレイヤーの行動戦略を、\begin{eqnarray*}
b_{1} &=&\left( b_{1}\left( a_{11}|\left\{ x_{0}\right\} \right)
,b_{1}\left( a_{12}|\left\{ x_{0}\right\} \right) \right) =\left(
b_{1},1-b_{1}\right) \\
b_{2} &=&\left( b_{2}\left( a_{21}|\left\{ x_{1},x_{2}\right\} \right)
,b_{2}\left( a_{22}|\left\{ x_{1},x_{2}\right\} \right) \right) =\left(
b_{2},1-b_{2}\right)
\end{eqnarray*}で表記します。ただし、\(b_{1},b_{2}\)はいずれも\(0\)以上\(1\)以下の実数です。つまり、プレイヤー\(1\)は行動戦略\(b_{1}\)のもと、情報集合\(\left\{ x_{0}\right\} \)において確率\(b_{1}\)で行動\(a_{11}\)を選び、確率\(1-b_{1}\)で行動\(a_{12}\)を選びます。また、プレイヤー\(2\)は行動戦略\(b_{2}\)のもと、情報集合\(\left\{ x_{1},x_{2}\right\} \)において確率\(b_{2}\)で行動\(a_{21}\)を選び、確率\(1-b_{2}\)で行動\(a_{22}\)を選びます。さて、プレイヤー\(2\)が行動戦略\(b_{2}=1\)を選ぶとき、プレイヤー\(1\)が行動戦略\(b_{1}\)から得る期待利得は、\begin{eqnarray*}F_{1}\left( b_{1},1\right) &=&-b_{1}b_{2}+b_{1}\left( 1-b_{2}\right)
+\left( 1-b_{1}\right) b_{2}-\left( 1-b_{1}\right) \left( 1-b_{2}\right) \\
&=&-b_{1}+\left( 1-b_{1}\right) \quad \because b_{2}=1 \\
&=&-2b_{1}+1
\end{eqnarray*}ですが、これは\(b_{1}\in \left[ 0,1\right] \)に関する減少関数であるため、\(b_{2}=1\)に対する広義の最適反応は\(b_{1}=0\)です。一方、プレイヤー\(2\)が行動戦略\(b_{2}=0\)を選ぶとき、プレイヤー\(1\)が行動戦略\(b_{1}\)から得る期待利得は、\begin{eqnarray*}F_{1}\left( b_{1},0\right) &=&-b_{1}b_{2}+b_{1}\left( 1-b_{2}\right)
+\left( 1-b_{1}\right) b_{2}-\left( 1-b_{1}\right) \left( 1-b_{2}\right) \\
&=&b_{1}-\left( 1-b_{1}\right) \quad \because b_{2}=0 \\
&=&2b_{1}-1
\end{eqnarray*}ですが、これは\(b_{1}\in \left[ 0,1\right] \)に関する増加関数であるため、\(b_{2}=0\)に対する広義の最適反応は\(b_{1}=1\)です。

以下の例が示すように、広義の最適反応は1つであるとは限りません。

例（広義の最適反応）

繰り返しになりますが、以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。

図：ゲームの木

繰り返しになりますが、戦略型ゲーム\(B\left(\Gamma \right) \)において、プレイヤー\(i\)の広義の最適反応は他のプレイヤーたちの戦略の組\(b_{-i}\)に依存して変化します。また、それぞれの\(b_{-i}\)に対するプレイヤー\(i\)の広義の最適反応は1つであるとは限りません。以上を踏まえた上で、それぞれの\(b_{-i}\in B_{-i}\)に対して、それに対するプレイヤー\(i\)の広義の最適反応からなる集合\begin{equation*}r_{i}(b_{-i})=\{b_{i}^{\ast }\in B_{i}\ |\ F_{i}(b_{i}^{\ast
},b_{-i})=\max_{b_{i}\in B_{i}}F_{i}(b_{i},b_{-i})\}
\end{equation*}を像として定める対応\begin{equation*}
r_{i}:B_{-i}\twoheadrightarrow B_{i}
\end{equation*}を定義し、これをプレイヤー\(i\)の広義の最適反応対応（weak best response correspondence）と呼びます。

例（広義の最適反応）

繰り返しになりますが、以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。

図：ゲームの木

それぞれのプレイヤーの行動戦略を、\begin{eqnarray*}
b_{1} &=&\left( b_{1}\left( a_{11}|\left\{ x_{0}\right\} \right)
,b_{1}\left( a_{12}|\left\{ x_{0}\right\} \right) \right) =\left(
b_{1},1-b_{1}\right) \\
b_{2} &=&\left( b_{2}\left( a_{21}|\left\{ x_{1},x_{2}\right\} \right)
,b_{2}\left( a_{22}|\left\{ x_{1},x_{2}\right\} \right) \right) =\left(
b_{2},1-b_{2}\right)
\end{eqnarray*}で表記します。ただし、\(b_{1},b_{2}\)はいずれも\(0\)以上\(1\)以下の実数です。行動戦略の組\(\left(b_{1},b_{2}\right) \)においてプレイヤー\(1\)が直面する期待利得は、\begin{eqnarray*}F_{1}\left( b_{1},b_{2}\right) &=&-b_{1}b_{2}+b_{1}\left( 1-b_{2}\right)
+\left( 1-b_{1}\right) b_{2}-\left( 1-b_{1}\right) \left( 1-b_{2}\right) \\
&=&-\left( 2b_{1}-1\right) \left( 2b_{2}-1\right)
\end{eqnarray*}であるため、プレイヤー\(1\)の広義の最適反応対応\(r_{1}:B_{2}\twoheadrightarrow B_{1}\)はそれぞれの\(b_{2}\in B_{2}\)に対して、\begin{equation*}r_{1}\left( b_{2}\right) =\left\{
\begin{array}{cc}
\left\{ 0\right\} & \left( if\ b_{2}>\frac{1}{2}\right) \\
\left[ 0,1\right] & \left( if\ b_{2}=\frac{1}{2}\right) \\
\left\{ 1\right\} & \left( if\ b_{2}<\frac{1}{2}\right)
\end{array}\right.
\end{equation*}を定めます。行動戦略の組\(\left( b_{1},b_{2}\right) \)においてプレイヤー\(2\)が直面する期待利得は、\begin{eqnarray*}F_{2}\left( b_{1},b_{2}\right) &=&b_{1}b_{2}-b_{1}\left( 1-b_{2}\right)
-\left( 1-b_{1}\right) b_{2}+\left( 1-b_{1}\right) \left( 1-b_{2}\right) \\
&=&\left( 2b_{1}-1\right) \left( 2b_{2}-1\right)
\end{eqnarray*}であるため、プレイヤー\(2\)の広義の最適反応対応\(r_{2}:B_{1}\twoheadrightarrow B_{2}\)はそれぞれの\(b_{1}\in B_{1}\)に対して、\begin{equation*}r_{2}\left( b_{1}\right) =\left\{
\begin{array}{cc}
\left\{ 1\right\} & \left( if\ b_{1}>\frac{1}{2}\right) \\
\left[ 0,1\right] & \left( if\ b_{1}=\frac{1}{2}\right) \\
\left\{ 0\right\} & \left( if\ b_{1}<\frac{1}{2}\right)
\end{array}\right.
\end{equation*}を定めます。

広義の行動戦略ナッシュ均衡

繰り返しになりますが、プレイヤー\(i\in I\)の行動戦略\(b_{i}^{\ast }\in B_{i}\)が他のプレイヤーたちの行動戦略の組\(b_{-i}\in B_{-i}\)に対する広義の最適反応であることとは、\begin{equation*}\forall b_{i}\in B_{i}:F_{i}(b_{i}^{\ast },b_{-i})\geq F_{i}(b_{i},b_{-i})
\end{equation*}が成り立つことを意味します。これは、他のプレイヤーたちが\(b_{-i}\)を選ぶ場合には、プレイヤー\(i\)は\(b_{i}^{\ast }\)を選ぶことにより自身の期待利得を最大化できることを意味します。さて、プレイヤーたちの行動戦略の組\(b_{I}^{\ast }=\left( b_{i}^{\ast }\right) _{i\in I}\)において、それぞれのプレイヤー\(i\)の行動\(b_{i}^{\ast }\)が他のプレイヤーたちの行動戦略の組\(b_{-i}^{\ast }\)に対する広義の最適反応になっているならば、すなわち、\begin{equation*}\forall i\in I,\ \forall b_{i}\in B_{i}:F_{i}(b_{i}^{\ast },b_{-i}^{\ast
})\geq F_{i}(b_{i},b_{-i}^{\ast })
\end{equation*}が成り立つならば、\(b_{I}^{\ast }\)を\(G^{\ast }\)における広義の行動戦略ナッシュ均衡（weak behavior strategy Nash equilibrium）と呼びます。

行動戦略の組\(b_{I}^{\ast }\)が広義の行動戦略ナッシュ均衡であるものとします。プレイヤー\(i\)を任意に選んだ上で、他のすべてのプレイヤーが均衡戦略\(b_{-i}^{\ast }\)を選ぶことを前提とするとき、プレイヤー\(i\)だけが均衡戦略\(b_{i}^{\ast }\)から逸脱して他の行動戦略\(b_{i}\)を選ぶと、広義の行動戦略ナッシュ均衡の定義より、\begin{equation*}F_{i}(b_{i}^{\ast },b_{-i}^{\ast })\geq F_{i}(b_{i},b_{-i}^{\ast })
\end{equation*}という関係が成り立つため、プレイヤー\(i\)はそのような逸脱から得できる可能性はありません。同様の議論は任意のプレイヤーについて成り立ちます。

つまり、プレイヤーたちが広義の行動戦略ナッシュ均衡\(b_{I}^{\ast }\)をプレーしているとき、それぞれのプレイヤー\(i\)は、他のプレイヤーたちが均衡戦略\(b_{-i}^{\ast }\)にしたがう限りにおいて、自分は均衡戦略\(b_{i}^{\ast }\)から逸脱しても得できません。広義の行動戦略ナッシュ均衡ではプレイヤーたちの戦略がお互いに最適戦略になっているため、誰もそこから逸脱する動機を持たないということです。ただし、プレイヤーたちが広義の行動戦略ナッシュ均衡\(b_{I}^{\ast }\)を実際にプレーすることを保証するために、それぞれのプレイヤー\(i\)が、他のプレイヤーたちが均衡戦略\(b_{-i}^{\ast }\)にしたがうことを正しく予想する必要があります。これはどのような理屈によって正当化できるのでしょうか。この点については場を改めて議論します。

プレイヤー\(i\)による広義の最適反応対応\(r_{i}:B_{-i}\twoheadrightarrow B_{i}\)を用いると、プレイヤー\(i\)の行動戦略\(b_{i}^{\ast }\)が他のプレイヤーたちの行動戦略の組\(b_{-i}\)に対する広義の最適反応であることは、\begin{equation*}b_{i}^{\ast }\in r_{i}\left( b_{-i}\right)
\end{equation*}が成り立つこととして表現可能です。したがって、行動戦略の組\(b_{I}^{\ast }=\left( b_{i}^{\ast }\right) _{i\in I}\)が広義の行動戦略ナッシュ均衡であることとは、\begin{equation*}\forall i\in I:b_{i}^{\ast }\in r_{i}\left( b_{-i}^{\ast }\right)
\end{equation*}が成り立つことを意味します。

命題（広義の最適反応対応と広義の行動戦略ナッシュ均衡）

行動戦略を前提とする限界型ゲーム\(\Gamma \)の戦略型\(B\left( \Gamma \right) \)において、それぞれのプレイヤー\(i\in I\)の広義の最適反応対応を\(r_{i}:B_{-i}\twoheadrightarrow B_{i}\)で表す。このとき、行動戦略の組\(b_{I}^{\ast }\in B_{I}\)について、\begin{equation*}\forall i\in I:b_{i}^{\ast }\in r_{i}\left( b_{-i}^{\ast }\right)
\end{equation*}が成り立つことは、\(b_{I}^{\ast }\)が広義の行動戦略ナッシュ均衡であるための必要十分条件である。

例（広義の行動戦略ナッシュ均衡）

繰り返しになりますが、以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。

図：ゲームの木

図：行動戦略ナッシュ均衡

プレイヤー\(1\)の広義の最適反応対応\(r_{1}\)を上図の青いグラフで、プレイヤー\(2\)の広義の最適反応対応\(r_{2}\)を上図の赤いグラフでそれぞれ図示しました。広義の行動戦略ナッシュ均衡は広義の最適反応の組\(\left( b_{1}^{\ast},b_{2}^{\ast }\right) \)として定義されるため、2つのグラフが交わる点が広義の行動戦略ナッシュ均衡です。したがって、広義の行動戦略ナッシュ均衡は、\begin{equation*}\left( b_{1}^{\ast },b_{2}^{\ast }\right) =\left( \frac{1}{2},\frac{1}{2}\right)
\end{equation*}です。先の命題を用いて確認しましょう。実際、\begin{eqnarray*}
\frac{1}{2} &\in &r_{1}\left( \frac{1}{2}\right) \\
\frac{1}{2} &\in &r_{2}\left( \frac{1}{2}\right)
\end{eqnarray*}が成り立つため、\(\left(b_{1},b_{2}\right) =\left( \frac{1}{2},\frac{1}{2}\right) \)は広義の行動戦略ナッシュ均衡です。

WIIS

数学のコース

経済学のコース

アカウント

WIIS

完備情報の動学ゲーム

目次

関連知識

行動戦略を前提とした最適反応

広義の行動戦略ナッシュ均衡

関連知識

質問とコメント

LEARN MORE

さらに深く学びたい人のための会員サービス

論理

集合

実数

ユークリッド空間

微分積分

測度

確率