WIIS

完備情報の動学ゲーム

展開型ゲームにおける行動戦略ナッシュ均衡

目次

関連知識

Mailで保存
Xで共有

行動戦略を前提とした最適反応

問題としている戦略的状況が完備情報の動学ゲームであり、それが展開型ゲーム\(\Gamma \)として表現されているものとします。それぞれのプレイヤー\(i\in I\)が行動戦略\(b_{i}\in B_{i}\)を採用する場合、そこでプレイヤーたちが直面する戦略的状況は\(\Gamma \)の戦略型\begin{equation*}B\left( \Gamma \right) =\left( I,\left\{ B_{i}\right\} _{i\in I},\left\{
F_{i}\right\} _{i\in I}\right)
\end{equation*}として表現されます。ただし、\(I\)はプレイヤー集合、\(B_{i}\)はプレイヤー\(i\)の行動戦略集合、\(F_{i}\)はプレイヤー\(i\)が行動戦略の組どうしを比較する\(B_{I}\)上の期待利得関数です。

広義の最適反応の概念は行動戦略を前提とする戦略型ゲーム\(B\left( \Gamma \right) \)にも適用されます。つまり、プレイヤー\(i\in I\)が他のプレイヤーたちの行動戦略の組\(b_{-i}\in B_{-i}\)に直面したとき、自身の期待利得が行動戦略\(b_{i}^{\ast }\in B_{i}\)のもとで最大化される場合には、すなわち、\begin{equation*}\forall b_{i}\in B_{i}:F_{i}\left( b_{i}^{\ast },b_{-i}\right) \geq
F_{i}\left( b_{i},b_{-i}\right)
\end{equation*}が成り立つのであれば、\(b_{i}^{\ast }\)を\(b_{-i}\)に対する広義の最適反応(weak best response)と呼びます。

プレイヤー\(i\)による広義の最適反応は、他のプレイヤーたちの行動戦略の組に依存して変化します。つまり、ある\(b_{-i}\)に対するプレイヤー\(i\)の広義の最適反応が\(b_{i}^{\ast }\)であるとき、\(b_{-i}\)とは別の\(b_{-i}^{\prime }\)に対するプレイヤー\(i\)の広義の最適反応は\(b_{i}^{\ast }\)であるとは限りません。以下の例より明らかです。

例(広義の最適反応)
以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。

図:ゲームの木
図:ゲームの木

それぞれのプレイヤーの行動戦略を、\begin{eqnarray*}
b_{1} &=&\left( b_{1}\left( a_{11}|\left\{ x_{0}\right\} \right)
,b_{1}\left( a_{12}|\left\{ x_{0}\right\} \right) \right) =\left(
b_{1},1-b_{1}\right) \\
b_{2} &=&\left( b_{2}\left( a_{21}|\left\{ x_{1},x_{2}\right\} \right)
,b_{2}\left( a_{22}|\left\{ x_{1},x_{2}\right\} \right) \right) =\left(
b_{2},1-b_{2}\right)
\end{eqnarray*}で表記します。ただし、\(b_{1},b_{2}\)はいずれも\(0\)以上\(1\)以下の実数です。つまり、プレイヤー\(1\)は行動戦略\(b_{1}\)のもと、情報集合\(\left\{ x_{0}\right\} \)において確率\(b_{1}\)で行動\(a_{11}\)を選び、確率\(1-b_{1}\)で行動\(a_{12}\)を選びます。また、プレイヤー\(2\)は行動戦略\(b_{2}\)のもと、情報集合\(\left\{ x_{1},x_{2}\right\} \)において確率\(b_{2}\)で行動\(a_{21}\)を選び、確率\(1-b_{2}\)で行動\(a_{22}\)を選びます。さて、プレイヤー\(2\)が行動戦略\(b_{2}=1\)を選ぶとき、プレイヤー\(1\)が行動戦略\(b_{1}\)から得る期待利得は、\begin{eqnarray*}F_{1}\left( b_{1},1\right) &=&-b_{1}b_{2}+b_{1}\left( 1-b_{2}\right)
+\left( 1-b_{1}\right) b_{2}-\left( 1-b_{1}\right) \left( 1-b_{2}\right) \\
&=&-b_{1}+\left( 1-b_{1}\right) \quad \because b_{2}=1 \\
&=&-2b_{1}+1
\end{eqnarray*}ですが、これは\(b_{1}\in \left[ 0,1\right] \)に関する減少関数であるため、\(b_{2}=1\)に対する広義の最適反応は\(b_{1}=0\)です。一方、プレイヤー\(2\)が行動戦略\(b_{2}=0\)を選ぶとき、プレイヤー\(1\)が行動戦略\(b_{1}\)から得る期待利得は、\begin{eqnarray*}F_{1}\left( b_{1},0\right) &=&-b_{1}b_{2}+b_{1}\left( 1-b_{2}\right)
+\left( 1-b_{1}\right) b_{2}-\left( 1-b_{1}\right) \left( 1-b_{2}\right) \\
&=&b_{1}-\left( 1-b_{1}\right) \quad \because b_{2}=0 \\
&=&2b_{1}-1
\end{eqnarray*}ですが、これは\(b_{1}\in \left[ 0,1\right] \)に関する増加関数であるため、\(b_{2}=0\)に対する広義の最適反応は\(b_{1}=1\)です。

以下の例が示すように、広義の最適反応は1つであるとは限りません。

例(広義の最適反応)
繰り返しになりますが、以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。

図:ゲームの木
図:ゲームの木

それぞれのプレイヤーの行動戦略を、\begin{eqnarray*}
b_{1} &=&\left( b_{1}\left( a_{11}|\left\{ x_{0}\right\} \right)
,b_{1}\left( a_{12}|\left\{ x_{0}\right\} \right) \right) =\left(
b_{1},1-b_{1}\right) \\
b_{2} &=&\left( b_{2}\left( a_{21}|\left\{ x_{1},x_{2}\right\} \right)
,b_{2}\left( a_{22}|\left\{ x_{1},x_{2}\right\} \right) \right) =\left(
b_{2},1-b_{2}\right)
\end{eqnarray*}で表記します。ただし、\(b_{1},b_{2}\)はいずれも\(0\)以上\(1\)以下の実数です。プレイヤー\(2\)が行動戦略\(b_{2}=\frac{1}{2}\)を選ぶとき、プレイヤー\(1\)が行動戦略\(b_{1}\)から得る期待利得は、\begin{eqnarray*}F_{1}\left( b_{1},\frac{1}{2}\right) &=&-b_{1}b_{2}+b_{1}\left(
1-b_{2}\right) +\left( 1-b_{1}\right) b_{2}-\left( 1-b_{1}\right) \left(
1-b_{2}\right) \\
&=&-\frac{b_{1}}{2}+\frac{b_{1}}{2}+\frac{1-b_{1}}{2}-\frac{1-b_{1}}{2}\quad
\because b_{2}=\frac{1}{2} \\
&=&0
\end{eqnarray*}ですが、これは\(b_{1}\)に関係なく定数であるため、\(b_{2}=\frac{1}{2}\)に対する広義の最適反応は任意の\(b_{1}\)です。

繰り返しになりますが、戦略型ゲーム\(B\left(\Gamma \right) \)において、プレイヤー\(i\)の広義の最適反応は他のプレイヤーたちの戦略の組\(b_{-i}\)に依存して変化します。また、それぞれの\(b_{-i}\)に対するプレイヤー\(i\)の広義の最適反応は1つであるとは限りません。以上を踏まえた上で、それぞれの\(b_{-i}\in B_{-i}\)に対して、それに対するプレイヤー\(i\)の広義の最適反応からなる集合\begin{equation*}r_{i}(b_{-i})=\{b_{i}^{\ast }\in B_{i}\ |\ F_{i}(b_{i}^{\ast
},b_{-i})=\max_{b_{i}\in B_{i}}F_{i}(b_{i},b_{-i})\}
\end{equation*}を像として定める対応\begin{equation*}
r_{i}:B_{-i}\twoheadrightarrow B_{i}
\end{equation*}を定義し、これをプレイヤー\(i\)の広義の最適反応対応(weak best response correspondence)と呼びます。

例(広義の最適反応)
繰り返しになりますが、以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。

図:ゲームの木
図:ゲームの木

それぞれのプレイヤーの行動戦略を、\begin{eqnarray*}
b_{1} &=&\left( b_{1}\left( a_{11}|\left\{ x_{0}\right\} \right)
,b_{1}\left( a_{12}|\left\{ x_{0}\right\} \right) \right) =\left(
b_{1},1-b_{1}\right) \\
b_{2} &=&\left( b_{2}\left( a_{21}|\left\{ x_{1},x_{2}\right\} \right)
,b_{2}\left( a_{22}|\left\{ x_{1},x_{2}\right\} \right) \right) =\left(
b_{2},1-b_{2}\right)
\end{eqnarray*}で表記します。ただし、\(b_{1},b_{2}\)はいずれも\(0\)以上\(1\)以下の実数です。行動戦略の組\(\left(b_{1},b_{2}\right) \)においてプレイヤー\(1\)が直面する期待利得は、\begin{eqnarray*}F_{1}\left( b_{1},b_{2}\right) &=&-b_{1}b_{2}+b_{1}\left( 1-b_{2}\right)
+\left( 1-b_{1}\right) b_{2}-\left( 1-b_{1}\right) \left( 1-b_{2}\right) \\
&=&-\left( 2b_{1}-1\right) \left( 2b_{2}-1\right)
\end{eqnarray*}であるため、プレイヤー\(1\)の広義の最適反応対応\(r_{1}:B_{2}\twoheadrightarrow B_{1}\)はそれぞれの\(b_{2}\in B_{2}\)に対して、\begin{equation*}r_{1}\left( b_{2}\right) =\left\{
\begin{array}{cc}
\left\{ 0\right\} & \left( if\ b_{2}>\frac{1}{2}\right) \\
\left[ 0,1\right] & \left( if\ b_{2}=\frac{1}{2}\right) \\
\left\{ 1\right\} & \left( if\ b_{2}<\frac{1}{2}\right)
\end{array}\right.
\end{equation*}を定めます。行動戦略の組\(\left( b_{1},b_{2}\right) \)においてプレイヤー\(2\)が直面する期待利得は、\begin{eqnarray*}F_{2}\left( b_{1},b_{2}\right) &=&b_{1}b_{2}-b_{1}\left( 1-b_{2}\right)
-\left( 1-b_{1}\right) b_{2}+\left( 1-b_{1}\right) \left( 1-b_{2}\right) \\
&=&\left( 2b_{1}-1\right) \left( 2b_{2}-1\right)
\end{eqnarray*}であるため、プレイヤー\(2\)の広義の最適反応対応\(r_{2}:B_{1}\twoheadrightarrow B_{2}\)はそれぞれの\(b_{1}\in B_{1}\)に対して、\begin{equation*}r_{2}\left( b_{1}\right) =\left\{
\begin{array}{cc}
\left\{ 1\right\} & \left( if\ b_{1}>\frac{1}{2}\right) \\
\left[ 0,1\right] & \left( if\ b_{1}=\frac{1}{2}\right) \\
\left\{ 0\right\} & \left( if\ b_{1}<\frac{1}{2}\right)
\end{array}\right.
\end{equation*}を定めます。

 

広義の行動戦略ナッシュ均衡

繰り返しになりますが、プレイヤー\(i\in I\)の行動戦略\(b_{i}^{\ast }\in B_{i}\)が他のプレイヤーたちの行動戦略の組\(b_{-i}\in B_{-i}\)に対する広義の最適反応であることとは、\begin{equation*}\forall b_{i}\in B_{i}:F_{i}(b_{i}^{\ast },b_{-i})\geq F_{i}(b_{i},b_{-i})
\end{equation*}が成り立つことを意味します。これは、他のプレイヤーたちが\(b_{-i}\)を選ぶ場合には、プレイヤー\(i\)は\(b_{i}^{\ast }\)を選ぶことにより自身の期待利得を最大化できることを意味します。さて、プレイヤーたちの行動戦略の組\(b_{I}^{\ast }=\left( b_{i}^{\ast }\right) _{i\in I}\)において、それぞれのプレイヤー\(i\)の行動\(b_{i}^{\ast }\)が他のプレイヤーたちの行動戦略の組\(b_{-i}^{\ast }\)に対する広義の最適反応になっているならば、すなわち、\begin{equation*}\forall i\in I,\ \forall b_{i}\in B_{i}:F_{i}(b_{i}^{\ast },b_{-i}^{\ast
})\geq F_{i}(b_{i},b_{-i}^{\ast })
\end{equation*}が成り立つならば、\(b_{I}^{\ast }\)を\(G^{\ast }\)における広義の行動戦略ナッシュ均衡(weak behavior strategy Nash equilibrium)と呼びます。

行動戦略の組\(b_{I}^{\ast }\)が広義の行動戦略ナッシュ均衡であるものとします。プレイヤー\(i\)を任意に選んだ上で、他のすべてのプレイヤーが均衡戦略\(b_{-i}^{\ast }\)を選ぶことを前提とするとき、プレイヤー\(i\)だけが均衡戦略\(b_{i}^{\ast }\)から逸脱して他の行動戦略\(b_{i}\)を選ぶと、広義の行動戦略ナッシュ均衡の定義より、\begin{equation*}F_{i}(b_{i}^{\ast },b_{-i}^{\ast })\geq F_{i}(b_{i},b_{-i}^{\ast })
\end{equation*}という関係が成り立つため、プレイヤー\(i\)はそのような逸脱から得できる可能性はありません。同様の議論は任意のプレイヤーについて成り立ちます。

つまり、プレイヤーたちが広義の行動戦略ナッシュ均衡\(b_{I}^{\ast }\)をプレーしているとき、それぞれのプレイヤー\(i\)は、他のプレイヤーたちが均衡戦略\(b_{-i}^{\ast }\)にしたがう限りにおいて、自分は均衡戦略\(b_{i}^{\ast }\)から逸脱しても得できません。広義の行動戦略ナッシュ均衡ではプレイヤーたちの戦略がお互いに最適戦略になっているため、誰もそこから逸脱する動機を持たないということです。ただし、プレイヤーたちが広義の行動戦略ナッシュ均衡\(b_{I}^{\ast }\)を実際にプレーすることを保証するために、それぞれのプレイヤー\(i\)が、他のプレイヤーたちが均衡戦略\(b_{-i}^{\ast }\)にしたがうことを正しく予想する必要があります。これはどのような理屈によって正当化できるのでしょうか。この点については場を改めて議論します。

プレイヤー\(i\)による広義の最適反応対応\(r_{i}:B_{-i}\twoheadrightarrow B_{i}\)を用いると、プレイヤー\(i\)の行動戦略\(b_{i}^{\ast }\)が他のプレイヤーたちの行動戦略の組\(b_{-i}\)に対する広義の最適反応であることは、\begin{equation*}b_{i}^{\ast }\in r_{i}\left( b_{-i}\right)
\end{equation*}が成り立つこととして表現可能です。したがって、行動戦略の組\(b_{I}^{\ast }=\left( b_{i}^{\ast }\right) _{i\in I}\)が広義の行動戦略ナッシュ均衡であることとは、\begin{equation*}\forall i\in I:b_{i}^{\ast }\in r_{i}\left( b_{-i}^{\ast }\right)
\end{equation*}が成り立つことを意味します。

命題(広義の最適反応対応と広義の行動戦略ナッシュ均衡)
行動戦略を前提とする限界型ゲーム\(\Gamma \)の戦略型\(B\left( \Gamma \right) \)において、それぞれのプレイヤー\(i\in I\)の広義の最適反応対応を\(r_{i}:B_{-i}\twoheadrightarrow B_{i}\)で表す。このとき、行動戦略の組\(b_{I}^{\ast }\in B_{I}\)について、\begin{equation*}\forall i\in I:b_{i}^{\ast }\in r_{i}\left( b_{-i}^{\ast }\right)
\end{equation*}が成り立つことは、\(b_{I}^{\ast }\)が広義の行動戦略ナッシュ均衡であるための必要十分条件である。
例(広義の行動戦略ナッシュ均衡)
繰り返しになりますが、以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。

図:ゲームの木
図:ゲームの木

それぞれのプレイヤーの行動戦略を、\begin{eqnarray*}
b_{1} &=&\left( b_{1}\left( a_{11}|\left\{ x_{0}\right\} \right)
,b_{1}\left( a_{12}|\left\{ x_{0}\right\} \right) \right) =\left(
b_{1},1-b_{1}\right) \\
b_{2} &=&\left( b_{2}\left( a_{21}|\left\{ x_{1},x_{2}\right\} \right)
,b_{2}\left( a_{22}|\left\{ x_{1},x_{2}\right\} \right) \right) =\left(
b_{2},1-b_{2}\right)
\end{eqnarray*}で表記します。ただし、\(b_{1},b_{2}\)はいずれも\(0\)以上\(1\)以下の実数です。先に明らかにしたように、プレイヤー\(1\)の広義の最適反応対応\(r_{1}:B_{2}\twoheadrightarrow B_{1}\)はそれぞれの\(b_{2}\in B_{2}\)に対して、\begin{equation*}r_{1}\left( b_{2}\right) =\left\{
\begin{array}{cc}
\left\{ 0\right\} & \left( if\ b_{2}>\frac{1}{2}\right) \\
\left[ 0,1\right] & \left( if\ b_{2}=\frac{1}{2}\right) \\
\left\{ 1\right\} & \left( if\ b_{2}<\frac{1}{2}\right)
\end{array}\right.
\end{equation*}を定め、プレイヤー\(2\)の広義の最適反応対応\(r_{2}:B_{1}\twoheadrightarrow B_{2}\)はそれぞれの\(b_{1}\in B_{1}\)に対して、\begin{equation*}r_{2}\left( b_{1}\right) =\left\{
\begin{array}{cc}
\left\{ 1\right\} & \left( if\ b_{1}>\frac{1}{2}\right) \\
\left[ 0,1\right] & \left( if\ b_{1}=\frac{1}{2}\right) \\
\left\{ 0\right\} & \left( if\ b_{1}<\frac{1}{2}\right)
\end{array}\right.
\end{equation*}を定めます。

図:行動戦略ナッシュ均衡
図:行動戦略ナッシュ均衡

プレイヤー\(1\)の広義の最適反応対応\(r_{1}\)を上図の青いグラフで、プレイヤー\(2\)の広義の最適反応対応\(r_{2}\)を上図の赤いグラフでそれぞれ図示しました。広義の行動戦略ナッシュ均衡は広義の最適反応の組\(\left( b_{1}^{\ast},b_{2}^{\ast }\right) \)として定義されるため、2つのグラフが交わる点が広義の行動戦略ナッシュ均衡です。したがって、広義の行動戦略ナッシュ均衡は、\begin{equation*}\left( b_{1}^{\ast },b_{2}^{\ast }\right) =\left( \frac{1}{2},\frac{1}{2}\right)
\end{equation*}です。先の命題を用いて確認しましょう。実際、\begin{eqnarray*}
\frac{1}{2} &\in &r_{1}\left( \frac{1}{2}\right) \\
\frac{1}{2} &\in &r_{2}\left( \frac{1}{2}\right)
\end{eqnarray*}が成り立つため、\(\left(b_{1},b_{2}\right) =\left( \frac{1}{2},\frac{1}{2}\right) \)は広義の行動戦略ナッシュ均衡です。

関連知識

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録