WIIS

完備情報の動学ゲーム

クーンの定理(混合戦略と戦略的に同等な行動戦略が存在するための条件)

目次

関連知識

Mailで保存
Xで共有

行動戦略と戦略的に同等な混合戦略は存在するとは限らない

問題としている戦略的状況が完備情報の動学ゲームであるとともに、それが展開型ゲーム\begin{equation*}
\Gamma =\left( I\cup \left\{ 0\right\} ,A,X,>,a,\mathcal{H},i,p,\left\{
u_{i}\right\} _{i\in I}\right)
\end{equation*}として記述されているものとします。ただし、\(I\cup \left\{ 0\right\} \)は自然に相当するプレイヤー\(0\)を含めたプレイヤー集合、\(A\)は行動集合、\(\left( X,>\right) \)はゲームの木、\(a:X\backslash \left\{ x_{0}\right\} \rightarrow A\)はそれぞれの手番へ到達する直前に選択される行動を特定する写像、\(\mathcal{H}\)は情報分割、\(i:\mathcal{H}\rightarrow I\cup \left\{ 0\right\} \)はそれぞれの情報集合において意思決定を行うプレイヤーを特定する写像、\(p:\mathcal{H}_{0}\times A\rightarrow \left[0,1\right] \)は自然による意思決定を記述する確率分布、\(u_{i}:Z\rightarrow \mathbb{R} \)はプレイヤー\(i\)の利得関数です。

混合戦略行動戦略を含めたプレイヤー\(i\)が選び得るすべての戦略からなる集合を、\begin{equation*}\Sigma _{i}=\Delta \left( S_{i}\right) \cup B_{i}
\end{equation*}で表記し、個々の戦略を、\begin{equation*}
\gamma _{i}\in \Sigma _{i}
\end{equation*}で表記します。純粋戦略は特別な混合戦略であるため、\(\Sigma _{i}\)の中にはプレイヤー\(i\)のすべての純粋戦略も含まれています。さて、プレイヤー\(i\)の2つの戦略\(\gamma _{i},\gamma _{i}^{\prime }\in \Sigma _{i}\)が戦略的に同等であることとは、他のプレイヤーたちが選ぶ戦略からなる組\(\gamma _{-i}\in\Sigma _{-i}\)がいかなるものである場合にも、プレイヤー\(i\)が\(\gamma _{i}\)と\(\gamma _{i}^{\prime}\)のどちらを採用してもゲームがそれぞれの頂点\(z\in Z\)へ到達する確率が等しいこと、すなわち、\begin{equation*}\forall \gamma _{-i}\in \Sigma _{-i},\ \forall z\in Z:P\left( z|\gamma
_{i},\gamma _{-i}\right) =P\left( z|\gamma _{i}^{\prime },\gamma
_{-i}\right)
\end{equation*}が成り立つことを意味します。

展開型ゲーム\(\Gamma \)においてプレイヤー\(i\in I\)の混合戦略\(\sigma _{i}\in \Delta \left( S_{i}\right) \)を任意に選んだとき、それと戦略的に同等な行動戦略\(b_{i}\in B_{i}\)は常に存在するのでしょうか。つまり、以下の命題\begin{equation*}\forall \sigma _{i}\in \Delta \left( S_{i}\right) ,\ \exists b_{i}\in B_{i}\
\forall \gamma _{-i}\in \Sigma _{-i},\ \forall z\in Z:P\left( z|\sigma
_{i},\gamma _{-i}\right) =P\left( z|b_{i},\gamma _{-i}\right)
\end{equation*}は成立するのでしょうか。混合戦略と戦略的に同等な行動戦略が存在することが保証されるのであれば、分析対象を行動戦略に限定しても一般性は失われないことになります。

混合戦略と戦略的に同等な行動戦略は存在するとは限りません。以下の例より明らかです。

例(いかなる行動戦略とも戦略的に同等ではない混合戦略)
目的地へ到着するまでの道のりには交差点が2つあり、最初の交差点は直進し、2つ目の交差点は右折する必要があるものとします。2つの交差点の外観は同じであるため、目の前の交差点がどちらであるか外観から判別できないものとします。不注意により、最初の交差点をすでに通り過ぎたか分からなくなってしまいました。このような状況を表す展開型ゲームは以下のゲームの木として表現されます。ただし、初期点\(x_{0}\)は最初の交差点、手番\(x_{1}\)は2番目の交差点にそれぞれ相当し、行動\(a_{11}\)は右折、行動\(a_{12}\)は直進にそれぞれ対応します。頂点\(z_{2}\)が目的地です。利得は省略しています。

図:展開型ゲーム
図:展開型ゲーム

プレイヤーがどちらの交差点に直面しているか判別できない状況は、2つの手番\(x_{0},x_{1}\)が同一の情報集合\(H_{1}\)の要素であることとして表現されています。これらの手番において選択可能な行動はともに\(a_{11},a_{12}\)の2つです。プレイヤー\(1\)の情報集合からなる集合族は、\begin{equation*}\mathcal{H}_{1}=\left\{ H_{1}\right\}
\end{equation*}であり、純粋戦略集合は、\begin{equation*}
S_{1}=A\left( H_{1}\right) =\left\{ a_{11},a_{12}\right\}
\end{equation*}です。プレイヤー\(1\)の混合戦略\(\sigma _{1}\)が、\begin{equation*}\sigma _{1}\left( a_{11}\right) =\sigma _{1}\left( a_{12}\right) =\frac{1}{2}
\end{equation*}を満たすものとします。プレイヤー\(1\)が以上の混合戦略\(\sigma _{1}\)を選ぶ場合、ゲームが始まると確率\(\frac{1}{2}\)で純粋戦略\(a_{11}\)が選ばれ、確率\(\frac{1}{2}\)で純粋戦略\(a_{12}\)が選ばれます。\(a_{11}\)が選ばれた場合には頂点\(z_{1}\)へ到達する一方、\(a_{12}\)が選ばれた場合には移動先の\(x_{1}\)において再び\(a_{12}\)が選ばれ、その結果\(z_{3}\)へ到達します。したがって、この混合戦略\(\sigma _{1}\)のもとでゲームがそれぞれの頂点に到達する確率は、\begin{eqnarray*}P\left( z_{1}|\sigma _{1}\right) &=&\frac{1}{2} \\
P\left( z_{2}|\sigma _{1}\right) &=&0 \\
P\left( z_{3}|\sigma _{1}\right) &=&\frac{1}{2}
\end{eqnarray*}となります。さて、この混合戦略\(\sigma _{1}\)と戦略的に同等な行動戦略は存在するでしょうか。プレイヤー\(1\)の行動戦略\(b_{1}\)を、\begin{eqnarray*}b_{1}\left( a_{11}|H_{1}\right) &=&b \\
b_{1}\left( a_{12}|H_{2}\right) &=&1-b
\end{eqnarray*}と表記します。ただし、\(0\leq b\leq 1\)です。プレイヤー\(1\)が行動戦略\(b_{1}\)を選ぶ場合、ゲームが始まると手番\(x_{0}\)において確率\(b\)で\(a_{11}\)を選び確率\(1-b\)で\(a_{12}\)を選びます。\(a_{11}\)が選ばれた場合には頂点\(z_{1}\)へ到達する一方、\(a_{12}\)が選ばれた場合には移動先の\(x_{1}\)において再び確率\(b\)で\(a_{11}\)を選び確率\(1-b\)で\(a_{12}\)を選びます。したがって、行動戦略\(b_{1}\)のもとでゲームがそれぞれの頂点に到達する確率は、\begin{eqnarray*}P\left( z_{1}|b_{1}\right) &=&b \\
P\left( z_{2}|b_{1}\right) &=&\left( 1-b\right) b \\
P\left( z_{3}|b_{1}\right) &=&\left( 1-b\right) ^{2}
\end{eqnarray*}となります。\(b_{1}\)が\(\sigma _{1}\)と戦略的に同等であるためには、\begin{equation*}\left\{
\begin{array}{r}
b=\frac{1}{2} \\
\left( 1-b\right) b=0 \\
\left( 1-b\right) =\frac{1}{2}\end{array}\right.
\end{equation*}である必要がありますが、これらの条件を満たす\(b\)は存在せず、したがって\(b_{1}\)は\(\sigma _{1}\)と戦略的に同等ではありません。したがって、先の混合戦略\(\sigma _{1}\)と戦略的に同等な行動戦略は存在しないことが明らかになりました。

上の例では、同一の経路上に存在する2つの手番\(x_{0},x_{1}\)が同一の情報集合\(H_{1}\)に属しているため、プレイヤー\(1\)は自身が\(x_{0}\)と\(x_{1}\)のどちらにいるかを識別できません。つまり、プレイヤー\(1\)は自身が\(x_{0}\)において行った意思決定を記憶していないため、これは不完全記憶ゲームです。不完全記憶ゲームにおいては、いかなる行動戦略とも戦略的に同等ではない混合戦略が存在し得ることが明らかになりました。

 

完全記憶ゲームの性質

プレイヤーの混合戦略に対して、それと戦略的に同等な行動戦略は存在するとは限らないことが明らかになりました。では、混合戦略と戦略的に同等な行動戦略が存在することを保証するための十分条件は存在するのでしょうか。つまり、どのような条件が満たされていれば、混合戦略と戦略的に同等な行動戦略が必ず存在することを保証できるでしょうか。

先に例を通じて明らかにしたように、不完全記憶ゲームにおいては、いかなる行動戦略とも戦略的に同等ではない混合戦略が存在し得ます。逆に、完全記憶ゲームにおいては、混合戦略と戦略的に同等な行動戦略が必ず存在することが保証されます。ただし、展開型ゲーム\(\Gamma \)が完全記憶ゲームであることとは、以下の条件を満たすこととして定義されます

  1. 頂点\(z\in Z\)と情報集合\(H\in \mathcal{H}\)をそれぞれ任意に選んだとき、頂点\(z\)への経路上にあり、なおかつ情報集合\(H\)の要素でもあるような手番の個数は\(0\)または\(1\)である。
  2. プレイヤー\(i\in I\)と、プレイヤー\(i\)の情報集合\(H\in \mathcal{H}_{i}\)およびその要素である手番\(x,\hat{x}\in H\)をそれぞれ任意に選ぶ。初期点\(x_{0}\)から手番\(x\)への経路上にあるノードの中でもプレイヤー\(i\)が意思決定を行う手番を初期点から近い順に、\begin{equation*}x_{i}^{1},x_{i}^{2},\cdots ,x_{i}^{L}\end{equation*}で表記する。また、初期点\(x_{0}\)から手番\(\hat{x}\)への経路上にあるノードの中でもプレイヤー\(i\)が意思決定を行う手番を初期点から近い順に、\begin{equation*}\hat{x}_{i}^{1},\hat{x}_{i}^{2},\cdots ,\hat{x}_{i}^{\hat{L}}
    \end{equation*}で表記する。このとき、\begin{eqnarray*}
    &&\left( a\right) \ L=\hat{L} \\
    &&\left( b\right) \ \forall l\in \left\{ 1,\cdots ,L\right\} :a_{i}\left(
    x_{i}^{l}\rightarrow x\right) =a_{i}\left( \hat{x}_{i}^{l}\rightarrow \hat{x}\right) \\
    &&\left( c\right) \ \forall l\in \left\{ 1,\cdots ,L\right\} :H\left(
    x_{i}^{l}\right) =H\left( \hat{x}_{i}^{l}\right)
    \end{eqnarray*}が成り立つ。ただし、\(a_{i}\left( x_{i}^{l}\rightarrow x\right) \)はプレイヤー\(i\)が手番\(x\)へ到達するために手番\(x_{i}^{l}\)において選択すべき行動であり、\(a_{i}\left( \hat{x}_{i}^{l}\rightarrow \hat{x}\right) \)はプレイヤー\(i\)が手番\(\hat{x}\)へ到達するために手番\(\hat{x}_{i}^{l}\)において選択すべき行動である。また、\(H\left(x_{i}^{l}\right) \)は手番\(x_{i}^{l}\)が属する情報集合であり、\(H\left( \hat{x}_{i}^{l}\right) \)は手番\(\hat{x}_{i}^{l}\)が属する情報集合である。

条件1は、任意のプレイヤーについて、そのプレイヤーが意思決定を行う複数の手番が同一経路上に存在する場合、それらが同一の情報集合に属するような事態は起こり得ないことを意味します。条件2は、プレイヤーと、そのプレイヤーが意思決定を行う情報集合、そしてその情報集合に属する手番\(x,\hat{x}\)をそれぞれ任意に選んだとき、初期点\(x_{0}\)から手番\(x\)へ到達するために選択すべき行動の列と、初期点\(x_{0}\)から手番\(\hat{x}\)へ到達するために選択すべき行動の列が完全に一致することを意味します。同一の情報集合上にある手番へは、常に同じ行動の列のもとで到達する必要があるということです。

ノード\(x\in X\)への経路上に存在するプレイヤー\(i\)の行動からなる集合を\(E_{i}\left( x\right) \)で表記します。\(E_{i}\left( x\right) \not=\phi \)である場合、その要素であるそれぞれの行動\(a\in E_{i}\left( x\right) \)に対して、\(a\)が選択肢として与えられている情報集合を\(H\left( a\right) \in \mathcal{H}_{i}\)で表記します。\(a\in A\left( h\left( a\right) \right) \)です。ゲームがノード\(x\)へ到達可能であるためにはプレイヤー\(i\)は\(E_{i}\left( x\right) \)上の行動をすべて選択する必要があるため、以下の条件\begin{equation*}\forall a\in E_{i}\left( x\right) :s_{i}\left( H\left( a\right) \right) =a
\end{equation*}を満たす純粋戦略\(s_{i}\)を選ぶ必要があります。このような純粋戦略からなる集合を、\begin{equation*}S_{i}\left( x\right) =\left\{ s_{i}\in S_{i}\ |\ \forall a\in E_{i}\left(
x\right) :s_{i}\left( H\left( a\right) \right) =a\right\}
\end{equation*}で表記します。一方、\(E_{i}\left( x\right) =\phi \)である場合には、\(S_{i}\left( x\right) \)を定義する命題\begin{equation*}\forall a\in E_{i}\left( x\right) :x_{i}\left( H\left( a\right) \right) =a
\end{equation*}は恒真であるため、\begin{equation*}
S_{i}\left( x\right) =S_{i}
\end{equation*}となります。つまり、ノード\(x\)への経路上にプレイヤー\(i\)の行動が存在しない場合、プレイヤー\(i\)の任意の純粋戦略のもとで\(x\)は到達可能であるものとみなします。

プレイヤー\(i\)の情報集合\(H_{i}\in \mathcal{H}_{i}\)から2つの手番\(x_{i},x_{i}^{\prime }\in H_{i}\)を任意に選んだとき、完全記憶ゲームのもとでは、\begin{equation*}S_{i}\left( x_{i}\right) =S_{i}\left( x_{i}^{\prime }\right)
\end{equation*}が成り立つことが保証されます。つまり、\(x_{i}\)へ到達可能であるために選択すべき純粋戦略と、\(x_{i}^{\prime }\)へ到達可能であるために選択すべき純粋戦略が一致するということです。

命題(完全記憶ゲームの性質)
展開型ゲーム\(\Gamma \)が完全記憶ゲームであるものとする。この場合、プレイヤー\(i\in I\)と情報集合\(H_{i}\in \mathcal{H}_{i}\)および手番\(x_{i},x_{i}^{\prime }\in H_{i}\)をそれぞれ任意に選んだとき、\begin{equation*}S_{i}\left( x_{i}\right) =S_{i}\left( x_{i}^{\prime }\right)
\end{equation*}が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

不完全記憶ゲームにおいて上の命題の主張は成り立つとは限りません。以下の例より明らかです。

例(不完全記憶ゲーム)
以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。ただし、利得を省略しています。

図:展開型ゲーム
図:展開型ゲーム

同一の情報集合\(\left\{x_{2},x_{3}\right\} \)に属する手番\(x_{2},x_{3}\)に注目したとき、初期点\(x_{0}\)から\(x_{2}\)へ到達するためにプレイヤー\(1\)が選択すべき行動の列が\(a_{11}\)である一方、初期点\(x_{0}\)から\(x_{3}\)へ到達するためにプレイヤー\(1\)が選択すべき行動の列が\(a_{12}\)であり、両者は異なるため、これは不完全記憶ゲームです。プレイヤー\(1\)の純粋戦略集合は、\begin{equation*}S_{1}=\left\{ \left( a_{11},a_{13}\right) ,\left( a_{11},a_{14}\right)
,\left( a_{12},a_{13}\right) ,\left( a_{12},a_{14}\right) \right\}
\end{equation*}ですが、\begin{eqnarray*}
S_{1}\left( x_{2}\right) &=&\left\{ \left( a_{11},a_{13}\right) ,\left(
a_{11},a_{14}\right) \right\} \\
S_{1}\left( x_{3}\right) &=&\left\{ \left( a_{12},a_{13}\right) ,\left(
a_{12},a_{14}\right) \right\}
\end{eqnarray*}であるため、\begin{equation*}
S_{1}\left( x_{2}\right) \not=S_{1}\left( x_{3}\right)
\end{equation*}であり、したがって先の命題の主張は成り立ちません。

 

混合戦略が生成する行動戦略

混合戦略が与えられたとき、それと戦略的に同等になる行動戦略の候補を以下で提示します。

プレイヤー\(i\in I\)の混合戦略\(\sigma _{i}\in \Delta \left( S_{i}\right) \)が与えられているものとします。ここから行動戦略\(b_{i}\)を定義するためには、それぞれの情報集合\(H_{i}\in \mathcal{H}_{i}\)における局所戦略\(b_{i}\left( \cdot|H_{i}\right) \)を定義する必要があります。局所戦略を定義するに先立ち、まずはプレイヤー\(i\)の情報集合を以下の要領で2つの種類に分類します。

情報集合\(H_{i}\in \mathcal{H}_{i}\)に属する手番\(x\in H_{i}\)が与えられたとき、混合戦略\(\sigma _{i}\)のもとでゲームが\(x\)へ到達可能であるためには、先に定義した集合\begin{equation*}S_{i}\left( x\right) =\left\{ s_{i}\in S_{i}\ |\ \forall a\in E_{i}\left(
x\right) :s_{i}\left( H\left( a\right) \right) =a\right\}
\end{equation*}に属する少なくとも1つの純粋戦略に対して正の確率を付与する必要があります。つまり、混合戦略\(\sigma _{i}\)が以下の条件\begin{equation}P\left( x|\sigma _{i}\right) =\sum_{s_{i}\in S_{i}\left( x\right) }\sigma
_{i}\left( s_{i}\right) >0 \quad \cdots (1)
\end{equation}を満たす場合には\(\sigma _{i}\)のもとで\(x\)は到達可能である一方、以下の条件\begin{equation}P\left( x|\sigma _{i}\right) =\sum_{s_{i}\in S_{i}\left( x\right) }\sigma
_{i}\left( s_{i}\right) =0 \quad \cdots (2)
\end{equation}を満たす場合には\(\sigma _{i}\)のもとで\(x\)は到達不可能です。加えて、先の命題より、同一の情報集合に属する2つの手番\(x_{i},x_{i}^{\prime }\in H_{i}\)を任意に選んだとき、\begin{equation*}S_{i}\left( x_{i}\right) =S_{i}\left( x_{i}^{\prime }\right)
\end{equation*}が成り立つため、情報集合\(H_{i}\)の中からどの手番\(x\in H_{i}\)を選んだ場合でも、\begin{equation*}P\left( x|\sigma _{i}\right) =\sum_{s_{i}\in S_{i}\left( x\right) }\sigma
_{i}\left( s_{i}\right)
\end{equation*}は一定です。したがって、条件\(\left( 1\right) ,\left( 2\right) \)は、プレイヤー\(i\)のノードを分類する基準であると同時に、プレイヤー\(i\)の情報集合を分類する基準としても機能します。

以上を踏まえた上で、まずは、与えられた混合戦略\(\sigma _{i}\)のもとで到達可能な情報集合\(H_{i}\in \mathcal{H}_{i}\)における局所戦略\(b_{i}\left( \cdot |H_{i}\right) \)を定義します。つまり、手番\(x\in H_{i}\)について、\begin{equation*}P\left( x|\sigma _{i}\right) =\sum_{s_{i}\in S_{i}\left( x\right) }\sigma
_{i}\left( s_{i}\right) >0
\end{equation*}を満たす情報集合\(H_{i}\)における局所戦略\(b_{i}\left(\cdot |H_{i}\right) \)を定義するということです。さて、混合戦略\(\sigma _{i}\)のもとで情報集合\(H_{i}\)において行動\(a\in A\left( H_{i}\right) \)が選ばれる確率は、\begin{equation*}\sum_{s_{i}\in \left\{ s_{i}^{\prime }\in S_{i}\left( x\right)
|s_{i}^{\prime }\left( H_{i}\right) =a\right\} }\sigma _{i}\left(
s_{i}\right)
\end{equation*}です。したがって、混合戦略\(\sigma _{i}\)のもとで情報集合\(H_{i}\in \mathcal{H}_{i}\)へ到達し得るという条件のもと、\(H_{i}\)において行動\(a\in A\left( H_{i}\right) \)が選ばれる条件付き確率は、\begin{equation*}\frac{\sum\limits_{s_{i}\in \left\{ s_{i}^{\prime }\in S_{i}\left( x\right)
|s_{i}^{\prime }\left( H_{i}\right) =a\right\} }\sigma _{i}\left(
s_{i}\right) }{\sum\limits_{s_{i}\in S_{i}\left( x\right) }\sigma \left(
s_{i}\right) }
\end{equation*}となります。分母が正である状況を想定しているため、この条件付き確率は常に定まります。そこで、これを局所戦略の定義とします。改めて整理すると、\(x\in H_{i}\)について、\begin{equation*}\sum_{s_{i}\in S_{i}\left( x\right) }\sigma _{i}\left( s_{i}\right) >0
\end{equation*}を満たす\(H_{i}\in \mathcal{H}_{i}\)が与えられたとき、そこでの局所戦略\(b_{i}\left( \cdot|H_{i}\right) :A\left( H_{i}\right) \rightarrow \mathbb{R} \)は、それぞれの行動\(a\in A\left( H_{i}\right) \)に対して、以下の確率\begin{equation*}b_{i}\left( a|H_{i}\right) =\frac{\sum\limits_{s_{i}\in \left\{
s_{i}^{\prime }\in S_{i}\left( x\right) |s_{i}^{\prime }\left( H_{i}\right)
=a\right\} }\sigma _{i}\left( s_{i}\right) }{\sum\limits_{s_{i}\in
S_{i}\left( x\right) }\sigma \left( s_{i}\right) }
\end{equation*}を定めるものとして定義されます。

続いて、与えられた混合戦略\(\sigma _{i}\)のもとで到達不可能な情報集合\(H_{i}\in \mathcal{H}_{i}\)における局所戦略\(b_{i}\left( \cdot |H_{i}\right) \)を定義します。つまり、手番\(x\in H_{i}\)について、\begin{equation*}P\left( x|\sigma _{i}\right) =\sum_{s_{i}\in S_{i}\left( x\right) }\sigma
_{i}\left( s_{i}\right) =0
\end{equation*}を満たす情報集合\(H_{i}\)における局所戦略\(b_{i}\left(\cdot |H_{i}\right) \)を定義するということです。\(\sigma _{i}\)のもとで到達不可能な情報集合\(H_{i}\)に関しては、そこでの局所戦略をどのように定めてもゲームの帰結に影響を与えません。そこで、この場合の局所戦略\(b_{i}\left( \cdot |H_{i}\right) :A\left(H_{i}\right) \rightarrow \mathbb{R} \)は、それぞれの行動\(a\in A\left( H_{i}\right) \)に対して、以下の確率\begin{equation*}b_{i}\left( a|H_{i}\right) =\frac{1}{\left\vert A\left( H_{i}\right)
\right\vert }
\end{equation*}を定めるものとして定義します。情報集合の後ろには別の情報集合か頂点が存在するため\(\left\vert A\left( H_{i}\right) \right\vert\geq 1\)であり、したがってこの確率は常に定まります。

以上のルールにもとづいてプレイヤー\(i\)の混合戦略\(\sigma _{i}\)から定義される行動戦略を\(\sigma _{i}\)から生成される行動戦略(behavior strategy generated by \(\sigma _{i}\))と呼び、これを、\begin{equation*}b_{i}\left[ \sigma _{i}\right] =\left( b_{i}\left[ \sigma _{i}\right] \left(
\cdot |H_{i}\right) \right) _{H_{i}\in \mathcal{H}_{i}}
\end{equation*}で表記します。改めて整理すると、\(x\in H_{i}\)について、\begin{equation*}\sum_{s_{i}\in S_{i}\left( x\right) }\sigma \left( s_{i}\right) >0
\end{equation*}を満たす情報集合\(H_{i}\in \mathcal{H}_{i}\)における局所戦略\(b_{i}\left[ \sigma _{i}\right] \left( \cdot |H_{i}\right) :A\left(H_{i}\right) \rightarrow \mathbb{R} \)がそれぞれの行動\(a\in A\left( H_{i}\right) \)に対して定める確率は、\begin{equation*}b_{i}\left[ \sigma _{i}\right] \left( a|H_{i}\right) =\frac{\sum\limits_{s_{i}\in \left\{ s_{i}^{\prime }\in S_{i}\left( x\right)
|s_{i}^{\prime }\left( H_{i}\right) =a\right\} }\sigma _{i}\left(
s_{i}\right) }{\sum\limits_{s_{i}\in S_{i}\left( x\right) }\sigma \left(
s_{i}\right) }
\end{equation*}である一方、\(x\in H_{i}\)について、\begin{equation*}\sum_{s_{i}\in S_{i}\left( x\right) }\sigma \left( s_{i}\right) =0
\end{equation*}を満たす情報集合\(H_{i}\in \mathcal{H}_{i}\)における局所戦略\(b_{i}\left[ \sigma _{i}\right] \left( \cdot |H_{i}\right) :A\left(H_{i}\right) \rightarrow \mathbb{R} \)がそれぞれの行動\(a\in A\left( \left\{ x\right\} \right) \)に対して定める確率は、\begin{equation*}b_{i}\left[ \sigma _{i}\right] \left( a|H_{i}\right) =\frac{1}{\left\vert
A\left( H_{i}\right) \right\vert }
\end{equation*}です。

例(混合戦略から生成される行動戦略)
以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。ただし、利得を省略しています。

図:展開型ゲーム
図:展開型ゲーム

プレイヤー\(1\)の情報集合からなる集合族は、\begin{equation*}\mathcal{H}_{1}=\left\{ \left\{ x_{0}\right\} \right\}
\end{equation*}であるため、プレイヤー\(1\)の純粋戦略集合は、\begin{eqnarray*}S_{1} &=&A\left( \left\{ x_{0}\right\} \right) \\
&=&\left\{ a_{11},a_{12}\right\}
\end{eqnarray*}です。プレイヤー\(1\)の混合戦略として、\begin{eqnarray*}\sigma _{1} &=&\left( \sigma _{1}\left( a_{11}\right) ,\sigma _{1}\left(
a_{12}\right) \right) \\
&=&\left( \frac{1}{2},\frac{1}{2}\right)
\end{eqnarray*}に注目します。\(\sigma _{1}\)が生成する行動戦略を\(b_{1}\left[ \sigma _{1}\right] \)で表記します。\(\sigma _{1}\)のもとで\(\left\{x_{0}\right\} \)は到達可能であるとともに、\begin{equation*}E\left( x_{0}\right) =\phi
\end{equation*}であるため、\begin{equation*}
S_{1}\left( x_{0}\right) =S_{1}
\end{equation*}となります。したがって、\(\left\{ x_{0}\right\} \)における局所戦略\(b_{1}\left[ \sigma _{1}\right]\left( \cdot |\left\{ x_{0}\right\} \right) \)のもとでは、\begin{eqnarray*}b_{1}\left[ \sigma _{1}\right] \left( a_{11}|\left\{ x_{0}\right\} \right)
&=&\frac{\sum\limits_{s_{1}\in \left\{ s_{1}^{\prime }\in S_{1}\left(
x_{0}\right) |s_{1}^{\prime }\left( \left\{ x_{0}\right\} \right)
=a_{11}\right\} }\sigma \left( s_{1}\right) }{\sum\limits_{s_{1}\in
S_{1}\left( x_{0}\right) }\sigma \left( s_{1}\right) } \\
&=&\frac{\sum\limits_{s_{1}\in \left\{ s_{1}^{\prime }\in
S_{1}|s_{1}^{\prime }\left( \left\{ x_{0}\right\} \right) =a_{11}\right\}
}\sigma \left( s_{1}\right) }{\sum\limits_{s_{1}\in S_{1}}\sigma \left(
s_{1}\right) }\quad \because S_{1}\left( x_{0}\right) =S_{1} \\
&=&\frac{\sigma \left( a_{11}\right) }{\sigma \left( a_{11}\right) +\sigma
\left( a_{12}\right) } \\
&=&\frac{\frac{1}{2}}{\frac{1}{2}+\frac{1}{2}} \\
&=&\frac{1}{2}
\end{eqnarray*}であり、\begin{eqnarray*}
b_{1}\left[ \sigma _{1}\right] \left( a_{12}|\left\{ x_{0}\right\} \right)
&=&\frac{\sum\limits_{s_{1}\in \left\{ s_{1}^{\prime }\in S_{1}\left(
x_{0}\right) |s_{1}^{\prime }\left( \left\{ x_{0}\right\} \right)
=a_{12}\right\} }\sigma \left( s_{1}\right) }{\sum\limits_{s_{1}\in
S_{1}\left( x_{0}\right) }\sigma \left( s_{1}\right) } \\
&=&\frac{\sum\limits_{s_{1}\in \left\{ s_{1}^{\prime }\in
S_{1}|s_{1}^{\prime }\left( \left\{ x_{0}\right\} \right) =a_{12}\right\}
}\sigma \left( s_{1}\right) }{\sum\limits_{s_{1}\in S_{1}}\sigma \left(
s_{1}\right) }\quad \because S_{1}\left( x_{0}\right) =S_{1} \\
&=&\frac{\sigma \left( a_{12}\right) }{\sigma \left( a_{11}\right) +\sigma
\left( a_{12}\right) } \\
&=&\frac{\frac{1}{2}}{\frac{1}{2}+\frac{1}{2}} \\
&=&\frac{1}{2}
\end{eqnarray*}となります。続いて、プレイヤー\(2\)の情報集合からなる集合族は、\begin{equation*}\mathcal{H}_{2}=\left\{ \left\{ x_{1}\right\} ,\left\{ x_{2}\right\}
\right\}
\end{equation*}であるため、プレイヤー\(2\)の純粋戦略集合は、\begin{eqnarray*}S_{2} &=&A\left( \left\{ x_{1}\right\} \right) \times A\left( \left\{
x_{2}\right\} \right) \\
&=&\left\{ \left( a_{21},a_{21}\right) ,\left( a_{21},a_{22}\right) ,\left(
a_{22},a_{21}\right) ,\left( a_{22},a_{22}\right) \right\}
\end{eqnarray*}です。プレイヤー\(2\)の混合戦略として、\begin{eqnarray*}\sigma _{2} &=&\left( \sigma _{2}\left( a_{21},a_{21}\right) ,\sigma
_{2}\left( a_{21},a_{22}\right) ,\sigma _{2}\left( a_{22},a_{21}\right)
,\sigma _{2}\left( a_{22},a_{22}\right) \right) \\
&=&\left( \frac{1}{2},0,0,\frac{1}{2}\right)
\end{eqnarray*}に注目します。\(\sigma _{2}\)が生成する行動戦略を\(b_{2}\left[ \sigma _{2}\right] \)で表記します。\(\sigma _{1}\)のもとで\(\left\{x_{1}\right\} \)は到達可能であるとともに、\begin{equation*}E\left( x_{1}\right) =\phi
\end{equation*}であるため、\begin{equation*}
S_{2}\left( x_{1}\right) =S_{2}
\end{equation*}となります。したがって、\(\left\{ x_{1}\right\} \)における局所戦略\(b_{2}\left[ \sigma _{2}\right]\left( \cdot |\left\{ x_{1}\right\} \right) \)のもとでは、\begin{eqnarray*}b_{2}\left[ \sigma _{2}\right] \left( a_{21}|\left\{ x_{1}\right\} \right)
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in S_{2}\left(
x_{1}\right) |s_{2}^{\prime }\left( \left\{ x_{1}\right\} \right)
=a_{21}\right\} }\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in
S_{2}\left( x_{1}\right) }\sigma \left( s_{2}\right) } \\
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in
S_{2}|s_{2}^{\prime }\left( \left\{ x_{1}\right\} \right) =a_{21}\right\}
}\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in S_{2}}\sigma \left(
s_{2}\right) }\quad \because S_{2}\left( x_{1}\right) =S_{2} \\
&=&\frac{\sigma _{2}\left( a_{21},a_{21}\right) +\sigma _{2}\left(
a_{21},a_{22}\right) }{\sigma _{2}\left( a_{21},a_{21}\right) +\sigma
_{2}\left( a_{21},a_{22}\right) +\sigma _{2}\left( a_{22},a_{21}\right)
+\sigma _{2}\left( a_{22},a_{22}\right) } \\
&=&\frac{\frac{1}{2}+0}{\frac{1}{2}+0+0+\frac{1}{2}} \\
&=&\frac{1}{2}
\end{eqnarray*}であり、\begin{eqnarray*}
b_{2}\left[ \sigma _{2}\right] \left( a_{22}|\left\{ x_{1}\right\} \right)
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in S_{2}\left(
x_{1}\right) |s_{2}^{\prime }\left( \left\{ x_{1}\right\} \right)
=a_{22}\right\} }\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in
S_{2}\left( x_{1}\right) }\sigma \left( s_{2}\right) } \\
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in
S_{2}|s_{2}^{\prime }\left( \left\{ x_{1}\right\} \right) =a_{22}\right\}
}\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in S_{2}}\sigma \left(
s_{2}\right) }\quad \because S_{2}\left( x_{1}\right) =S_{2} \\
&=&\frac{\sigma _{2}\left( a_{21},a_{21}\right) +\sigma _{2}\left(
a_{21},a_{22}\right) }{\sigma _{2}\left( a_{21},a_{21}\right) +\sigma
_{2}\left( a_{21},a_{22}\right) +\sigma _{2}\left( a_{22},a_{21}\right)
+\sigma _{2}\left( a_{22},a_{22}\right) } \\
&=&\frac{\frac{1}{2}+0}{\frac{1}{2}+0+0+\frac{1}{2}} \\
&=&\frac{1}{2}
\end{eqnarray*}であり、\begin{eqnarray*}
b_{2}\left[ \sigma _{2}\right] \left( a_{21}|\left\{ x_{1}\right\} \right)
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in S_{2}\left(
x_{1}\right) |s_{2}^{\prime }\left( \left\{ x_{1}\right\} \right)
=a_{21}\right\} }\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in
S_{1}\left( x_{1}\right) }\sigma \left( s_{2}\right) } \\
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in
S_{2}|s_{2}^{\prime }\left( \left\{ x_{1}\right\} \right) =a_{21}\right\}
}\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in S_{2}}\sigma \left(
s_{2}\right) }\quad \because S_{2}\left( x_{1}\right) =S_{2} \\
&=&\frac{\sigma _{2}\left( a_{22},a_{21}\right) +\sigma _{2}\left(
a_{22},a_{22}\right) }{\sigma _{2}\left( a_{21},a_{21}\right) +\sigma
_{2}\left( a_{21},a_{22}\right) +\sigma _{2}\left( a_{22},a_{21}\right)
+\sigma _{2}\left( a_{22},a_{22}\right) } \\
&=&\frac{0+\frac{1}{2}}{\frac{1}{2}+0+0+\frac{1}{2}} \\
&=&\frac{1}{2}
\end{eqnarray*}となります。また、\(\sigma _{1}\)のもとで\(\left\{ x_{2}\right\} \)は到達可能であるとともに、\begin{equation*}E\left( x_{2}\right) =\phi
\end{equation*}であるため、\begin{equation*}
S_{2}\left( x_{2}\right) =S_{2}
\end{equation*}となります。したがって、\(\left\{ x_{2}\right\} \)における局所戦略\(b_{2}\left[ \sigma _{2}\right]\left( \cdot |\left\{ x_{2}\right\} \right) \)のもとでは、\begin{eqnarray*}b_{2}\left[ \sigma _{2}\right] \left( a_{21}|\left\{ x_{2}\right\} \right)
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in S_{2}\left(
x_{2}\right) |s_{2}^{\prime }\left( \left\{ x_{2}\right\} \right)
=a_{21}\right\} }\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in
S_{2}\left( x_{2}\right) }\sigma \left( s_{2}\right) } \\
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in
S_{2}|s_{2}^{\prime }\left( \left\{ x_{2}\right\} \right) =a_{21}\right\}
}\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in S_{2}}\sigma \left(
s_{2}\right) }\quad \because S_{2}\left( x_{2}\right) =S_{2} \\
&=&\frac{\sigma _{2}\left( a_{21},a_{21}\right) +\sigma _{2}\left(
a_{22},a_{21}\right) }{\sigma _{2}\left( a_{21},a_{21}\right) +\sigma
_{2}\left( a_{21},a_{22}\right) +\sigma _{2}\left( a_{22},a_{21}\right)
+\sigma _{2}\left( a_{22},a_{22}\right) } \\
&=&\frac{\frac{1}{2}+0}{\frac{1}{2}+0+0+\frac{1}{2}} \\
&=&\frac{1}{2}
\end{eqnarray*}であり、\begin{eqnarray*}
b_{2}\left[ \sigma _{2}\right] \left( a_{22}|\left\{ x_{2}\right\} \right)
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in S_{2}\left(
x_{2}\right) |s_{2}^{\prime }\left( \left\{ x_{2}\right\} \right)
=a_{22}\right\} }\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in
S_{2}\left( x_{2}\right) }\sigma \left( s_{2}\right) } \\
&=&\frac{\sum\limits_{s_{2}\in \left\{ s_{2}^{\prime }\in
S_{2}|s_{2}^{\prime }\left( \left\{ x_{2}\right\} \right) =a_{22}\right\}
}\sigma \left( s_{2}\right) }{\sum\limits_{s_{2}\in S_{2}}\sigma \left(
s_{2}\right) }\quad \because S_{2}\left( x_{2}\right) =S_{2} \\
&=&\frac{\sigma _{2}\left( a_{21},a_{22}\right) +\sigma _{2}\left(
a_{22},a_{22}\right) }{\sigma _{2}\left( a_{21},a_{21}\right) +\sigma
_{2}\left( a_{21},a_{22}\right) +\sigma _{2}\left( a_{22},a_{21}\right)
+\sigma _{2}\left( a_{22},a_{22}\right) } \\
&=&\frac{0+\frac{1}{2}}{\frac{1}{2}+0+0+\frac{1}{2}} \\
&=&\frac{1}{2}
\end{eqnarray*}となります。

 

混合戦略と戦略的に同等な行動戦略が存在するための十分条件

混合戦略\(\sigma _{i}\)から生成される行動戦略\(b_{i}\left[ \sigma_{i}\right] \)は行動戦略としての要件を満たすとともに、\(b_{i}\left[ \sigma _{i}\right] \)は\(\sigma _{i}\)と戦略的に同等であることが保証されます。

命題(混合戦略と戦略的に同等な行動戦略が存在するための十分条件)
展開型ゲーム\(\Gamma \)が完全記憶ゲームであるものとする。以上の条件のもとでは、プレイヤー\(i\in I\)の混合戦略\(\sigma _{i}\in \Delta \left( S_{i}\right) \)を任意に選んだとき、それと戦略的に同等な行動戦略\(b_{i}\in B_{i}\)が存在する。具体的には、\(\sigma _{i}\)から生成される行動戦略\(b_{i}\left[ \sigma _{i}\right] \)はそのような行動戦略である。
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

クーンの定理

混合戦略と戦略的に同等な行動戦略が存在するための十分条件が明らかになりました。命題を再掲します。

命題(混合戦略と戦略的に同等な行動戦略が存在するための十分条件)
展開型ゲーム\(\Gamma \)が完全記憶ゲームであるものとする。以上の条件のもとでは、プレイヤー\(i\in I\)の混合戦略\(\sigma _{i}\in \Delta \left( S_{i}\right) \)を任意に選んだとき、それと戦略的に同等な行動戦略\(b_{i}\in B_{i}\)が存在する。具体的には、\(\sigma _{i}\)から生成される行動戦略\(b_{i}\left[ \sigma _{i}\right] \)はそのような行動戦略である。

以前に示したように、逆に、行動戦略と戦略的に同等な混合戦略が存在するための十分条件は以下の通りです。

命題(行動戦略と戦略的に同等な混合戦略が存在するための十分条件)
任意の手番\(x\in X\backslash Z\)において少なくとも2つの行動が選択可能であるような展開型ゲーム\(\Gamma \)が与えられているものとする。加えて、プレイヤー\(i\)の情報集合\(H_{i}\in \mathcal{H}_{i}\)と頂点\(z\in Z\)をそれぞれ任意に選んだとき、\(H_{i}\)は\(z\)への経路上に存在する複数の手番を要素として持たないものとする。以上の条件のもとでは、プレイヤー\(i\in I\)の行動戦略\(b_{i}\in B_{i}\)を任意に選んだとき、それと戦略的に同等な混合戦略\(\sigma _{i}\in \Delta\left( S_{i}\right) \)が存在する。具体的には、\(b_{i}\)から生成される混合戦略\(\sigma _{i}\left[ b_{i}\right] \)はそのような混合戦略である。

以上の2つの命題において展開型ゲーム\(\Gamma \)に要求されている条件どうしを比べた場合、どちらのほうが条件として厳しいでしょうか。以下の例に注目します。

例(不完全記憶ゲーム)
以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。ただし、利得を省略しています。

図:展開型ゲーム
図:展開型ゲーム

先に示したように、これは不完全記憶ゲームであるため、最初の命題が要求する条件を満たしません。その一方で、このゲーム\(\Gamma \)ではすべての手番において2個ずつの行動が選択可能であるとともに、すべての情報集合は特定の頂点への経路上に存在する複数の手番を含まないため、2番目の命題が要求する条件は満たしています。

以上の例が示唆するように、展開型ゲーム\(\Gamma \)の任意の手番において2個以上の行動が選択可能であることを前提とする場合には、「完全記憶ゲームである」という条件は「すべての情報集合は特定の頂点への経路上に存在する複数の手番を含まない」という条件よりも厳しいことが明らかになりました。つまり、「完全記憶ゲームである」である場合には「すべての情報集合は特定の頂点への経路上に存在する複数の手番を含まない」一方で、その逆は必ずしも成り立たないということです。

したがって、先の2つの命題の主張がともに成り立つことを保証するためには、展開型ゲーム\(\Gamma \)の任意の手番において2個以上の行動が選択可能であることに加えて、\(\Gamma \)が完全記憶ゲームであることを要求する必要があります。したがって以下を得ます。これをクーンの定理(Kuhn’s theorem)と呼びます。

命題(クーンの定理)
任意の手番\(x\in X\backslash Z\)において少なくとも2つの行動が選択可能であるような完全記憶ゲーム\(\Gamma \)が与えられているものとする。以上の条件のもとでは、プレイヤー\(i\in I\)の混合戦略\(\sigma _{i}\in \Delta \left( S_{i}\right) \)を任意に選んだとき、それと戦略的に同等な行動戦略\(b_{i}\in B_{i}\)が存在するとともに、逆に、プレイヤー\(i\)の行動戦略\(b_{i}\)を任意に選んだとき、それと戦略的に同等な混合戦略\(\sigma _{i}\)が存在する。
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録