WIIS

完備情報の動学ゲーム

混合戦略のもとでのノードへの到達可能性と期待利得

目次

関連知識

Mailで保存
Xで共有

ノードへの到達可能性

問題としている戦略的状況が完備情報の動学ゲームであり、それが展開型ゲーム\(\Gamma \)として表現されているものとします。このゲーム\(\Gamma \)においてプレイヤーたちが選択する混合戦略からなる組が\(\sigma _{I}\in \Delta \left(S_{I}\right) \)である場合にノード\(x\in X\)へ到達する確率を、\begin{equation*}P\left( x|\sigma _{I}\right)
\end{equation*}で表記します。頂点\(z\in Z\)もまたノードであるため、混合戦略の組\(\sigma _{I}\)のもとで頂点\(z\)へ到達する確率は、\begin{equation*}P\left( z|\sigma _{I}\right)
\end{equation*}と表記されます。この確率をどのように導出すればよいのでしょうか。順番に解説します。

初期点\(x_{0}\in X\)からノード\(x\)への経路が、\begin{equation}x_{0}\rightarrow x_{1}\rightarrow \cdots \rightarrow x_{n-1}\rightarrow
x_{n}\rightarrow x \quad \cdots (1)
\end{equation}であるものとします。ゲームの木は根付有向木であるため上の経路は一意的です。具体的には、\(x\)の直前に起こる手番\(x_{n}\)は一意的であり、そこで意思決定を行うプレイヤー\(i\left( x_{n}\right) \)は行動\(a\left( x\right) \)を選択します。同様に、\(x_{n}\)の直前に起こる手番\(x_{n-1}\)は一意的であり、そこで意思決定を行うプレイヤー\(i\left( x_{n-1}\right) \)は行動\(a\left( x_{n}\right) \)を選択します。それ以前の手番についても同様であり、結局、\(x_{1}\)の直前に起こる手番\(x_{0}\)すなわち初期点は一意的であるため、そこで意思決定を行うプレイヤー\(i\left( x_{0}\right) \)は行動\(a\left(x_{1}\right) \)を選択します。以上を踏まえると、混合戦略の組\(\sigma _{I}\)のもとでノード\(x\)へ到達する確率\(P\left( x|\sigma _{I}\right) \)を求めるためには、\(x\)への経路上にあるそれぞれの手番\(x_{m}\ \left( m=0,\cdots ,n\right) \)において、そこで意思決定を行うプレイヤー\(i\left( x_{m}\right) \)が自身の混合戦略\(\sigma _{i\left( x_{m}\right) }\)のもとで行動\(a\left( x_{m}\right) \)を選択する確率をとった上で、それらの確率の積をとればよいということになります。

以上を踏まえた上で、ノード\(x\in X\)と、それより前(直前とは限らない)に起こる手番\(x^{\prime }\in X\backslash Z\)をそれぞれ任意に選びます。\(x^{\prime }\)において意思決定を行うプレイヤーが\(i\)であるものとします。つまり、\(i=i\left( x^{\prime }\right) \)であるということです。ゲームの木は根付有向木であるため、ノード\(x\)へ到達するために手番\(x^{\prime }\)においてプレイヤー\(i\)が選択する必要のある行動は一意的であるため、それを、\begin{equation*}a_{i}\left( x^{\prime }\rightarrow x\right)
\end{equation*}で表記します。ノード\(x\)への経路である\(\left(1\right) \)上にある\(n+1\)個の手番\(x_{0},x_{1},\cdots ,x_{n-1},x_{n}\)の中でも、プレイヤー\(i\)が意思決定を行う手番の個数を\(L_{i}^{x}\ \left( \leq n+1\right) \)で表記します。その上で、それらの手番を初期点から近い順に、\begin{equation}x_{i}^{1},\ x_{i}^{2},\cdots ,\ x_{i}^{L_{i}^{x}} \quad \cdots (2)
\end{equation}で表記します。ゲームがノード\(x\)へ到達するためには、それぞれのプレイヤー\(i\)は以上の\(L_{i}^{x}\)個の手番において、以下の行動\begin{equation}a_{i}\left( x_{i}^{1}\rightarrow x\right) ,\ a_{i}\left(
x_{i}^{2}\rightarrow x\right) ,\cdots ,\ a_{i}\left(
x_{i}^{L_{i}^{x}}\rightarrow x\right) \quad \cdots (3)
\end{equation}をそれぞれ選ぶ必要があります。そこで、そのようなすべての行動を選択するようなプレイヤー\(i\)の純粋戦略からなる集合を、\begin{equation}S_{i}\left( x\right) =\left\{ s_{i}\in S_{i}\ |\ \forall l\in \left\{
1,2,\cdots ,L_{i}^{x}\right\} :s_{i}\left( h_{i}\left( x_{i}^{l}\right)
=a_{i}\left( x_{i}^{l}\rightarrow x\right) \right) \right\} \quad \cdots (4)
\end{equation}で表記します。ただし、\(h_{i}\left( x_{i}^{l}\right) \)はノード\(x_{i}^{l}\)が属する情報集合です。

プレイヤー\(i\in I\)が混合戦略\(\sigma _{i}\in \Delta \left( S_{i}\right) \)のもとで、\(\left( 2\right) \)中のすべての手番において\(\left(3\right) \)中の行動をいずれも選択する確率を、\begin{equation*}P\left( x|\sigma _{i}\right)
\end{equation*}で表記するのであれば、それは、\(\sigma _{i}\)のもとで\(\left( 4\right) \)に属する純粋戦略を選択する確率の総和に等しいため、\begin{equation*}P\left( x|\sigma _{i}\right) =\sum_{s_{i}\in S_{i}\left( x\right) }\sigma
_{i}\left( s_{i}\right)
\end{equation*}となります。なお、ノード\(x\)の直前までの経路上にプレイヤー\(i\)の手番が存在しない場合には、すなわち、\begin{equation*}L_{i}^{x}=0
\end{equation*}である場合には、\begin{equation*}
P\left( x|\sigma _{i}\right) =1
\end{equation*}と定めます。

プレイヤー\(0\)すなわち自然が自身の行動を規定する確率分布\(p\)のもとで、\(\left( 2\right) \)中のすべての手番において\(\left( 3\right) \)中の行動をいずれも選択する確率を、\begin{equation*}P\left( x|p\right)
\end{equation*}で表記します。なお、ノード\(x\)の直前までの経路上にプレイヤー\(0\)の手番が存在しない場合には、すなわち、\begin{equation*}L_{0}^{x}=0
\end{equation*}である場合には、\begin{equation*}
P\left( x|P\right) =1
\end{equation*}と定めます。

以上を踏まえると、混合戦略の組\(\sigma _{I}\)(および自然の行動を規定する確率分布\(p\))のもとでゲームがノード\(x\)へ到達する確率を、\begin{eqnarray*}P\left( x|\sigma _{I}\right) &=&P\left( x|p\right) \cdot \prod_{i\in
I}P\left( x|\sigma _{i}\right) \\
&=&P\left( x|p\right) \cdot \prod_{i\in I}\left( \sum_{s_{i}\in S_{i}\left(
x\right) }\sigma _{i}\left( s_{i}\right) \right)
\end{eqnarray*}と表現できます。ただし、\begin{equation*}
S_{i}\left( x\right) =\left\{ s_{i}\in S_{i}\ |\ \forall l\in \left\{
1,2,\cdots ,L_{i}^{x}\right\} :s_{i}\left( h_{i}\left( x_{i}^{l}\right)
=a_{i}\left( x_{i}^{l}\rightarrow x\right) \right) \right\}
\end{equation*}です。

混合戦略の組\(\sigma _{I}\in S_{I}\)のもとでゲームがノード\(x\in X\)へ到達する可能性が正である場合には、すなわち、\begin{equation*}P\left( x|\sigma _{I}\right) >0
\end{equation*}が成り立つ場合には、\(x\)\(\sigma _{I}\)のもとで到達可能(reachable)であると言います。また、プレイヤー\(i\in I\)の混合戦略\(\sigma _{i}\in \Delta \left( S_{i}\right) \)に対して、他のプレイヤーたちの混合戦略の組\(\sigma _{-i}\in \Delta \left( S_{-i}\right) \)が存在して、それらの組\(\sigma _{I}=\left( \sigma _{i},\sigma _{-i}\right) \)のもとでノード\(x\in X\)が到達可能である場合には、すなわち、\begin{equation*}\exists \sigma _{-i}\in \Delta \left( S_{-i}\right) :P\left( x|\sigma
_{I}\right) >0
\end{equation*}が成り立つ場合には、\(x\)\(\sigma _{i}\)のもとで到達可能(reachable)であると言います。

情報集合\(H\in \mathcal{H}\)の中に、混合戦略の組\(\sigma _{I}\in\Delta \left( S_{I}\right) \)のもとで到達可能であるようなノードが存在する場合には、すなわち、\begin{equation*}\exists x\in H:P\left( x|\sigma _{I}\right) >0
\end{equation*}が成り立つ場合には、\(H\)\(\sigma _{I}\)のもとで到達可能(reachable)であると言います。また、プレイヤー\(i\)の混合戦略\(\sigma _{i}\in \Delta \left( S_{i}\right) \)に対して、他のプレイヤーたちの混合戦略の組\(\sigma _{-i}\in \Delta \left( S_{-i}\right) \)が存在して、それらの組\(\sigma _{I}=\left( \sigma _{i},\sigma _{-i}\right) \)のもとで情報集合\(H\in \mathcal{H}\)が到達可能である場合には、すなわち、\begin{equation*}\exists x\in H,\ \exists \sigma _{-i}\in \Delta \left( S_{-i}\right)
:P\left( x|\sigma _{I}\right) >0
\end{equation*}が成り立つ場合には、\(H\)\(\sigma _{i}\)のもとで到達可能(reachable)であると言います。

例(ノードへの到達可能性)
以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。ただし、利得を省略しています。

図:ゲームの木
図:ゲームの木

プレイヤー\(1\)の情報集合からなる集合族は、\begin{equation*}\mathcal{H}_{1}=\left\{ \left\{ x_{0}\right\} \right\}
\end{equation*}であるため、プレイヤー\(1\)の純粋戦略集合は、\begin{equation*}S_{1}=A\left( \left\{ x_{0}\right\} \right) =\left\{ a_{11},a_{12}\right\}
\end{equation*}となります。したがって、プレイヤー\(1\)の混合戦略とは、\begin{eqnarray*}&&\left( a\right) \ \forall j\in \left\{ 1,2\right\} :\sigma _{1}\left(
a_{1j}\right) \geq 0 \\
&&\left( b\right) \ \sigma _{1}\left( a_{11}\right) +\sigma _{1}\left(
a_{12}\right) =1
\end{eqnarray*}を満たす確率関数\(\sigma_{1}:S_{1}\rightarrow \mathbb{R} \)として定義されます。一方、プレイヤー\(2\)の情報集合からなる集合族は、\begin{equation*}\mathcal{H}_{2}=\left\{ \left\{ x_{1}\right\} ,\left\{ x_{2}\right\}
\right\}
\end{equation*}であるため、プレイヤー\(2\)の純粋戦略集合は、\begin{eqnarray*}S_{2} &=&A\left( \left\{ x_{1}\right\} \right) \times A\left( \left\{
x_{2}\right\} \right) \\
&=&\left\{ a_{21},a_{22}\right\} \times \left\{ a_{21},a_{22}\right\} \\
&=&\left\{ \left( a_{21},a_{21}\right) ,\left( a_{21},a_{22}\right) ,\left(
a_{22},a_{21}\right) ,\left( a_{22},a_{22}\right) \right\}
\end{eqnarray*}となります。したがって、プレイヤー\(2\)の混合戦略とは、\begin{eqnarray*}&&\left( a\right) \ \forall j,k\in \left\{ 1,2\right\} :\sigma _{2}\left(
\left( a_{2j},a_{2k}\right) \right) \geq 0 \\
&&\left( b\right) \ \sigma _{2}\left( \left( a_{21},a_{21}\right) \right)
+\sigma _{2}\left( \left( a_{21},a_{22}\right) \right) +\sigma _{2}\left(
\left( a_{22},a_{21}\right) \right) +\sigma _{2}\left( \left(
a_{22},a_{22}\right) \right) =1
\end{eqnarray*}を満たす確率関数\(\sigma_{2}:S_{2}\rightarrow \mathbb{R} \)として定義されます。混合戦略の組\(\sigma _{I}=\left(\sigma _{1},\sigma _{2}\right) \)のもとでゲームがノード\(x_{1}\)へ到達する確率は、\begin{eqnarray*}P\left( x_{1}|\sigma _{I}\right) &=&P\left( x_{1}|p\right) \cdot P\left(
x_{1}|\sigma _{1}\right) \cdot P\left( x_{1}|\sigma _{2}\right) \\
&=&1\cdot \sigma _{1}\left( a_{11}\right) \cdot 1 \\
&=&\sigma _{1}\left( a_{11}\right)
\end{eqnarray*}であり、ノード\(x_{2}\)へ到達する確率は、\begin{eqnarray*}P\left( x_{2}|\sigma _{I}\right) &=&P\left( x_{2}|p\right) \cdot P\left(
x_{2}|\sigma _{1}\right) \cdot P\left( x_{2}|\sigma _{2}\right) \\
&=&1\cdot \sigma _{1}\left( a_{12}\right) \cdot 1 \\
&=&\sigma _{1}\left( a_{12}\right)
\end{eqnarray*}であり、頂点\(z_{1}\)へ到達する確率は、\begin{eqnarray*}P\left( z_{1}|\sigma _{I}\right) &=&P\left( z_{1}|p\right) \cdot P\left(
z_{1}|\sigma _{1}\right) \cdot P\left( z_{1}|\sigma _{2}\right) \\
&=&1\cdot \sigma _{1}\left( a_{11}\right) \cdot \left[ \sigma _{2}\left(
\left( a_{21},a_{21}\right) \right) +\sigma _{2}\left( \left(
a_{21},a_{22}\right) \right) \right] \\
&=&\sigma _{1}\left( a_{11}\right) \cdot \left[ \sigma _{2}\left( \left(
a_{21},a_{21}\right) \right) +\sigma _{2}\left( \left( a_{21},a_{22}\right)
\right) \right] \end{eqnarray*}であり、頂点\(z_{2}\)へ到達する確率は、\begin{eqnarray*}P\left( z_{2}|\sigma _{I}\right) &=&P\left( z_{2}|p\right) \cdot P\left(
z_{2}|\sigma _{1}\right) \cdot P\left( z_{2}|\sigma _{2}\right) \\
&=&1\cdot \sigma _{1}\left( a_{11}\right) \cdot \left[ \sigma _{2}\left(
\left( a_{22},a_{21}\right) \right) +\sigma _{2}\left( \left(
a_{22},a_{22}\right) \right) \right] \\
&=&\sigma _{1}\left( a_{11}\right) \cdot \left[ \sigma _{2}\left( \left(
a_{22},a_{21}\right) \right) +\sigma _{2}\left( \left( a_{22},a_{22}\right)
\right) \right] \end{eqnarray*}であり、頂点\(z_{3}\)へ到達する確率は、\begin{eqnarray*}P\left( z_{3}|\sigma _{I}\right) &=&P\left( z_{3}|p\right) \cdot P\left(
z_{3}|\sigma _{1}\right) \cdot P\left( z_{3}|\sigma _{2}\right) \\
&=&1\cdot \sigma _{1}\left( a_{12}\right) \cdot \left[ \sigma _{2}\left(
\left( a_{21},a_{21}\right) \right) +\sigma _{2}\left( \left(
a_{22},a_{21}\right) \right) \right] \\
&=&\sigma _{1}\left( a_{12}\right) \cdot \left[ \sigma _{2}\left( \left(
a_{21},a_{21}\right) \right) +\sigma _{2}\left( \left( a_{22},a_{21}\right)
\right) \right] \end{eqnarray*}であり、頂点\(z_{4}\)へ到達する確率は、\begin{eqnarray*}P\left( z_{4}|\sigma _{I}\right) &=&P\left( z_{4}|p\right) \cdot P\left(
z_{4}|\sigma _{1}\right) \cdot P\left( z_{4}|\sigma _{2}\right) \\
&=&1\cdot \sigma _{1}\left( a_{12}\right) \cdot \left[ \sigma _{2}\left(
\left( a_{21},a_{22}\right) \right) +\sigma _{2}\left( \left(
a_{22},a_{22}\right) \right) \right] \\
&=&\sigma _{1}\left( a_{12}\right) \cdot \left[ \sigma _{2}\left( \left(
a_{21},a_{22}\right) \right) +\sigma _{2}\left( \left( a_{22},a_{22}\right)
\right) \right] \end{eqnarray*}となります。

展開型ゲーム\(\Gamma \)においてプレイヤーたちが選択する混合戦略の組が\(\sigma _{I}\in \Delta \left( S_{I}\right) \)である場合に純粋戦略の組\(s_{I}\in S_{I}\)が実現する確率は、\begin{equation*}\prod_{i\in I}\sigma _{i}\left( s_{i}\right)
\end{equation*}ですが、この純粋戦略の組\(s_{I}\)のもとでゲームがノード\(x\in X\)へ到達する確率は、\begin{equation*}P\left( x|s_{I}\right) =P\left( x|p\right) \cdot \prod_{i\in I}P\left(
x|s_{i}\right)
\end{equation*}となります。したがって、\(\sigma _{I}\)のもとで\(s_{I}\)が実現し、さらに\(s_{I}\)のもとでゲームが\(x\)へ到達する確率は、これらの積である、\begin{eqnarray*}\left( \prod_{i\in I}\sigma _{i}\left( s_{i}\right) \right) \cdot P\left(
x|s_{I}\right) &=&\left( \prod_{i\in I}\sigma _{i}\left( s_{i}\right)
\right) \cdot \left( P\left( x|p\right) \cdot \prod_{i\in I}P\left(
x|s_{i}\right) \right) \\
&=&P\left( x|p\right) \cdot \left( \prod_{i\in I}\sigma _{i}\left(
s_{i}\right) \right) \cdot \left( \prod_{i\in I}P\left( x|s_{i}\right)
\right)
\end{eqnarray*}です。この確率はそれぞれの純粋戦略の組\(s_{I}\)に対して導出可能であるため、それらをすべて導出した上で総和をとれば、\(\sigma _{I}\)のもとでゲームがノード\(x\)へ到達する確率を、\begin{eqnarray*}P\left( x|\sigma _{I}\right) &=&\sum_{s_{I}\in S_{I}}\left[ \left(
\prod_{i\in I}\sigma _{i}\left( s_{i}\right) \right) \cdot P\left(
x|s_{I}\right) \right] \\
&=&\sum_{s_{I}\in S_{I}}\left[ P\left( x|p\right) \cdot \left( \prod_{i\in
I}\sigma _{i}\left( s_{i}\right) \right) \cdot \left( \prod_{i\in I}P\left(
x|s_{i}\right) \right) \right] \\
&=&P\left( x|p\right) \cdot \sum_{s_{I}\in S_{I}}\left[ \left( \prod_{i\in
I}\sigma _{i}\left( s_{i}\right) \right) \cdot \left( \prod_{i\in I}P\left(
x|s_{i}\right) \right) \right] \end{eqnarray*}と表現することもできます。

展開型ゲーム\(\Gamma \)においてプレイヤーたちが混合戦略の組\(\sigma _{I}\)を選択する場合にゲームが特定のノード\(x\in X\)へ到達する確率を2つの形で表現しました。1つ目は、\begin{equation*}P\left( x|\sigma _{I}\right) =P\left( x|p\right) \cdot \prod_{i\in I}\left(
\sum_{s_{i}\in S_{i}\left( x\right) }\sigma _{i}\left( s_{i}\right) \right)
\end{equation*}であり、もう1つは、\begin{equation*}
P\left( x|\sigma _{I}\right) =P\left( x|p\right) \cdot \sum_{s_{I}\in S_{I}}
\left[ \left( \prod_{i\in I}\sigma _{i}\left( s_{i}\right) \right) \cdot
\left( \prod_{i\in I}P\left( x|s_{i}\right) \right) \right] \end{equation*}です。実は、これらの値は常に一致することが保証されます。そこで、以降ではその場に応じて便利な方を利用します。

命題(ノードへの到達可能性)
展開型ゲーム\(\Gamma \)においてノード\(x\in X\)およびプレイヤーたちの混合戦略の組\(\sigma _{I}\in \Delta \left(S_{I}\right) \)がそれぞれ任意に与えられたとき、\begin{equation*}P\left( x|p\right) \cdot \prod_{i\in I}\left( \sum_{s_{i}\in S_{i}\left(
x\right) }\sigma _{i}\left( s_{i}\right) \right) =P\left( x|p\right) \cdot
\sum_{s_{I}\in S_{I}}\left[ \left( \prod_{i\in I}\sigma _{i}\left(
s_{i}\right) \right) \cdot \left( \prod_{i\in I}P\left( x|s_{i}\right)
\right) \right] \end{equation*}という関係が成り立つ。ただし、\begin{equation*}
S_{i}\left( x\right) =\left\{ s_{i}\in S_{i}\ |\ \forall l\in \left\{
1,2,\cdots ,L_{i}^{x}\right\} :s_{i}\left( h_{i}\left( x_{i}^{l}\right)
=a_{i}\left( x_{i}^{l}\rightarrow x\right) \right) \right\}
\end{equation*}である。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

 

期待利得

完備情報の動学ゲームにおいてプレイヤーたちが純粋戦略の組\(s_{I}\)を選ぶと、ゲームが頂点\(z\)へ到達する確率は、\begin{equation*}P\left( z|s_{I}\right) =P\left( z|p\right) \cdot \prod_{i\in I}P\left(
z|s_{i}\right)
\end{equation*}と定まります。純粋戦略の定義より、プレイヤー\(i\)が自身の純粋戦略\(s_{i}\)のもとで頂点\(z\)の直前までの経路上に存在する自身の行動をすべて選択する確率\(P\left( z|s_{i}\right) \)は\(0\)または\(1\)だけを値としてとり得ます。自然\(0\)が参加しないゲームでは\(P\left( z|p\right) =1\)となるため、この場合、純粋戦略の組\(s_{I}\)のもとで1つの頂点が確率\(1\)で実現します。一方、自然\(0\)が参加するゲームにおいて\(P\left( z|p\right) \)はランダムに決定されるため、プレイヤーたちが純粋戦略を採用する場合でも、1つの頂点が確率\(1\)で実現するとは限らず、それぞれの頂点が正の確率で実現するような事態が起こり得ます。以上を踏まえると、純粋戦略の組\(s_{I}\)が与えられたとき、それぞれの頂点\(z\in Z\)に対して、ゲームがそこへ到達する確率\(P\left( z|s_{I}\right) \)を定める確率関数\begin{equation*}P\left( \cdot |s_{I}\right) :Z\rightarrow \mathbb{R} \end{equation*}が導かれます。これをクジと呼びます。クジが変化すればプレイヤーたちは以前とは異なる不確実な状況に直面するため、プレイヤーたちが純粋戦略を採用する場合、それぞれのプレイヤーはクジどうしを比較する選好を持っているものとみなします。さらに、純粋戦略の組が与えられればそれに対して1つのクジが定まるため、結局、プレイヤーがクジどうしを比較する選好を、純粋戦略の組どうしを比較する\(S_{I}\)上の選好関係と同一視しても一般性は失われません。そこで、プレイヤー\(i\)が不確実な状況どうしを比較する\(S_{I}\)上の選好関係を\(\succsim _{i}\)で表記するとともに、さらに、任意の\(s_{I},s_{I}^{\prime }\in S_{I}\)に対して、\begin{equation*}s_{I}\succsim _{i}s_{I}^{\prime }\Leftrightarrow U_{i}\left( s_{I}\right)
\geq U_{i}\left( s_{I}^{\prime }\right)
\end{equation*}を満たす関数\(U_{i}:S_{I}\rightarrow \mathbb{R} \)が存在する場合、これを期待利得関数と呼びました。

一方、プレイヤーたちが混合戦略を採用する場合には話がさらに複雑になります。繰り返しになりますが、自然が参加するゲームではプレイヤーたちが純粋戦略を採用する場合においてさえも不確実な状況、すなわちクジどうしを比較せざるを得ません。さらに、プレイヤーたちが混合戦略を採用する場合には、プレイヤーたちが選択した混合戦略の組\(\sigma _{I}\)のもとで実現する純粋戦略の組\(s_{I}\)もまた一意的に定まらず、したがってプレイヤーは二重の意味で不確実な状況にさらされることになります。ただ、混合戦略の組\(\sigma _{I}\)のもとで、それぞれの純粋戦略の組\(s_{I}\)が起こる確率を特定することはできます。具体的には、プレイヤー\(i\)が混合戦略\(\sigma _{i}\)のもとで純粋戦略\(s_{i}\)を選ぶ確率は\(\sigma _{i}(s_{i})\)であるため、混合戦略の組\(\sigma _{I}\)のもとで純粋戦略の組\(s_{I}\)が実現する確率は、\begin{equation*}\sigma _{I}\left( s_{I}\right) =\prod_{i\in I}\sigma _{i}\left( s_{i}\right)
\end{equation*}となります。

以上を踏まえると、混合戦略の組\(\sigma _{I}\)が与えられたとき、純粋戦略からなるそれぞれの組\(s_{I}\in S_{I}\)に対して、それが実現する確率\(\sigma _{I}\left( s_{I}\right) \)を定める確率関数\begin{equation*}\sigma _{I}:S_{I}\rightarrow \mathbb{R} \end{equation*}が定義可能です。これもまたクジと呼ばれます。確率関数の定義より、\(\sigma _{I}\)は以下の性質を満たします。\begin{eqnarray*}&&\left( a\right) \ \forall s_{I}\in S_{I}:0\leq \sigma _{I}\left(
s_{I}\right) \leq 1 \\
&&\left( b\right) \ \sum\limits_{s_{I}\in S_{I}}\sigma _{I}\left(
s_{I}\right) =1
\end{eqnarray*}

条件\(\left( a\right) \)は、クジ\(\sigma_{I}\)のもとでそれぞれの純粋戦略の組\(s_{I}\)が実現する確率は\(0\)以上\(1\)以下であることを意味します。条件\(\left( b\right) \)は、クジ\(\sigma _{I}\)のもとでそれぞれの純粋戦略の組が実現する確率を特定し、それらの総和をとると\(1\)になることを意味します。

繰り返しになりますが、プレイヤーたちが混合戦略を採用する場合、どの純粋戦略の組が実際に実現するかを事前に確定することはできないため、プレイヤーたちは不確実な状況に直面します。そこで、そのような状況をクジ\(\sigma _{I}\)を用いて表現します。クジ\(\sigma _{I}\)とは、それぞれの純粋戦略の組\(s_{I}\)が起こる確率\(\sigma _{I}\left( s_{I}\right) \)を特定しますが、これは混合戦略の組\(\sigma _{I}=\left( \sigma _{i}\right)_{i\in I}\)のもとでプレイヤーたちが直面する不確実な状況を表しています。つまり、混合戦略の組が与えられればそれに対して 1 つのクジが定まります。

 

期待利得関数

クジが変化すればプレイヤーたちは以前とは異なる不確実な状況に直面するため、プレイヤーたちが混合戦略を採用する場合、それぞれのプレイヤーはクジどうしを比較する選好を持っているものと考えるべきです。さらに言えば、混合戦略の組が与えられればそれに対して 1 つのクジが定まるため、結局、プレイヤーがクジを比較する選好を、混合戦略の組どうしを比較する\(\Delta \left( S_{I}\right) \)上の選好関係と同一視しても一般性は失われません。

具体的には、展開型ゲーム\(\Gamma \)として表される完備情報の動学ゲームにおいてプレイヤーたちが混合戦略を採用するとき、プレイヤー\(i\)が直面し得る不確実な状況どうしを比較する選好関係は、混合戦略のすべての組からなる集合\(\Delta \left( S_{I}\right) \)上の二項関係\(\succsim _{i}\)として定式化されます。その上で、2 つの混合戦略の組\(\sigma _{I},\sigma _{I}^{\prime }\in \Delta \left( S_{I}\right) \)に対して\begin{equation*}\sigma _{I}\succsim _{i}\sigma _{I}^{\prime }
\end{equation*}が成り立つ場合には、プレイヤー\(i\)は\(\sigma _{I}\)のもとで直面する不確実な状況を、\(\sigma _{I}^{\prime}\)のもとで直面する不確実な状況以上に好ましいと考えているものと解釈します。

プレイヤー\(i\)が不確実な状況どうしを比較する\(\Delta \left( S_{I}\right) \)上の選好関係\(\succsim _{i}\)が与えられたとき、それに対して関数\(F_{i}:\Delta \left( S_{I}\right) \rightarrow \mathbb{R} \)が存在して、任意の混合戦略の組\(\sigma _{I},\sigma_{I}^{\prime }\in \Delta \left( S_{I}\right) \)に対して、\begin{equation*}\sigma _{I}\succsim _{i}\sigma _{I}^{\prime }\Leftrightarrow F_{i}\left(
\sigma _{I}\right) \geq F_{i}\left( \sigma _{I}^{\prime }\right)
\end{equation*}という関係が成り立つ場合には、\(F_{i}\)のことを\(\succsim _{i}\)を表す期待利得関数(expected utility mathrmtion)と呼びます。さらに、プレイヤー\(i\)の期待利得関数\(F_{i}\)が混合戦略の組\(\sigma _{I}\)に対して定める値\(F_{i}\left( \sigma _{I}\right) \)を、プレイヤー\(i\)が\(\sigma _{I}\)から得る期待利得(expected utility)と呼びます。

プレイヤーがクジどうしを比較する選好関係\(\succsim _{i}\)に対して、それを表す期待利得関数\(F_{i}\)は存在する場合には、それぞれのクジ\(\sigma _{I}\in \Delta \left( S_{i}\right) \)に対して、\begin{equation*}F_{i}\left( \sigma _{I}\right) =\sum_{s_{I}\in S_{I}}\left[ \sigma
_{I}\left( s_{I}\right) \cdot U_{i}(s_{I})\right] =\sum_{s_{I}\in S_{I}}\left[ \left( \prod\limits_{j\in I}\sigma _{j}(s_{j})\right) \cdot
U_{i}(s_{I})\right] \end{equation*}という関係が成り立ちます。ただし、\(U_{i}:S_{I}\rightarrow \mathbb{R} \)はプレイヤー\(i\)が純粋戦略の組どうしを比較する期待利得関数です。

期待利得関数の意味について考えましょう。まず、プレイヤーたちが混合戦略を採用する場合、プレイヤーたちが選ぶ混合戦略の組\(\sigma _{I}\)が得られます。プレイヤー\(i\)が混合戦略\(\sigma _{i}\)のもとで純粋戦略\(s_{i}\)を選ぶ確率は\(\sigma _{i}(s_{i})\)であるため、混合戦略の組\(\sigma _{I}\)のもとで純粋戦略の組\(s_{I}\)が実現する確率は\(\sigma _{I}\left( s_{I}\right) =\prod_{j\in I}\sigma _{j}(s_{j})\)と特定されます。さらに、この\(s_{I}\)においてプレイヤー\(i\)は期待利得\(U_{i}(s_{I})\)を得るため、\(\sigma _{I}\)のもとでプレイヤー\(i\)が\(s_{I}\)から得る期待利得の期待値は\(\sigma_{I}\left( s_{I}\right) \cdot U_{i}(s_{I})\)となります。これを\(S_{I}\)に属するすべての純粋戦略の組\(s_{I}\)に関して導出した上で総和をとれば、\(\sigma _{I}\)のもとでのプレイヤー\(i\)の期待利得が\(\sum_{s_{I}\in S_{I}}\left[ \sigma _{I}\left( s_{I}\right) \cdot U_{i}(s_{I})\right] \)として得られます。これはプレイヤー\(i\)が混合戦略の組\(\sigma_{I}\)から得る期待利得に他なりません。

例(期待利得)
以下のゲームの木によって表現される展開型ゲーム\(\Gamma \)について考えます。ただし、利得を省略しています。

図:ゲームの木
図:ゲームの木

プレイヤー\(1\)の純粋戦略集合は、\begin{equation*}S_{1}=A\left( \left\{ x_{0}\right\} \right) =\left\{ a_{11},a_{12}\right\}
\end{equation*}であり、プレイヤー\(2\)の純粋戦略集合は、\begin{eqnarray*}S_{2} &=&A\left( \left\{ x_{1}\right\} \right) \times A\left( \left\{
x_{2}\right\} \right) \\
&=&\left\{ a_{21},a_{22}\right\} \times \left\{ a_{21},a_{22}\right\} \\
&=&\left\{ \left( a_{21},a_{21}\right) ,\left( a_{21},a_{22}\right) ,\left(
a_{22},a_{21}\right) ,\left( a_{22},a_{22}\right) \right\}
\end{eqnarray*}です。混合戦略の組\(\left( \sigma _{1},\sigma _{2}\right) \)のもとでプレイヤー\(1\)が直面する期待利得は、\begin{eqnarray*}F_{1}\left( \sigma _{1},\sigma _{2}\right) &=&\sigma _{1}\left(
a_{11}\right) \cdot \sigma _{2}\left( a_{21},a_{21}\right) \cdot U_{1}\left(
a_{11},\left( a_{21},a_{21}\right) \right) \\
&&+\sigma _{1}\left( a_{11}\right) \cdot \sigma _{2}\left(
a_{21},a_{22}\right) \cdot U_{1}\left( a_{11},\left( a_{21},a_{22}\right)
\right) \\
&&+\sigma _{1}\left( a_{11}\right) \cdot \sigma _{2}\left(
a_{22},a_{21}\right) \cdot U_{1}\left( a_{11},\left( a_{22},a_{21}\right)
\right) \\
&&+\sigma _{1}\left( a_{11}\right) \cdot \sigma _{2}\left(
a_{22},a_{22}\right) \cdot U_{1}\left( a_{11},\left( a_{22},a_{22}\right)
\right) \\
&&+\sigma _{1}\left( a_{12}\right) \cdot \sigma _{2}\left(
a_{21},a_{21}\right) \cdot U_{1}\left( a_{12},\left( a_{21},a_{21}\right)
\right) \\
&&+\sigma _{1}\left( a_{12}\right) \cdot \sigma _{2}\left(
a_{21},a_{22}\right) \cdot U_{1}\left( a_{12},\left( a_{21},a_{22}\right)
\right) \\
&&+\sigma _{1}\left( a_{12}\right) \cdot \sigma _{2}\left(
a_{22},a_{21}\right) \cdot U_{1}\left( a_{12},\left( a_{22},a_{21}\right)
\right) \\
&&+\sigma _{1}\left( a_{12}\right) \cdot \sigma _{2}\left(
a_{22},a_{22}\right) \cdot U_{1}\left( a_{12},\left( a_{22},a_{22}\right)
\right) \\
&=&\sigma _{1}\left( a_{11}\right) \cdot \sigma _{2}\left(
a_{21},a_{21}\right) \cdot u_{1}\left( z_{1}\right) \\
&&+\sigma _{1}\left( a_{11}\right) \cdot \sigma _{2}\left(
a_{21},a_{22}\right) \cdot u_{1}\left( z_{1}\right) \\
&&+\sigma _{1}\left( a_{11}\right) \cdot \sigma _{2}\left(
a_{22},a_{21}\right) \cdot u_{1}\left( z_{2}\right) \\
&&+\sigma _{1}\left( a_{11}\right) \cdot \sigma _{2}\left(
a_{22},a_{22}\right) \cdot u_{1}\left( z_{2}\right) \\
&&+\sigma _{1}\left( a_{12}\right) \cdot \sigma _{2}\left(
a_{21},a_{21}\right) \cdot u_{1}\left( z_{3}\right) \\
&&+\sigma _{1}\left( a_{12}\right) \cdot \sigma _{2}\left(
a_{21},a_{22}\right) \cdot u_{1}\left( z_{4}\right) \\
&&+\sigma _{1}\left( a_{12}\right) \cdot \sigma _{2}\left(
a_{22},a_{21}\right) \cdot u_{1}\left( z_{3}\right) \\
&&+\sigma _{1}\left( a_{12}\right) \cdot \sigma _{2}\left(
a_{22},a_{22}\right) \cdot u_{1}\left( z_{4}\right)
\end{eqnarray*}となります。プレイヤー\(2\)についても同様に考えます。

展開型ゲーム\(\Gamma \)においてプレイヤーたちが選択する混合戦略の組が\(\sigma _{I}\in \Delta \left( S_{I}\right) \)である場合にプレイヤー\(i\)が直面する期待利得は、\begin{equation*}F_{i}\left( \sigma _{I}\right) =\sum_{s_{I}\in S_{I}}\left[ \left(
\prod\limits_{j\in I}\sigma _{j}(s_{j})\right) \cdot U_{i}(s_{I})\right] \end{equation*}です。その一方で、混合戦略の組\(\sigma _{I}\)のもとでゲームがそれぞれの頂点\(z\in Z\)へ到達する確率が\(P\left( z|\sigma _{I}\right) \)であることを踏まえると、\(\sigma _{I}\)のもとでプレイヤー\(i\)が直面する期待利得を、\begin{equation*}F_{i}\left( \sigma _{I}\right) =\sum_{z\in Z}\left[ P\left( z|\sigma
_{I}\right) \cdot u_{i}\left( z\right) \right] \end{equation*}と表現することもできます。実は、これらの値は常に一致することが保証されます。そこで、以降ではその場に応じて便利な方を利用します。

命題(期待利得)
展開型ゲーム\(\Gamma \)においてプレイヤー\(i\in I\)およびプレイヤーたちの混合戦略の組\(\sigma _{I}\in\Delta \left( S_{I}\right) \)がそれぞれ任意に与えられたとき、\begin{equation*}\sum_{s_{I}\in S_{I}}\left[ \left( \prod\limits_{j\in I}\sigma
_{j}(s_{j})\right) \cdot U_{i}(s_{I})\right] =\sum_{z\in Z}\left[ P\left(
z|\sigma _{I}\right) \cdot u_{i}\left( z\right) \right] \end{equation*}という関係が成り立つ。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録