教材一覧
STATIC GAME OF INCOMPLETE INFORMATION

中間期待利得とベイジアン仮説

< 前のページ
次のページ >
Share on twitter
Twitterで共有
Share on email
メールで共有

中間期待利得

ベイジアンゲーム\(G\)においてプレイヤー\(i\)は自身のタイプ\(\theta _{i}\)を観察できますが、他のプレイヤーたちのタイプ\(\theta _{-i}\)は観察できないため、自分のタイプが\(\theta _{i}\)の場合に\(\left\{ G\left( \theta _{i},\theta _{-i}\right) \right\} _{\theta _{-i}\in\Theta _{-i}}\)の中のどの状態ゲームを実際にプレーすることになるか識別できません。プレイヤー\(i\)が純粋戦略\(s_{i}:\Theta _{i}\rightarrow A_{i}\)を選ぶこととは、自身のそれぞれのタイプ\(\theta _{i}\)に対して特定の行動\(s_{i}\left( \theta_{i}\right) \)を1つずつ事前に選び、その行動のもとで自分が直面し得る\(\left\{ G\left( \theta _{i},\theta _{-i}\right) \right\} _{\theta_{-i}\in \Theta _{-i}}\)に属するすべての状態ゲームに備えることを意味します。では、プレイヤー\(i\)は何を基準に最適な純粋戦略を選べばよいのでしょうか。順番に考えていきます。

まずは、ベイジアンゲーム\(G\)においてプレイヤー\(i\)が観察可能な情報を整理しましょう。プレイヤー\(i\)は自身のタイプ\(\theta _{i}\)を観察できます。また、任意のプレイヤーのタイプ集合と行動集合は共有知識であるため、写像\(s_{j}:\Theta _{j}\rightarrow A_{j}\)として定義される他の任意のプレイヤー\(j\ \left(\not=i\right) \)の任意の純粋戦略\(s_{j}\)は共有知識です。したがって、プレイヤー\(i\)にとって、他のプレイヤーたちの純粋戦略\(s_{-i}\)の組からなる集合\(S_{-i}\)や、他のプレイヤーたちのタイプ\(\theta _{-i}\)の集合\(\Theta _{-i}\)は観察可能です。

以上を踏まえた上で、プレイヤー\(i\)は自身のタイプが\(\theta _{i}\)であるときに、他のプレイヤーたちのタイプ\(\theta _{-i}\)と彼らが選ぶ純粋戦略\(s_{-i}\)を所与としたとき、自身の純粋戦略\(s_{i}\)がもたらす利得をどのように計算すればよいでしょうか。この場合、プレイヤーたちが選ぶ行動の組は、\begin{eqnarray*}s_{I}\left( \theta _{I}\right) &=&\left( s_{i}\left( \theta _{i}\right)
,s_{-i}\left( \theta _{-i}\right) \right) \\
&=&\left( s_{1}\left( \theta _{1}\right) ,\cdots ,s_{i}\left( \theta
_{i}\right) ,\cdots ,s_{n}\left( \theta _{n}\right) \right)
\end{eqnarray*}である一方、この状態\(\theta _{I}=\left( \theta _{i},\theta _{-i}\right) \)におけるプレイヤー\(i\)の利得関数は\(u_{i}\left( \cdot ,\theta _{I}\right):A\rightarrow \mathbb{R} \)であるため、プレイヤー\(i\)が得る利得は、\begin{eqnarray*}u_{i}\left( s_{I}\left( \theta _{I}\right) ,\theta _{I}\right)
&=&u_{i}\left( s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta
_{-i}\right) ,\theta _{i},\theta _{-i}\right) \\
&=&u_{i}\left( s_{1}\left( \theta _{1}\right) ,\cdots ,s_{i}\left( \theta
_{i}\right) ,\cdots ,s_{n}\left( \theta _{n}\right) ,\theta _{1},\cdots
,\theta _{n}\right)
\end{eqnarray*}となります。繰り返しになりますが、この利得はタイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略\(s_{i}\)を選んだときに、他のプレイヤーたちのタイプが\(\theta _{-i}\)で彼らが選ぶ純粋戦略が\(s_{-i}\)であるという前提のもと、プレイヤー\(i\)が得る利得に相当します。言い換えると、これは状態ゲーム\(G\left( \theta _{i},\theta _{-i}\right) \)において純粋戦略の組\(\left(s_{i},s_{-i}\right) \)がプレイヤー\(i\)にもたらす利得に相当します。

タイプ\(\theta _{i}\)のプレイヤー\(i\)は他のプレイヤーたちのタイプ\(\theta _{-i}\)の真の値を知りませんが、\(\theta _{-i}\)がとり得る値の集合\(\Theta _{-i}\)を把握しているため、\(\Theta _{-i}\)に属するそれぞれの\(\theta _{-i}\)に対して上の利得\(u_{i}\left( s_{I}\left( \theta _{I}\right) ,\theta _{I}\right) \)を計算できます。さらに、\(\theta _{-i}\)がしたがう分布の予想を、タイプ\(\theta _{i}\)のもとでの信念\(f_{i}\left( \cdot |\theta _{i}\right) :\Theta _{-i}\rightarrow \mathbb{R} \)として主観的に形成しているため、結局、タイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}=\left( s_{i},s_{-i}\right) \)から得る利得の期待値を計算できます。具体的には、プレイヤーたちのタイプが離散型の確率変数である場合、タイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}\)から得る利得の期待値は、同時確率関数として表されるタイプ\(\theta _{i}\)のプレイヤー\(i\)の信念\(f_{i}\left( \cdot |\theta _{i}\right) \)を用いると、\begin{eqnarray*}&&\sum_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{I}\left( \theta
_{I}\right) ,\theta _{I}\right) \cdot f_{i}\left( \theta _{-i}|\theta
_{i}\right) \right\} \\
&=&\sum_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{i},\theta
_{-i}\right) \cdot f_{i}\left( \theta _{-i}|\theta _{i}\right) \right\}
\end{eqnarray*}となります。一方、プレイヤーたちのタイプが連続型の確率変数である場合、タイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}\)から得る利得の期待値は、同時密度関数として表されるタイプ\(\theta _{i}\)のプレイヤー\(i\)の信念\(f_{i}\left( \cdot |\theta _{i}\right) \)を用いると、\begin{eqnarray*}&&\int_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{I}\left( \theta
_{I}\right) ,\theta _{I}\right) \cdot f_{i}\left( \theta _{-i}|\theta
_{i}\right) \right\} d\theta _{-i} \\
&=&\int_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{i},\theta
_{-i}\right) \cdot f_{i}\left( \theta _{-i}|\theta _{i}\right) \right\}
d\theta _{-i}
\end{eqnarray*}となります。これらの値はいずれも、ベイジアンゲーム\(G\)においてタイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略\(s_{i}\)を選んだときに、他のプレイヤーたちが選ぶ純粋戦略が\(s_{-i}\)であるという前提のもとで、プレイヤー\(i\)が得る利得の期待値に相当します。これをタイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}=\left( s_{i},s_{-i}\right) \)のもとで直面する中間期待利得(interim expected payoff)や条件付き期待利得などと呼び、\begin{equation*}E_{\theta _{-i}}\left[ u_{i}\left( s_{I}\left( \theta _{I}\right) ,\theta
_{I}\right) \ |\ \theta _{i}\right] \end{equation*}または、\begin{equation*}
E_{\theta _{-i}}\left[ u_{i}\left( s_{i}\left( \theta _{i}\right)
,s_{-i}\left( \theta _{-i}\right) ,\theta _{i},\theta _{-i}\right) \ |\
\theta _{i}\right] \end{equation*}などで表記します。

例(中間期待利得)
ベイジアンゲーム\(G\)のプレイヤー集合が\(I=\{1,2\}\)、行動集合が\(A_{1}=A_{2}=\{a,b\}\)、タイプ集合が\(\Theta _{1}=\left\{ \theta_{11}\right\} \)かつ\(\Theta _{2}=\left\{ \theta _{21},\theta_{22}\right\} \)であるものとします。この場合、2通りの状態\(\left( \theta _{11},\theta _{21}\right) \)と\(\left( \theta _{11},\theta _{21}\right) \)が存在します。状態ゲーム\(G\left( \theta _{11},\theta _{21}\right) \)は以下の利得行列

\begin{array}{ccc}
\hline
1\diagdown 2 & a & b \\ \hline
a & 2,1 & 0,0 \\ \hline
b & 0,0 & 1,2 \\ \hline
\end{array}

\(G\left( \theta _{11},\theta _{21}\right) \)

として、状態ゲーム\(G\left( \theta _{11},\theta _{21}\right) \)は以下の利得行列

\begin{array}{ccc}
\hline
1\diagdown 2 & a & b \\ \hline
a & 2,0 & 0,2 \\ \hline
b & 0,1 & 1,0 \\ \hline
\end{array}

\(G\left( \theta _{11},\theta _{22}\right) \)

としてそれぞれ与えられているものとします。プレイヤー\(1\)のタイプ\(\theta _{11}\)のもとでの信念\(f_{1}\left( \cdot |\theta _{11}\right) \)が、\begin{equation*}f_{1}\left( \theta _{21}|\theta _{11}\right) =f_{1}\left( \theta
_{22}|\theta _{11}\right) =\frac{1}{2}
\end{equation*}を満たすものとします。また、プレイヤー\(1\)の純粋戦略\(s_{1}\)が、\begin{equation*}s_{1}=\left( s_{1}\left( \theta _{11}\right) \right) =\left( a\right)
\end{equation*}で与えられており、プレイヤー\(2\)の純粋戦略\(s_{2}\)が、\begin{equation*}s_{2}=\left( s_{2}\left( \theta _{21}\right) ,s_{2}\left( \theta
_{22}\right) \right) =\left( a,b\right)
\end{equation*}でそれぞれ与えられているとき、タイプ\(\theta _{11}\)プレイヤー\(1\)が純粋戦略の組\(\left( s_{1},s_{2}\right) \)のもとで直面する中間期待利得は、\begin{eqnarray*}&&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) +u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{22}\right) ,\theta _{11},\theta _{22}\right) \cdot
f_{1}\left( \theta _{22}|\theta _{11}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{21}\right) \cdot \frac{1}{2}+u_{1}\left( a,b,\theta _{11},\theta _{22}\right) \cdot \frac{1}{2} \\
&=&2\cdot \frac{1}{2}+0\cdot \frac{1}{2} \\
&=&1
\end{eqnarray*}となります。プレイヤー\(1\)のタイプは\(\theta _{11}\)で確定しているため、プレイヤー\(2\)の信念は、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) =f_{2}\left( \theta
_{11}|\theta _{22}\right) =1
\end{equation*}で確定します。タイプ\(\theta _{21}\)のプレイヤー\(2\)が先の純粋戦略の組\(\left( s_{1},s_{2}\right) \)のもとで直面する中間期待利得は、\begin{eqnarray*}u_{2}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta _{21}\right)
,\theta _{11},\theta _{21}\right) \cdot f_{2}\left( \theta _{11}|\theta
_{21}\right) &=&u_{2}\left( a,a,\theta _{11},\theta _{21}\right) \cdot 1 \\
&=&1\cdot 1 \\
&=&1
\end{eqnarray*}であり、タイプ\(\theta _{22}\)のプレイヤー\(2\)が先の純粋戦略の組\(\left( s_{1},s_{2}\right) \)のもとで直面する中間期待利得は、\begin{eqnarray*}u_{2}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta _{22}\right)
,\theta _{11},\theta _{22}\right) \cdot f_{2}\left( \theta _{11}|\theta
_{22}\right) &=&u_{2}\left( a,b,\theta _{11},\theta _{22}\right) \cdot 1 \\
&=&2\cdot 1 \\
&=&2
\end{eqnarray*}となります。

繰り返しになりますが、プレイヤーたちのタイプが離散型の確率変数である場合、タイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}=\left( s_{i},s_{-i}\right) \)のもとで直面する中間期待利得は、\begin{equation}\sum_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{i},\theta
_{-i}\right) \cdot f_{i}\left( \theta _{-i}|\theta _{i}\right) \right\}
\quad \cdots (1)
\end{equation}と定義されます。これが条件付き期待利得とも呼ばれる理由を解説します。他の条件は一定で、プレイヤー\(i\)のタイプだけが\(\theta _{i}\)から\(\theta _{i}^{\prime }\)へ変化すると、\begin{equation}\sum_{\theta _{-i}\in \Theta _{-i}}\left\{ u_{i}\left( s_{i}\left( \theta
_{i}^{\prime }\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{i}^{\prime
},\theta _{-i}\right) \cdot f_{i}\left( \theta _{-i}|\theta _{i}^{\prime
}\right) \right\} \quad \cdots (2)
\end{equation}となります。\(\left( 1\right) \)と\(\left( 2\right) \)を比較すると明らかですが、純粋戦略の組\(\left( s_{i},s_{-i}\right) \)はそのままで、プレイヤー\(i\)のタイプだけが\(\theta _{i}\)から\(\theta _{i}^{\prime }\)へ変化すると、プレイヤー\(i\)に関して以下の要素が変化します:

  1. 自身の純粋戦略\(s_{i}\)が自身のタイプ\(\theta _{i}^{\prime }\)に対して定める行動\(s_{i}\left( \theta _{i}^{\prime }\right) \)は、\(s_{i}\)がタイプ\(\theta _{i}\)に対して定める行動\(s_{i}\left( \theta _{i}\right) \)とは異なり得る。
  2. \(\theta _{i}^{\prime }\)のもとでの信念\(f_{i}\left( \theta _{-i}|\theta _{i}^{\prime }\right) \)は、\(\theta _{i}\)のもとでの信念\(f_{i}\left( \theta _{-i}|\theta _{i}\right) \)とは異なり得る。
  3. \(\theta _{i}^{\prime }\)のもとでの利得関数の組\(\left\{ u_{i}\left( \cdot ,\theta_{i}^{\prime },\theta _{-i}\right) \right\} _{\theta _{-i}\in \Theta _{-i}}\)は、\(\theta _{i}\)のもとでの利得関数の組\(\left\{ u_{i}\left( \cdot ,\theta_{i},\theta _{-i}\right) \right\} _{\theta _{-i}\in \Theta _{-i}}\)とは異なり得る。

つまり、純粋戦略の組\(\left( s_{i},s_{-i}\right) \)はそのままでも、プレイヤー\(i\)のタイプが変化しただけで上の要素が変化し得るため、導出される中間利得もまた異なる値になる得ます。中間期待利得を条件付き期待利得と呼ぶ理由はここにあります。つまり、中間期待利得とは、プレイヤー\(i\)の特定のタイプを前提とした上で導出される期待利得に他なりません。言い換えると、中間期待利得とは、プレイヤーが自身のタイプを知った時点において、それぞれの純粋戦略の組に対して計算し得る利得の期待値と解釈することもできます。

 

ベイジアン仮説

繰り返しになりますが、ゲーム理論では、ゲームに参加するプレイヤーはそれぞれ明確な目的を持ち、その目標を達成するために最適な戦略を選択するものと仮定します。特に、不完備情報の動学ゲームをベイジアンゲームとして定式化したとき、それぞれのプレイヤーは自身の中間利得を最大化するために最適な純粋戦略を選択するものと仮定します。具体的には、ベイジアンゲームではそれぞれのプレイヤーは自身のタイプを知っていますが、他のプレイヤーたちのタイプを事前に観察できません。このような不確実性下での意思決定に際して、それぞれのプレイヤー\(i\)は自身のタイプ\(\theta _{i}\)と信念\(f_{i}\)にもとづいて他のプレイヤーたちのタイプ\(\theta _{-i}\)を予想し、その予想から算出される中間期待利得を最大化するような純粋戦略を採用するものと仮定します。このような仮定をベイジアン仮説(Bayesian hypothesis)と呼びます。

ベイジアンゲームにおけるプレイヤーの信念とは、そのプレイヤーによる他のプレイヤーたちのタイプに関する主観的な予想を表現する確率分布です。ベイジアン仮説は、プレイヤーたちが主観的な確率分布から導出される中間期待利得を最大化するような純粋戦略を選択することを仮定します。ここで注意したいのは、ベイジアンゲームの定義やベイジアン仮説において、プレイヤーたちが信念を形成する際の主観が具体的にどのようなものであるかが記述されていないという点です。したがって、プレイヤーはいかなる信念をも形成することができます。ただ、合理的なプレイヤーは自身の中間期待利得を最大化することを踏まえると、それぞれのプレイヤーは自身が形成し得る様々な信念の中でも自分が中間期待利得を最大化する上で最も有効な信念を探そうとするものと考えるのは自然です。さらに、ゲームにおいてプレイヤーたちは相互依存関係に直面している以上、それぞれのプレイヤーが自身の信念を選ぶプロセスにおいて、プレイヤーたちが互いの信念を読み合う状況が発生することが容易に予期されます。しかし、このような読み合いが行われることを許容すると、ベイジアンゲームの分析が突如として複雑になってしまいます。この点に関する詳しい議論は場を改めて行いますが、現段階では、ベイジアンゲームにおける信念が分析家たちにとって所与である状況を想定します。つまり、それぞれのプレイヤーがある特定の信念を形成したとき、その根拠や正当性については深く立ち入らないことにします。

 

純粋戦略均衡

ベイジアンゲーム\(G\)として表現される不完備情報の静学ゲームに直面したそれぞれのプレイヤー\(i\)は、ベイジアン仮説のもとで、自身が選択可能な純粋戦略の集合\(S_{i}\)の中から、自身のタイプ\(\theta _{i}\)と信念\(f_{i}\)を所与とした上で、自身の中間期待利得を最大化する純粋戦略を選ぶものと仮定します。そのような純粋戦略を\(s_{i}^{\ast }\)で表し、これをプレイヤー\(i\)の最適戦略(best strategy)と呼びます。

プレイヤーたちが最適戦略を選ぶ目的は自身の中間期待利得の最大化ですが、最適戦略の具体的な内容はベイジアンゲーム\(G\)の要素とは別にゲームの分析者が定義する必要があります。つまり、ゲームの分析家は最適戦略の意味をあらかじめ規定した上で、そこで規定された最適戦略の概念のもとでプレイヤーたちが具体的にどのように振る舞い、そこからどのような結果がもたらされるかを分析する、ということです。したがって、同じゲーム\(G\)を分析対象とする場合でも、異なる最適戦略の概念のもとで分析を行えば異なる分析結果が得られます。分析家がどのような最適戦略の概念を採用するかは非常に重要な問題です。

最適戦略の意味を定義することとは、それぞれのベイジアンゲーム\(G\)に対して、そこでの最適戦略の組\(s_{I}^{\ast }=(s_{i}^{\ast })_{i\in I}\in S_{I}\)を定める概念を特定することを意味します。そこで、そのような概念を均衡概念(equilibriumconcept)や解の概念(solution concept)などと呼びます。また、均衡概念がそれぞれのベイジアンゲーム\(G\)に対して定める最適戦略の組\(s_{I}^{\ast }\)を\(G\)の均衡(equilibrium)や純粋戦略均衡(pure strategy equilibrium)などと呼び、均衡\(s_{I}^{\ast }\)を構成するプレイヤー\(i\)の最適戦略\(s_{i}^{\ast }\)を\(i\)の均衡戦略(equilibrium strategy)と呼びます。ゲーム\(G\)に対して均衡概念が均衡\(s_{I}^{\ast }\)を定めると、それぞれの状態\(\theta _{I}\in \Theta _{I}\)においてプレイヤーたちが選択する行動の組\(s_{I}^{\ast }\left( \theta _{I}\right) \in A\)が定まります。これをすべての状態\(\theta _{I}\)に対して特定すれば\(\left\{ s_{I}^{\ast}\left( \theta _{I}\right) \right\} _{\theta _{I}\in \Theta _{I}}\)を得ます。これを\(G\)の均衡結果(equilibrium outcome)と呼びます。これは、ある均衡\(s_{I}^{\ast }\)のもとで、それぞれの状態\(\theta _{I}\)において実現するゲームの結果を特定する概念です。均衡結果\(\left\{ s_{I}^{\ast }\left( \theta _{I}\right) \right\}_{\theta _{I}\in \Theta _{I}}\)が与えられれば、タイプ\(\theta _{i}\)のプレイヤー\(i\)が直面する結果の組\begin{equation*}\left\{ \left( s_{i}^{\ast }\left( \theta _{i}\right) ,s_{-i}^{\ast }\left(
\theta _{-i}\right) \right) \right\} _{\theta _{-i}\in \Theta _{-i}}
\end{equation*}が得られるため、均衡結果からタイプ\(\theta _{i}\)のプレイヤー\(i\)が得る中間期待利得\begin{equation*}E_{\theta _{-i}}\left[ u_{i}\left( s_{i}^{\ast }\left( \theta _{i}\right)
,s_{-i}^{\ast }\left( \theta _{-i}\right) ,\theta _{i},\theta _{-i}\right) \
|\ \theta _{i}\right] \end{equation*}が得られます。

ある均衡概念を分析家が定義したとき、その均衡概念のもとで、それぞれのベイジアンゲームに純粋戦略均衡は存在するとは限りません。また、純粋戦略均衡が存在する場合においても、それは一意的に定まるとは限りません。したがって、不完備情報の静学ゲームがベイジアンゲームとして表現されるとき、均衡概念とは、それぞれのベイジアンゲームに対してそこでの純粋戦略均衡を定める対応として定式化されます。

次回は支配戦略均衡と呼ばれる均衡概念について解説します。

質問・コメント(プレミアム会員限定) 次へ進む
< 前のページ
次のページ >
Share on twitter
Twitterで共有
Share on email
メールで共有
RELATED KNOWLEDGE

関連知識

DISCUSSION

質問とコメント

プレミアム会員専用コンテンツです
ログイン】【会員登録