WIIS

不完備情報の静学ゲーム

ベイジアンゲームにおける信念と中間期待利得

目次

関連知識

Mailで保存
Xで共有

ベイジアンゲームにおける信念(タイプが離散型の場合)

プレイヤーたちが直面する戦略的状況が不完備情報の静学ゲームであるとともに、それがベイジアンゲーム\(G\)として定式化されているものとします。ベイジアンゲームにおけるプレイヤー\(i\in I\)の純粋戦略とは、自身のそれぞれのタイプ\(\theta _{i}\in \Theta _{i}\)に対して、そのときに自分が選択するであろう行動\(s_{i}\left( \theta _{i}\right) \in A_{i}\)を1つずつ写像\begin{equation*}s_{i}:\Theta _{i}\rightarrow A_{i}
\end{equation*}として定式化されます。プレイヤー\(i\)は自身の真のタイプを知っていますが(便宜的にこれを\(\theta _{i}^{\ast }\)で表記します)、純粋戦略\(s_{i}\)のもとでは、真のタイプ\(\theta _{i}^{\ast }\)のもとでの行動\(s_{i}\left( \theta _{i}^{\ast }\right) \)を指定するだけでなく、真のタイプとは限らないそれぞれのタイプ\(\theta _{i}\)に対しても、その場合に自分が選ぶであろう行動\(s_{i}\left(\theta _{i}\right) \)をそれぞれ指定する必要があります。

プレイヤー\(i\)のタイプが\(\theta _{i}\)であるとき、彼が直面し得る状態ゲームからなる集合は、\begin{equation*}\left\{ G\left( \theta _{i},\theta _{-i}\right) \right\} _{\theta _{-i}\in
\Theta _{-i}}
\end{equation*}です。プレイヤー\(i\)は自身のタイプ\(\theta _{i}\)を観察できますが、他のプレイヤーたちのタイプ\(\theta _{-i}\)は観察できないため、自分のタイプが\(\theta _{i}\)の場合に\(\left\{ G\left( \theta _{i},\theta _{-i}\right) \right\} _{\theta _{-i}\in\Theta _{-i}}\)の中のどの状態ゲームを実際にプレーすることになるか識別できません。プレイヤー\(i\)が純粋戦略\(s_{i}\)を選ぶこととは、自身のそれぞれのタイプ\(\theta _{i}\)に対して特定の行動\(s_{i}\left( \theta _{i}\right) \)を1つずつ事前に選び、その行動のもとで自分が直面し得る\(\left\{ G\left( \theta_{i},\theta _{-i}\right) \right\} _{\theta _{-i}\in \Theta _{-i}}\)に属するすべての状態ゲームに備えることを意味します。

こうした不確実な状況下で意思決定を迫られるプレイヤー\(i\)は、自身のそれぞれのタイプ\(\theta _{i}\)に対して、\(\left\{ G\left( \theta _{i},\theta _{-i}\right) \right\} _{\theta _{-i}\in\Theta _{-i}}\)に属する状態ゲームがそれぞれどの程度の確率で起こり得るかを主観的に定めた上で、その予想にもとづいて意思決定を行うものとします。\(\left\{ G\left( \theta _{i},\theta _{-i}\right) \right\}_{\theta _{-i}\in \Theta _{-i}}\)に属するそれぞれの状態ゲームの発生確率を定めることは、\(\Theta _{-i}\)に属するそれぞれの値\(\theta _{-i}\)の発生確率を定めることに等しいため、プレイヤー\(i\)のタイプの値が\(\theta _{i}\)であるときに抱く主観的な予想は、他のプレイヤーたちのタイプ\(\theta _{-i}\)を確率変数とみなした場合の同時確率分布として表現されます。

具体的には、プレイヤーたちのタイプ集合が有限集合や可算集合である場合には、すなわちタイプが離散型の確率変数である場合には、プレイヤー\(i\)が抱く予想は確率変数\(\theta _{-i}\)の同時確率分布を記述する同時確率質量関数\begin{equation*}f_{i}:\mathbb{R} ^{n-1}\rightarrow \mathbb{R} \end{equation*}として定式化されます。また、これに対応する同時分布関数を、\begin{equation*}
F_{i}:\mathbb{R} ^{n-1}\rightarrow \mathbb{R} \end{equation*}で表記します。つまり、プレイヤー\(i\)は他のプレイヤーたちのタイプが\(\theta _{-i}\)である確率を\(f_{i}\left( \theta _{-i}\right) \)と予想し、他のプレイヤーたちのタイプが\(\theta _{-i}\)以下である確率を\(F_{i}\left( \theta _{-i}\right) \)と予想するということです。

ただし、プレイヤー\(i\)が持つ私的情報\(\theta _{i}\)の中には、他のプレイヤーたちのタイプ\(\theta _{-i}\)を予想する上で参考になる情報が含まれている可能性があります。そのような場合には、プレイヤー\(i\)は\(\theta _{i}\)に含まれるそのような情報を参照しながら\(\theta _{-i}\)の同時確率分布を予想できるため、一般的には、プレイヤー\(i\)が自身のタイプの値が\(\theta _{i}\)であるときに設定する主観的確率は、条件付きの同時確率質量関数\begin{equation*}f_{i}\left( \cdot |\theta _{i}\right) :\mathbb{R} ^{n-1}\rightarrow \mathbb{R} \end{equation*}として定式化すべきです。また、これに対応する条件付きの同時分布関数を、\begin{equation*}
F_{i}\left( \cdot |\theta _{i}\right) :\mathbb{R} ^{n-1}\rightarrow \mathbb{R} \end{equation*}で表記します。つまり、プレイヤー\(i\)は自身のタイプが\(\theta _{i}\)である場合、他のプレイヤーたちのタイプが\(\theta _{-i}\)である確率を\(f_{i}\left(\theta _{-i}|\theta _{i}\right) \)と予想し、他のプレイヤーたちのタイプが\(\theta _{-i}\)以下である確率を\(F_{i}\left( \theta_{-i}|\theta _{i}\right) \)と予想するということです。以上のような条件付きの同時確率質量関数\(f_{i}\left(\cdot |\theta _{i}\right) \)ないし同時分布関数\(F_{i}\left( \cdot |\theta _{i}\right) \)をタイプ\(\theta _{i}\)のプレイヤー\(i\)の信念(belief)と呼びます。\(f_{i}\left(\cdot |\theta _{i}\right) \)はプレイヤー\(i\)の主観的な予想であるため、これはプレイヤー\(i\)の私的情報であり、プレイヤーたちの共有知識ではありません。

繰り返しになりますが、ベイジアンゲーム\(G\)において、それぞれのプレイヤー\(i\)は自身のタイプの真の値\(\theta _{i}^{\ast }\)のもとでの行動を考えるだけでなく、真の値とは限らないそれぞれの値\(\theta _{i}\)に対してもその場合に自分が選ぶであろう行動を考える必要があります。したがって、信念についても同様に、自身のタイプの真の値\(\theta _{i}^{\ast }\)のもとでの信念\(f_{i}\left( \cdot |\theta_{i}^{\ast }\right) \)だけでなく、真の値とは限らないそれぞれの値\(\theta _{i}\)に対しても、その場合に自分が抱くであろう信念\(f_{i}\left( \cdot |\theta _{i}\right) \)をそれぞれ考えておく必要があります。つまり、ベイジアンゲーム\(G\)においてプレイヤー\(i\)が意思決定を行うためには、自身のタイプのそれぞれの値のもとでの信念からなる体系\begin{equation*}f_{i}=\left\{ f_{i}\left( \cdot |\theta _{i}\right) \right\} _{\theta
_{i}\in \Theta _{i}}
\end{equation*}が必要です。信念として条件付き同時分布関数を採用する場合、信念の体系を、\begin{equation*}
F_{i}=\left\{ F_{i}\left( \cdot |\theta _{i}\right) \right\} _{\theta
_{i}\in \Theta _{i}}
\end{equation*}で表記します。これをプレイヤー\(i\)の信念(belief)と呼びます。タイプ\(\theta _{i}\)のプレイヤー\(i\)の信念\(f_{i}\left( \cdot|\theta _{i}\right) \)がプレイヤー\(i\)の私的情報である以上、プレイヤー\(i\)の信念\(f_{i}\)もまたプレイヤー\(i\)の私的情報です。

例(信念)
ベイジアンゲーム\(G\)のプレイヤー集合が、\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}であり、行動集合が、\begin{equation*}
A_{1}=A_{2}=\left\{ a,b\right\}
\end{equation*}であり、タイプ集合が、\begin{eqnarray*}
\Theta _{1} &=&\left\{ \theta _{11}\right\} \\
\Theta _{2} &=&\left\{ \theta _{21},\theta _{22}\right\}
\end{eqnarray*}であるものとします。つまり、状態集合は、\begin{equation*}
\left\{ \left( \theta _{11},\theta _{21}\right) ,\left( \theta _{11},\theta
_{22}\right) \right\}
\end{equation*}です。状態ゲーム\(G\left(\theta _{11},\theta _{21}\right) \)が以下の利得行列

$$\begin{array}{ccc}
\hline
1\diagdown 2 & a & b \\ \hline
a & 2,1 & 0,0 \\ \hline
b & 0,0 & 1,2 \\ \hline
\end{array}$$

として、状態ゲーム\(G\left( \theta _{11},\theta _{22}\right) \)が以下の利得行列

$$\begin{array}{ccc}
\hline
1\diagdown 2 & a & b \\ \hline
a & 2,0 & 0,2 \\ \hline
b & 0,1 & 1,0 \\ \hline
\end{array}$$

としてそれぞれ与えられているものとします。プレイヤー\(2\)のタイプとしては\(\theta _{21}\)と\(\theta _{22}\)の2通りが起こり得るため、プレイヤー\(1\)は相手のタイプがどちらであるか予想する必要があります。例えば、タイプ\(\theta _{11}\)のプレイヤー\(1\)は相手のタイプが\(\theta _{21}\)である確率を\(\frac{1}{3}\)と予想し、\(\theta _{22}\)である確率を\(\frac{2}{3}\)と予想する場合、その信念\(f_{1}\left( \cdot |\theta_{11}\right) :\mathbb{R} \rightarrow \mathbb{R} \)は、\begin{eqnarray*}f_{1}\left( \theta _{21}|\theta _{11}\right) &=&\frac{1}{3} \\
f_{1}\left( \theta _{23}|\theta _{11}\right) &=&\frac{2}{3}
\end{eqnarray*}として表現されます。逆に、プレイヤー\(1\)のタイプとしては1通り\(\theta _{11}\)だけであるため、プレイヤー\(2\)は相手のタイプを予想する必要はありません。その状況をあえて定式化すると、タイプ\(\theta _{21}\)のプレイヤー\(2\)の信念\(f_{2}\left( \cdot |\theta _{21}\right) :\mathbb{R} \rightarrow \mathbb{R} \)は、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{21}\right) =1
\end{equation*}を満たし、タイプ\(\theta _{22}\)のプレイヤー\(2\)の信念\(f_{2}\left( \cdot |\theta _{22}\right) :\mathbb{R} \rightarrow \mathbb{R} \)は、\begin{equation*}f_{2}\left( \theta _{11}|\theta _{22}\right) =1
\end{equation*}を満たすということです。

 

ベイジアンゲームにおける信念(タイプが連続型の場合)

プレイヤーたちのタイプ集合が\(\mathbb{R} \)上の区間のような非可算集合である場合、すなわちタイプが連続型の確率変数である場合には、タイプ\(\theta _{i}\)のプレイヤー\(i\)の信念は条件付きの同時確率密度関数\begin{equation*}f_{i}\left( \cdot |\theta _{i}\right) :\mathbb{R} ^{n-1}\rightarrow \mathbb{R} \end{equation*}として定式化されます。また、これに対応する条件付きの同時分布関数を、\begin{equation*}
F_{i}\left( \cdot |\theta _{i}\right) :\mathbb{R} ^{n-1}\rightarrow \mathbb{R} \end{equation*}で表記します。\(f_{i}\left( \cdot|\theta _{i}\right) \)はプレイヤー\(i\)の主観的な予想であるため、これはプレイヤー\(i\)の私的情報であり、プレイヤーたちの共有知識ではありません。

プレイヤー\(i\)の信念は自身のタイプのそれぞれの値のもとでの信念からなる体系\begin{equation*}f_{i}=\left\{ f_{i}\left( \cdot |\theta _{i}\right) \right\} _{\theta
_{i}\in \Theta _{i}}
\end{equation*}です。信念として条件付き同時分布関数を採用する場合、プレイヤー\(i\)の信念は、\begin{equation*}F_{i}=\left\{ F_{i}\left( \cdot |\theta _{i}\right) \right\} _{\theta
_{i}\in \Theta _{i}}
\end{equation*}となります。タイプ\(\theta _{i}\)のプレイヤー\(i\)の信念\(f_{i}\left( \cdot |\theta _{i}\right) \)がプレイヤー\(i\)の私的情報である以上、プレイヤー\(i\)の信念\(f_{i}\)もまたプレイヤー\(i\)の私的情報です。

例(信念)
1つの商品をめぐって\(2\)人が入札を行うオークションを分析します。プレイヤー集合は、\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}です。それぞれの入札者\(i\in I\)の商品への評価額\(\theta _{i}\)は私的情報であり、これは\(\underline{\theta }\)以上\(\overline{\theta }\)以下の任意の実数を値としてとり得るものとします。プレイヤー\(i\)のタイプ集合は、\begin{equation*}\Theta _{i}=\left[ \underline{\theta },\overline{\theta }\right] \end{equation*}です。それぞれの入札者\(i\)の行動\(a_{i}\)は入札額であり、任意の非負の実数を入札できるものとします。プレイヤー\(i\)の行動集合は、\begin{equation*}A_{i}=[0,+\infty )
\end{equation*}です。ただし、\begin{equation*}
\Theta _{i}\subset A_{i}
\end{equation*}が成り立つものとします。入札者たちが提示する入札額の組が\(a_{I}=\left( a_{1},a_{2}\right) \)であるとき、\begin{equation*}a_{i}>a_{j}
\end{equation*}を満たす入札者\(i\)が商品を落札し、自身の入札額\(a_{i}\)に等しい金額を支払うものとします。他の任意の入札者\(j\ \left( \not=i\right) \)は商品を落札できず、支払いも行いません。\(a_{i}\not=a_{j}\)が成り立つものとします。状態\(\theta _{I}=\left( \theta_{1},\theta _{2}\right) \)における入札者\(i\in I\)の利得関数\(u_{i}\left( \cdot,\theta _{I}\right) :A\rightarrow \mathbb{R} \)がそれぞれの\(a_{I}\in A\)に対して定める値は、\begin{equation*}u_{i}\left( a_{I},\theta _{I}\right) =\left\{
\begin{array}{cc}
\theta _{i}-a_{i} & \left( if\ a_{i}>a_{j}\right) \\
0 & \left( if\ a_{i}<a_{j}\right)
\end{array}\right.
\end{equation*}です。入札者\(1\)が入札者\(2\)による評価額\(\theta _{2}\)を予想する際に、自分が高い評価額を持っている場合には相手も高い評価額を持っている確率を高く見積もり、逆に、自分が低い評価額を持っている場合には相手も低い評価額を持っている確率を高く見積もるのであれば、これは、入札者\(1\)は自身のタイプに応じて異なる信念を持っている状況に相当します。つまり、タイプ\(\theta _{1}\)の入札者\(1\)の信念\(f_{1}\left( \cdot |\theta _{1}\right) :\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(\theta _{2}\in \Theta _{2}\)に対して、\begin{equation*}f_{1}\left( \theta _{2}|\theta _{1}\right) =\left\{
\begin{array}{cl}
\frac{2\left( \theta _{2}-\underline{\theta }\right) }{\left( \overline{\theta }-\underline{\theta }\right) \left( \theta _{2}-\underline{\theta }\right) } & \left( if\ \underline{\theta }\leq \theta _{2}<\theta
_{1}\right) \\
\frac{2}{\overline{\theta }-\underline{\theta }} & \left( if\ \theta
_{2}=\theta _{1}\right) \\
\frac{2\left( \overline{\theta }-\theta _{2}\right) }{\left( \overline{\theta }-\underline{\theta }\right) \left( \overline{\theta }-\theta
_{2}\right) } & \left( if\ \theta _{1}<\theta _{2}<\overline{\theta }\right)
\\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるものとします。実際、これは\(\overline{\theta }\)を最大値、\(\underline{\theta }\)を最小値、そして\(\theta _{1}\)をモードとする三角分布を表す確率密度関数であるため、これは、入札者\(2\)の評価額の分布の頂点が自身の評価額\(\theta _{1}\)に依存するという予測、すなわち信念を表現しています。一方、入札者\(2\)は自身による評価額\(\theta _{2}\)の水準に関わらず、入札者\(1\)の評価額は\(\left[ \underline{\theta },\overline{\theta }\right] \)の中を一様に分布しているものと予想しているものとします。つまり、タイプ\(\theta _{2}\)の入札者\(2\)の信念\(f_{2}\left(\cdot |\theta _{2}\right) :\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(\theta _{1}\in \Theta _{1}\)に対して、\begin{equation*}f_{2}\left( \theta _{1}|\theta _{2}\right) =\left\{
\begin{array}{cl}
\frac{1}{\overline{\theta }-\underline{\theta }} & \left( if\ \underline{\theta }\leq \theta _{1}\leq \overline{\theta }\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるということです。

 

純粋戦略の組と信念のもとでの中間期待利得

ベイジアンゲーム\(G\)においてプレイヤー\(i\)は自身のタイプ\(\theta _{i}\)を観察できますが、他のプレイヤーたちのタイプ\(\theta _{-i}\)は観察できないため、自分のタイプが\(\theta _{i}\)の場合に\(\left\{ G\left( \theta _{i},\theta _{-i}\right) \right\} _{\theta _{-i}\in\Theta _{-i}}\)の中のどの状態ゲームを実際にプレーすることになるか識別できません。プレイヤー\(i\)が純粋戦略\(s_{i}:\Theta _{i}\rightarrow A_{i}\)を選ぶこととは、自身のそれぞれのタイプ\(\theta _{i}\)に対して特定の行動\(s_{i}\left( \theta_{i}\right) \)を1つずつ事前に選び、その行動のもとで自分が直面し得る\(\left\{ G\left( \theta _{i},\theta _{-i}\right) \right\} _{\theta_{-i}\in \Theta _{-i}}\)に属するすべての状態ゲームに備えることを意味します。では、プレイヤー\(i\)は何を基準に最適な純粋戦略を選べばよいのでしょうか。順番に考えます。

まずは、ベイジアンゲーム\(G\)においてプレイヤー\(i\)が観察可能な情報を整理しましょう。プレイヤー\(i\)は自身のタイプ\(\theta _{i}\)を観察できます。また、任意のプレイヤーのタイプ集合と行動集合は共有知識であるため、写像\(s_{j}:\Theta _{j}\rightarrow A_{j}\)として定義される他の任意のプレイヤー\(j\ \left(\not=i\right) \)の任意の純粋戦略\(s_{j}\)は共有知識です。したがって、プレイヤー\(i\)にとって、他のプレイヤーたちの純粋戦略\(s_{-i}\)の組からなる集合\(S_{-i}\)や、他のプレイヤーたちのタイプ集合\(\Theta _{-i}\)は観察可能です。

プレイヤー\(i\)のタイプが\(\theta _{i}\)であるものとします。他のプレイヤーたちのタイプ\(\theta _{-i}\)と彼らが選ぶ純粋戦略\(s_{-i}\)を所与としたとき、自身の純粋戦略\(s_{i}\)がもたらす利得をどのように計算すればよいでしょうか。この場合、プレイヤーたちが選ぶ行動からなる組は、\begin{equation*}s_{I}\left( \theta _{I}\right) =\left( s_{i}\left( \theta _{i}\right)
,s_{-i}\left( \theta _{-i}\right) \right) \in A_{I}
\end{equation*}です。この状態\(\theta _{I}=\left(\theta _{i},\theta _{-i}\right) \)におけるプレイヤー\(i\)の利得関数は\(u_{i}\left( \cdot ,\theta _{I}\right) :A\rightarrow \mathbb{R} \)であるため、以上の行動の組のもとで実現する結果からプレイヤー\(i\)が得る利得は、\begin{equation*}u_{i}\left( s_{I}\left( \theta _{I}\right) ,\theta _{I}\right) =u_{i}\left(
s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta
_{i},\theta _{-i}\right)
\end{equation*}となります。繰り返しになりますが、この利得はタイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略\(s_{i}\)を選んだときに、他のプレイヤーたちのタイプが\(\theta _{-i}\)であるとともに彼らが選ぶ純粋戦略が\(s_{-i}\)であるという前提のもと、プレイヤー\(i\)が得る利得に相当します。言い換えると、これは状態ゲーム\(G\left( \theta_{i},\theta _{-i}\right) \)において純粋戦略の組\(\left( s_{i},s_{-i}\right) \)がプレイヤー\(i\)にもたらす利得に相当します。

タイプ\(\theta _{i}\)のプレイヤー\(i\)は他のプレイヤーたちのタイプ\(\theta _{-i}\)の真の値を知りませんが、\(\theta _{-i}\)がとり得る値の集合\(\Theta _{-i}\)を把握しているため、\(\Theta _{-i}\)に属するそれぞれの\(\theta _{-i}\)に対して上の利得\(u_{i}\left( s_{I}\left( \theta _{I}\right) ,\theta _{I}\right) \)を計算できます。さらに、\(\theta _{-i}\)がしたがう分布の予想を、タイプ\(\theta _{i}\)のもとでの信念\(f_{i}\left( \cdot |\theta _{i}\right) :\Theta _{-i}\rightarrow \mathbb{R} \)として主観的に形成しているため、結局、タイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}=\left( s_{i},s_{-i}\right) \)から得る利得の期待値を計算できます。

具体的には、プレイヤーたちのタイプが離散型の確率変数である場合、タイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}\)から得る利得の期待値は、\begin{equation*}\sum_{\theta _{-i}\in \Theta _{-i}}\left[ u_{i}\left( s_{I}\left( \theta
_{I}\right) ,\theta _{I}\right) \cdot f_{i}\left( \theta _{-i}|\theta
_{i}\right) \right] =\sum_{\theta _{-i}\in \Theta _{-i}}\left[ u_{i}\left(
s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta
_{i},\theta _{-i}\right) \cdot f_{i}\left( \theta _{-i}|\theta _{i}\right) \right] \end{equation*}として導出されます。一方、プレイヤーたちのタイプが連続型の確率変数である場合、タイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}\)から得る利得の期待値は、\begin{equation*}\int_{\theta _{-i}\in \Theta _{-i}}\left[ u_{i}\left( s_{I}\left( \theta
_{I}\right) ,\theta _{I}\right) \cdot f_{i}\left( \theta _{-i}|\theta
_{i}\right) \right] d\theta _{-i}=\int_{\theta _{-i}\in \Theta _{-i}}\left[
u_{i}\left( s_{i}\left( \theta _{i}\right) ,s_{-i}\left( \theta _{-i}\right)
,\theta _{i},\theta _{-i}\right) \cdot f_{i}\left( \theta _{-i}|\theta
_{i}\right) \right] d\theta _{-i}
\end{equation*}として導出されます。この値は、ベイジアンゲーム\(G\)においてタイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略\(s_{i}\)を選んだときに、他のプレイヤーたちが選ぶ純粋戦略が\(s_{-i}\)であるという前提のもとで、プレイヤー\(i\)が得る利得の期待値に相当します。これをタイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}\)のもとで直面する中間期待利得(interim expected payoff)や条件付き期待利得などと呼び、\begin{equation*}E_{\theta _{-i}}\left[ u_{i}\left( s_{I}\left( \theta _{I}\right) ,\theta
_{I}\right) \ |\ \theta _{i}\right] \end{equation*}または、\begin{equation*}
E_{\theta _{-i}}\left[ u_{i}\left( s_{i}\left( \theta _{i}\right)
,s_{-i}\left( \theta _{-i}\right) ,\theta _{i},\theta _{-i}\right) \ |\
\theta _{i}\right] \end{equation*}などで表記します。

例(中間期待利得)
ベイジアンゲーム\(G\)のプレイヤー集合が、\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}であり、行動集合が、\begin{equation*}
A_{1}=A_{2}=\left\{ a,b\right\}
\end{equation*}であり、タイプ集合が、\begin{eqnarray*}
\Theta _{1} &=&\left\{ \theta _{11}\right\} \\
\Theta _{2} &=&\left\{ \theta _{21},\theta _{22}\right\}
\end{eqnarray*}であるものとします。つまり、状態集合は、\begin{equation*}
\left\{ \left( \theta _{11},\theta _{21}\right) ,\left( \theta _{11},\theta
_{22}\right) \right\}
\end{equation*}です。状態ゲーム\(G\left(\theta _{11},\theta _{21}\right) \)が以下の利得行列

$$\begin{array}{ccc}
\hline
1\diagdown 2 & a & b \\ \hline
a & 2,1 & 0,0 \\ \hline
b & 0,0 & 1,2 \\ \hline
\end{array}$$

として、状態ゲーム\(G\left( \theta _{11},\theta _{22}\right) \)が以下の利得行列

$$\begin{array}{ccc}
\hline
1\diagdown 2 & a & b \\ \hline
a & 2,0 & 0,2 \\ \hline
b & 0,1 & 1,0 \\ \hline
\end{array}$$

としてそれぞれ与えられているものとします。タイプ\(\theta _{11}\)のプレイヤー\(1\)の信念\(f_{1}\left( \cdot |\theta _{11}\right) :\mathbb{R} \rightarrow \mathbb{R} \)が、\begin{eqnarray*}f_{1}\left( \theta _{21}|\theta _{11}\right) &=&\frac{1}{3} \\
f_{1}\left( \theta _{23}|\theta _{11}\right) &=&\frac{2}{3}
\end{eqnarray*}を満たすものとします。プレイヤー\(1\)の純粋戦略\(s_{1}\)が、\begin{equation*}s_{1}\left( \theta _{11}\right) =a
\end{equation*}を満たし、プレイヤー\(2\)の純粋戦略\(s_{2}\)が、\begin{eqnarray*}s_{2}\left( \theta _{21}\right) &=&a \\
s_{2}\left( \theta _{22}\right) &=&b
\end{eqnarray*}を満たすものとします。タイプ\(\theta _{11}\)のプレイヤー\(1\)が以上の純粋戦略の組\(\left( s_{1},s_{2}\right) \)のもとで直面する中間期待利得は、\begin{eqnarray*}&&u_{1}\left( s_{1}\left( \theta _{11}\right) ,s_{2}\left( \theta
_{21}\right) ,\theta _{11},\theta _{21}\right) \cdot f_{1}\left( \theta
_{21}|\theta _{11}\right) +u_{1}\left( s_{1}\left( \theta _{11}\right)
,s_{2}\left( \theta _{22}\right) ,\theta _{11},\theta _{22}\right) \cdot
f_{1}\left( \theta _{22}|\theta _{11}\right) \\
&=&u_{1}\left( a,a,\theta _{11},\theta _{21}\right) \cdot \frac{1}{3}+u_{1}\left( a,b,\theta _{11},\theta _{22}\right) \cdot \frac{2}{3}\quad
\because \left( s_{1},s_{2}\right) \text{および}f_{1}\left( \cdot |\theta _{11}\right) \text{の定義} \\
&=&2\cdot \frac{1}{3}+0\cdot \frac{2}{3}\quad \because u_{1}\text{の定義} \\
&=&\frac{2}{3}
\end{eqnarray*}です。

例(中間期待利得)
1つの商品をめぐって\(2\)人が入札を行うオークションを分析します。プレイヤー集合は、\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}です。それぞれの入札者\(i\in I\)の商品への評価額\(\theta _{i}\)は私的情報であり、プレイヤー\(i\)のタイプ集合は、\begin{equation*}\Theta _{i}=\left[ 0,100\right] \end{equation*}です。それぞれの入札者\(i\)の行動\(a_{i}\)は入札額であり、任意の非負の実数を入札できるものとします。プレイヤー\(i\)の行動集合は、\begin{equation*}A_{i}=[0,+\infty )
\end{equation*}です。入札者たちが提示する入札額の組が\(a_{I}=\left( a_{1},a_{2}\right) \)であるとき、\begin{equation*}a_{i}>a_{j}
\end{equation*}を満たす入札者\(i\)が商品を落札し、自身の入札額\(a_{i}\)に等しい金額を支払うものとします。他の任意の入札者\(j\ \left( \not=i\right) \)は商品を落札できず、支払いも行いません。\(a_{i}\not=a_{j}\)が成り立つものとします。状態\(\theta _{I}=\left( \theta_{1},\theta _{2}\right) \)における入札者\(i\in I\)の利得関数\(u_{i}\left( \cdot,\theta _{I}\right) :A\rightarrow \mathbb{R} \)がそれぞれの\(a_{I}\in A\)に対して定める値は、\begin{equation*}u_{i}\left( a_{I},\theta _{I}\right) =\left\{
\begin{array}{cc}
\theta _{i}-a_{i} & \left( if\ a_{i}>a_{j}\right) \\
0 & \left( if\ a_{i}<a_{j}\right)
\end{array}\right.
\end{equation*}です。入札者\(1\)は自身による評価額\(\theta _{1}\)の水準に関わらず、入札者\(2\)の評価額\(\theta _{2}\)は\(\left[ 0,100\right] \)上の一様分布にしたがって分布しているものと予想します。つまり、タイプ\(\theta _{1}\)の入札者\(1\)の信念\(f_{1}\left(\cdot |\theta _{1}\right) :\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(\theta _{2}\in \Theta _{2}\)に対して、\begin{equation*}f_{1}\left( \theta _{2}|\theta _{1}\right) =\left\{
\begin{array}{cl}
\frac{1}{100} & \left( if\ 0\leq \theta _{2}\leq 100\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるということです。2人の純粋戦略\(s_{1},s_{2}\)が、\begin{eqnarray*}\forall \theta _{1} &\in &\Theta _{1}:s_{1}\left( \theta _{1}\right) =\frac{\theta _{1}}{2} \\
\forall \theta _{2} &\in &\Theta _{2}:s_{2}\left( \theta _{2}\right) =\theta
_{2}
\end{eqnarray*}を満たすものとします。つまり、入札者\(1\)は商品への評価額の\(\frac{1}{2}\)を常に入札する一方、入札者\(2\)は商品への評価額をそのまま正直に入札するということです。タイプ\(\theta _{1}\)のプレイヤー\(1\)が以上の純粋戦略の組\(\left( s_{1},s_{2}\right) \)のもとで直面する中間期待利得は、\begin{eqnarray*}&&\int_{\theta _{2}\in \Theta _{2}}\left[ u_{1}\left( s_{1}\left( \theta
_{1}\right) ,s_{2}\left( \theta _{2}\right) ,\theta _{1},\theta _{2}\right)
\cdot f_{1}\left( \theta _{2}|\theta _{1}\right) \right] d\theta _{2} \\
&=&\int_{0}^{100}\left[ u_{1}\left( \frac{\theta _{1}}{2},\theta _{2},\theta
_{1},\theta _{2}\right) \cdot \frac{1}{100}\right] d\theta _{2}\quad
\because \left( s_{1},s_{2}\right) \text{および}f_{1}\left( \cdot |\theta _{11}\right) \text{の定義} \\
&=&\frac{1}{100}\int_{0}^{100}u_{1}\left( \frac{\theta _{1}}{2},\theta
_{2},\theta _{1},\theta _{2}\right) d\theta _{2} \\
&=&\frac{1}{100}\left[ \int_{0}^{\frac{\theta _{1}}{2}}\left( \theta _{1}-\frac{\theta _{1}}{2}\right) d\theta _{2}+\int_{\frac{\theta _{1}}{2}}^{100}0d\theta _{2}\right] \quad \because u_{1}\text{の定義} \\
&=&\frac{1}{100}\left[ \int_{0}^{\frac{\theta _{1}}{2}}\left( \frac{\theta
_{1}}{2}\right) d\theta _{2}+0\right] \\
&=&\frac{1}{100}\left[ \frac{\theta _{1}}{2}\theta _{2}\right] _{0}^{\frac{\theta _{1}}{2}} \\
&=&\frac{1}{100}\cdot \frac{\theta _{1}}{2}\cdot \frac{\theta _{1}}{2} \\
&=&\frac{\theta _{1}^{2}}{400}
\end{eqnarray*}となります。

繰り返しになりますが、プレイヤーたちのタイプが離散型の確率変数である場合、タイプ\(\theta _{i}\)のプレイヤー\(i\)が純粋戦略の組\(s_{I}\)のもとで直面する中間期待利得は、\begin{equation*}\sum_{\theta _{-i}\in \Theta _{-i}}\left[ u_{i}\left( s_{i}\left( \theta
_{i}\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{i},\theta
_{-i}\right) \cdot f_{i}\left( \theta _{-i}|\theta _{i}\right) \right] \end{equation*}となります。他の条件は一定で、プレイヤー\(i\)のタイプだけが\(\theta _{i}\)から\(\theta _{i}^{\prime }\)へ変化すると、中間期待利得は、\begin{equation*}\sum_{\theta _{-i}\in \Theta _{-i}}\left[ u_{i}\left( s_{i}\left( \theta
_{i}^{\prime }\right) ,s_{-i}\left( \theta _{-i}\right) ,\theta _{i}^{\prime
},\theta _{-i}\right) \cdot f_{i}\left( \theta _{-i}|\theta _{i}^{\prime
}\right) \right] \end{equation*}へ変化します。両者を比較すると明らかですが、純粋戦略の組\(s_{I}\)はそのままでプレイヤー\(i\)のタイプだけが\(\theta _{i}\)から\(\theta _{i}^{\prime }\)へ変化すると、プレイヤー\(i\)に関して以下の要素が変化します。

  1. 自身の純粋戦略\(s_{i}\)が自身のタイプ\(\theta _{i}^{\prime }\)に対して定める行動\(s_{i}\left( \theta _{i}^{\prime }\right) \)は、\(s_{i}\)が自身のタイプ\(\theta _{i}\)に対して定める行動\(s_{i}\left( \theta_{i}\right) \)とは異なり得る。
  2. タイプ\(\theta _{i}^{\prime }\)のもとでの信念\(f_{i}\left( \theta _{-i}|\theta_{i}^{\prime }\right) \)は、タイプ\(\theta _{i}\)のもとでの信念\(f_{i}\left( \theta_{-i}|\theta _{i}\right) \)とは異なり得る。
  3. タイプ\(\theta _{i}^{\prime }\)のもとでの利得関数の組\(\left\{u_{i}\left( \cdot ,\theta _{i}^{\prime },\theta _{-i}\right) \right\}_{\theta _{-i}\in \Theta _{-i}}\)は、タイプ\(\theta _{i}\)のもとでの利得関数の組\(\left\{ u_{i}\left( \cdot ,\theta _{i},\theta_{-i}\right) \right\} _{\theta _{-i}\in \Theta _{-i}}\)とは異なり得る。

つまり、純粋戦略の組\(s_{I}\)はそのままでも、プレイヤー\(i\)のタイプが変化しただけで上の要素が変化し得るため、導出される中間利得もまた異なる値になり得ます。中間期待利得を条件付き期待利得と呼ぶ理由はここにあります。つまり、中間期待利得とは、プレイヤー\(i\)の特定のタイプを前提とした上で導出される利得の期待値に他なりません。言い換えると、中間期待利得とは、プレイヤーが自身のタイプを知った時点において、それぞれの純粋戦略の組に対して計算し得る利得の期待値です。プレイヤーたちのタイプが連続型の確率変数である場合も同様です。

 

演習問題

問題(中間期待利得)
ベイジアンゲーム\(G\)のプレイヤー集合が、\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}であり、行動集合が、\begin{equation*}
A_{1}=A_{2}=\left\{ a,b\right\}
\end{equation*}であり、タイプ集合が、\begin{eqnarray*}
\Theta _{1} &=&\left\{ \theta _{11}\right\} \\
\Theta _{2} &=&\left\{ \theta _{21},\theta _{22}\right\}
\end{eqnarray*}であるものとします。つまり、状態集合は、\begin{equation*}
\left\{ \left( \theta _{11},\theta _{21}\right) ,\left( \theta _{11},\theta
_{22}\right) \right\}
\end{equation*}です。状態ゲーム\(G\left(\theta _{11},\theta _{21}\right) \)が以下の利得行列

$$\begin{array}{ccc}
\hline
1\diagdown 2 & a & b \\ \hline
a & 2,1 & 0,0 \\ \hline
b & 0,0 & 1,2 \\ \hline
\end{array}$$

として、状態ゲーム\(G\left( \theta _{11},\theta _{22}\right) \)が以下の利得行列

$$\begin{array}{ccc}
\hline
1\diagdown 2 & a & b \\ \hline
a & 2,0 & 0,2 \\ \hline
b & 0,1 & 1,0 \\ \hline
\end{array}$$

としてそれぞれ与えられているものとします。タイプ\(\theta _{11}\)のプレイヤー\(2\)の信念\(f_{1}\left( \cdot |\theta _{11}\right) :\mathbb{R} \rightarrow \mathbb{R} \)は、\begin{eqnarray*}f_{1}\left( \theta _{21}|\theta _{11}\right) &=&\frac{1}{3} \\
f_{1}\left( \theta _{23}|\theta _{11}\right) &=&\frac{2}{3}
\end{eqnarray*}を満たすものとします。プレイヤー\(1\)の純粋戦略\(s_{1}\)が、\begin{equation*}s_{1}\left( \theta _{11}\right) =b
\end{equation*}を満たし、プレイヤー\(2\)の純粋戦略\(s_{2}\)が、\begin{eqnarray*}s_{2}\left( \theta _{21}\right) &=&b \\
s_{2}\left( \theta _{22}\right) &=&a
\end{eqnarray*}を満たすものとします。タイプ\(\theta _{11}\)のプレイヤー\(1\)が以上の純粋戦略の組\(\left( s_{1},s_{2}\right) \)のもとで直面する中間期待利得を求めてください。

解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(中間期待利得)
1つの商品をめぐって\(2\)人が入札を行うオークションを分析します。プレイヤー集合は、\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}です。それぞれの入札者\(i\in I\)の商品への評価額\(\theta _{i}\)は私的情報であり、プレイヤー\(i\)のタイプ集合は、\begin{equation*}\Theta _{i}=\left[ 0,100\right] \end{equation*}です。それぞれの入札者\(i\)の行動\(a_{i}\)は入札額であり、任意の非負の実数を入札できるものとします。プレイヤー\(i\)の行動集合は、\begin{equation*}A_{i}=[0,+\infty )
\end{equation*}です。入札者たちが提示する入札額の組が\(a_{I}=\left( a_{1},a_{2}\right) \)であるとき、\begin{equation*}a_{i}>a_{j}
\end{equation*}を満たす入札者\(i\)が商品を落札し、自身の入札額\(a_{i}\)に等しい金額を支払うものとします。他の任意の入札者\(j\ \left( \not=i\right) \)は商品を落札できず、支払いも行いません。\(a_{i}\not=a_{j}\)が成り立つものとします。状態\(\theta _{I}=\left( \theta_{1},\theta _{2}\right) \)における入札者\(i\in I\)の利得関数\(u_{i}\left( \cdot,\theta _{I}\right) :A\rightarrow \mathbb{R} \)がそれぞれの\(a_{I}\in A\)に対して定める値は、\begin{equation*}u_{i}\left( a_{I},\theta _{I}\right) =\left\{
\begin{array}{cc}
\theta _{i}-a_{i} & \left( if\ a_{i}>a_{j}\right) \\
0 & \left( if\ a_{i}<a_{j}\right)
\end{array}\right.
\end{equation*}です。入札者\(1\)は自身による評価額\(\theta _{1}\)の水準に関わらず、入札者\(2\)の評価額\(\theta _{2}\)は\(\left[ 0,100\right] \)上の一様分布にしたがって分布しているものと予想します。つまり、タイプ\(\theta _{1}\)の入札者\(1\)の信念\(f_{1}\left(\cdot |\theta _{1}\right) :\mathbb{R} \rightarrow \mathbb{R} \)はそれぞれの\(\theta _{2}\in \Theta _{2}\)に対して、\begin{equation*}f_{1}\left( \theta _{2}|\theta _{1}\right) =\left\{
\begin{array}{cl}
\frac{1}{100} & \left( if\ 0\leq \theta _{2}\leq 100\right) \\
0 & \left( otherwise\right)
\end{array}\right.
\end{equation*}を定めるということです。2人の純粋戦略\(s_{1},s_{2}\)が、\begin{eqnarray*}\forall \theta _{1} &\in &\Theta _{1}:s_{1}\left( \theta _{1}\right) =\frac{\theta _{1}}{2} \\
\forall \theta _{2} &\in &\Theta _{2}:s_{2}\left( \theta _{2}\right) =\frac{\theta _{2}}{2}
\end{eqnarray*}を満たすものとします。つまり、2人とも商品への評価額の\(\frac{1}{2}\)を常に入札するということです。タイプ\(\theta _{1}\)のプレイヤー\(1\)が以上の純粋戦略の組\(\left( s_{1},s_{2}\right) \)のもとで直面する中間期待利得を求めてください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録

不完備情報の静学ゲーム