展開型ゲームにおける混合戦略
完備情報の動学ゲームを展開型ゲーム\(\Gamma \)として表現したとき、それぞれのプレイヤー\(i\)は自身の純粋戦略集合\(S_{i}\)に含まれる何らかの純粋戦略を確定的に選ぶことが想定されています。その一方で、プレイヤー\(i\)が何らかの確率分布にもとづいて\(S_{i}\)に属する何らかの純粋戦略をランダムに選ぶような戦略を考えることもできます。そのような戦略を混合戦略(mixed strategy)と呼びます。以下では混合戦略の概念を定式化します。
プレイヤー\(i\)が有限\(m\)個の純粋戦略を持っている状況を想定します。つまり、\begin{equation*}S_{i}=\left\{ s_{i1},s_{i2},\cdots ,s_{im}\right\}
\end{equation*}です。このとき、プレイヤー\(i\)の混合戦略とは、\(S_{i}\)に属するそれぞれの純粋戦略\(s_{ij}\ \left( j=1,\cdots ,m\right) \)に対して、それが選ばれる確率\(\sigma_{i}(s_{ij})\in \mathbb{R} \)を定める確率関数\begin{equation*}\sigma _{i}:S_{i}\rightarrow \mathbb{R} \end{equation*}として定義されます。ただし、確率関数の定義より、\(\sigma _{i}\)は以下の性質\begin{eqnarray*}&&\left( a\right) \ \forall j\in \{1,\cdots ,m\}:0\leq \sigma
_{i}(s_{ij})\leq 1 \\
&&\left( b\right) \ \sum\limits_{j=1}^{m}\sigma _{i}(s_{ij})=1
\end{eqnarray*}をともに満たす必要があります。条件\(\left(a\right) \)は、混合戦略\(\sigma _{i}\)のもとで純粋戦略集合\(S_{i}\)に属するそれぞれの純粋戦略\(s_{ij}\)が選ばれる確率が\(0\)以上\(1\)以下であることを意味します。条件\(\left( b\right) \)は、混合戦略\(\sigma _{i}\)のもとで純粋戦略集合\(S_{i}\)に属するそれぞれの純粋戦略が選ばれる確率をすべて足し合わせると\(1\)になることを意味します。
プレイヤー\(i\)の純粋戦略集合が有限\(m\)個の純粋戦略を要素とする集合\(S_{i}=\{s_{i1},\cdots ,s_{im}\}\)である場合、混合戦略\(\sigma_{i}:S_{i}\rightarrow \mathbb{R} \)はそれぞれの純粋戦略\(s_{ij}\in S_{i}\)に対してそれが選ばれる確率に相当する実数\(\sigma _{i}\left( s_{ij}\right) \in \mathbb{R} \)を定めます。したがって、\(\sigma _{i}\)を指定することは、実数を成分とする\(m\)次元ベクトル\begin{equation*}\sigma _{i}=\left( \sigma _{i}\left( s_{i1}\right) ,\cdots ,\sigma
_{i}\left( s_{im}\right) \right) \in \mathbb{R} ^{m}
\end{equation*}を指定することと実質的に同じです。ただし、このベクトルは先の条件\(\left( a\right) ,\left( b\right) \)をともに満たすものでなければなりません。
プレイヤー\(1\)の情報集合からなる集合族は、\begin{equation*}\mathcal{H}_{1}=\left\{ \left\{ x_{0}\right\} \right\}
\end{equation*}であるため、プレイヤー\(1\)の純粋戦略集合は、\begin{eqnarray*}S_{1} &=&A\left( \left\{ x_{0}\right\} \right) \\
&=&\left\{ a_{11},a_{12}\right\}
\end{eqnarray*}となります。ただし、\(a_{11}\)は「情報集合\(\left\{x_{0}\right\} \)において行動\(a_{11}\)を選ぶ」という純粋戦略であり、\(a_{12}\)は「情報集合\(\left\{ x_{0}\right\} \)において行動\(a_{12}\)を選ぶ」という純粋戦略です。したがって、プレイヤー\(1\)の混合戦略とは、\begin{eqnarray*}&&\left( a\right) \ \forall j\in \left\{ 1,2\right\} :\sigma _{1}\left(
a_{1j}\right) \geq 0 \\
&&\left( b\right) \ \sigma _{1}\left( a_{11}\right) +\sigma _{1}\left(
a_{12}\right) =1
\end{eqnarray*}を満たす確率関数\(\sigma_{1}:S_{1}\rightarrow \mathbb{R} \)として定義されます。ただし、\(\sigma _{1}\left( s_{1j}\right) \)はプレイヤー\(1\)が混合戦略\(\sigma _{1}\)のもとで純粋戦略\(s_{1j}\)を選ぶ確率です。例えば、以下の混合戦略\begin{equation*}\sigma _{1}=\left( \sigma _{1}\left( a_{11}\right) ,\sigma _{1}\left(
a_{12}\right) \right) =\left( \frac{1}{2},\frac{1}{2}\right)
\end{equation*}のもとでは、2つの純粋戦略は等しい確率で選ばれます。また、以下の混合戦略\begin{equation*}
\sigma _{1}=\left( \sigma _{1}\left( a_{11}\right) ,\sigma _{1}\left(
a_{12}\right) \right) =\left( 1,0\right)
\end{equation*}のもとでは純粋戦略\(a_{11}\)が確率\(1\)で選ばれるため、これは純粋戦略\(a_{11}\)と実質的に同じです。また、例えば、\begin{equation*}\sigma _{1}=\left( \sigma _{1}\left( a_{11}\right) ,\sigma _{1}\left(
a_{12}\right) \right) =\left( \frac{1}{3},\frac{1}{3}\right)
\end{equation*}と定義される\(\sigma _{1}\)は条件\(\left( b\right) \)を満たしていないため、これは混合戦略ではありません。一方、プレイヤー\(2\)の情報集合からなる集合族は、\begin{equation*}\mathcal{H}_{2}=\left\{ \left\{ x_{1}\right\} ,\left\{ x_{2}\right\}
\right\}
\end{equation*}であるため、プレイヤー\(2\)の純粋戦略集合は、\begin{eqnarray*}S_{2} &=&A\left( \left\{ x_{1}\right\} \right) \times A\left( \left\{
x_{2}\right\} \right) \\
&=&\left\{ a_{21},a_{22}\right\} \times \left\{ a_{21},a_{22}\right\} \\
&=&\left\{ \left( a_{21},a_{21}\right) ,\left( a_{21},a_{22}\right) ,\left(
a_{22},a_{21}\right) ,\left( a_{22},a_{22}\right) \right\}
\end{eqnarray*}となります。ただし、\(\left( a_{21},a_{21}\right) \)は「情報集合\(\left\{ x_{1}\right\} \)において行動\(a_{21}\)を選び、情報集合\(\left\{ x_{2}\right\} \)において行動\(a_{21}\)を選ぶ」という純粋戦略です。他についても同様に考えます。したがって、プレイヤー\(2\)の混合戦略とは、\begin{eqnarray*}&&\left( a\right) \ \forall j,k\in \left\{ 1,2\right\} :\sigma _{2}\left(
\left( a_{2j},a_{2k}\right) \right) \geq 0 \\
&&\left( b\right) \ \sigma _{2}\left( \left( a_{21},a_{21}\right) \right)
+\sigma _{2}\left( \left( a_{21},a_{22}\right) \right) +\sigma _{2}\left(
\left( a_{22},a_{21}\right) \right) +\sigma _{2}\left( \left(
a_{22},a_{22}\right) \right) =1
\end{eqnarray*}を満たす確率関数\(\sigma_{2}:S_{2}\rightarrow \mathbb{R} \)として定義されます。ただし、\(\sigma _{2}\left( \left(a_{2j},a_{2k}\right) \right) \)はプレイヤー\(2\)が混合戦略\(\sigma _{2}\)のもとで純粋戦略\(\left(a_{2j},a_{2k}\right) \)を選ぶ確率です。
すべてのプレイヤーたちの混合戦略の組を\(\sigma _{I}=(\sigma _{i})_{i\in I}\)で表し、プレイヤー\(i\)以外のプレイヤーたちの混合戦略の組を\(\sigma _{-i}=(\sigma _{j})_{j\in I\backslash \left\{ i\right\} }\)で表します。\(\sigma _{I}=(\sigma _{i},\sigma _{-i})\)です。
先の例が示唆するように、プレイヤー\(i\)の純粋戦略\(s_{i}\)は、\(s_{i}\)に確率\(1\)を付与し、\(S_{i}\)に属する\(s_{i}\)以外のすべての純粋戦略に対して確率\(0\)を付与する混合戦略と実質的に同じです。したがって、純粋戦略は特別な混合戦略であり、逆に、純粋戦略を一般化した概念が混合戦略です。
ところで、プレイヤーは純粋戦略ではなく混合戦略という複雑な意思決定を実際に行うのでしょうか。純粋戦略ではなく混合戦略を採用することはプレイヤーに何らかのメリットをもたらすのでしょうか。混合戦略という概念の正当性については場を改めて議論します。
混合戦略集合
完備情報の動学ゲームを展開型ゲーム\(\Gamma \)として表現したとき、有限\(m\)個の純粋戦略を含む純粋戦略集合\(S_{i}=\{s_{i1},\cdots ,s_{im}\}\)を持つプレイヤー\(i\)が選択可能なすべての混合戦略\(\sigma_{i}:S_{i}\rightarrow \mathbb{R} \)からなる集合は、\begin{equation*}\Delta \left( S_{i}\right) =\left\{ \left( \sigma _{i}\left( s_{i1}\right)
,\cdots ,\sigma _{i}\left( s_{i1}\right) \right) \in \mathbb{R} ^{m}\ \left\vert \ \sum\limits_{j=1}^{m}\sigma _{i}\left( s_{ij}\right) =1,\
\forall j\in \{1,\cdots ,m\}:0\leq \sigma _{i}\left( s_{ij}\right) \leq
1\right. \right\}
\end{equation*}と定式化されますが、これを純粋戦略集合\(S_{i}\)の混合拡張(mixed extension of \(S_{i}\))や混合戦略集合(mixed strategy set)などと呼びます。つまり、純粋戦略集合\(S_{i}\)の混合拡張\(\Delta \left( S_{i}\right) \)とは\(S_{i}\)上の確率分布をすべて集めてできる集合のことです。\(\sigma_{i}\in \Delta \left( S_{i}\right) \)です。
すべてのプレイヤーの戦略集合の混合拡張の直積を\(\Delta \left( S_{I}\right)=\prod_{i\in I}\Delta \left( S_{i}\right) \)で表します。また、\(\Delta \left( S_{-i}\right)=\prod_{j\in I\backslash \left\{ i\right\} }\Delta \left( S_{j}\right) \)とします。\(\sigma _{I}\in \Delta \left(S_{I}\right) \)かつ\(\sigma _{-i}\in \Delta \left( S_{-i}\right) \)です。
一般に、集合上に定義される確率分布は無限通り存在するため、たとえ純粋戦略集合\(S_{i}\)が有限集合である場合でも、その混合拡張\(\Delta \left( S_{i}\right) \)は無限集合になります。混合戦略を選択するプレイヤーは無限個の選択肢に直面するということです。
\end{equation*}である場合の混合戦略集合\(\Delta \left( S_{i}\right) \)は、\begin{eqnarray*}&&\left( a\right) \ 0\leq \sigma _{i}\left( s_{i1}\right) \leq 1 \\
&&\left( b\right) \ 0\leq \sigma _{i}\left( s_{i2}\right) \leq 1 \\
&&\left( c\right) \ \sigma _{i}\left( s_{i1}\right) +\sigma _{i}\left(
s_{i2}\right) =1
\end{eqnarray*}を満たす2次元ベクトル\begin{equation*}
\left( \sigma _{i}\left( s_{i1}\right) ,\sigma _{i}\left( s_{i2}\right)
\right) \in \mathbb{R} ^{2}
\end{equation*}からなる集合です。これは下図において実線で描かれた線分として表現されます。ただし、端点を含みます。言い換えると、この線分上にある点はそれぞれ異なる混合戦略に対応しています。一般に、このような\(\mathbb{R} ^{2}\)の部分集合を\(\mathbf{1}\)次元の基本単体(standard \(1\)simplex)と呼びます。2つの純粋戦略を持つプレイヤーの混合戦略集合は1次元の基本単体であるということです。
\end{equation*}である場合の混合戦略集合\(\Delta \left( S_{i}\right) \)は、\begin{eqnarray*}&&\left( a\right) \ 0\leq \sigma _{i}\left( s_{i1}\right) \leq 1 \\
&&\left( b\right) \ 0\leq \sigma _{i}\left( s_{i2}\right) \leq 1 \\
&&\left( c\right) \ 0\leq \sigma _{i}\left( s_{i3}\right) \leq 1 \\
&&\left( c\right) \ \sigma _{i}\left( s_{i1}\right) +\sigma _{i}\left(
s_{i2}\right) +\sigma _{i}\left( s_{i3}\right) =1
\end{eqnarray*}を満たす3次元ベクトル\begin{equation*}
\left( \sigma _{i}\left( s_{i1}\right) ,\sigma _{i}\left( s_{i2}\right)
,\sigma _{i}\left( s_{i3}\right) \right) \in \mathbb{R} ^{3}
\end{equation*}からなる集合です。これは下図においてグレーで描かれた領域として表現されます。ただし、境界を含みます。言い換えると、この領域上にある点はそれぞれ異なる混合戦略に対応しています。一般に、このような\(\mathbb{R} ^{3}\)の部分集合を\(\mathbf{2}\)次元の基本単体(standard \(2\)simplex)と呼びます。3つの純粋戦略を持つプレイヤーの混合戦略集合は2次元の基本単体であるということです。
演習問題
以下の問いに答えてください。
- このゲームにおけるそれぞれのプレイヤーの純粋戦略集合を特定してください。
- プレイヤー\(1\)はすべての純粋戦略を等しい確率で選ぼうと考えています。これを混合戦略として定式化してください。
- プレイヤー\(1\)が上述の混合戦略を採用するとき、プレイヤー\(2\)のそれぞれの純粋戦略がプレイヤー\(2\)にもたらす利得の期待値を求めてください。
- プレイヤー\(2\)もまた表と裏を等しい確率で選ぼうと考えています。これを混合戦略として定式化してください。
- プレイヤー\(1,2\)が上述の混合戦略を採用するとき、両者が直面する利得の期待値を求めてください。
&&\left( b\right) \ \text{2人でクッキーを1枚ずつ分ける} \\
&&\left( c\right) \ \text{相手にクッキーを2枚ともあげる}
\end{eqnarray*}続いて、子供\(2\)が提案を受け入れるかどうか決定します。子供\(2\)が相手の提案を受け入れる場合には、提案通りにクッキーを2人でわけます。子供\(2\)が相手の提案を受け入れない場合には、2人ともクッキーをもらえません。自分が得るクッキーの枚数を利得とみなします。以上の状況は以下のような展開型ゲームとして表現されます。
ただし、\begin{eqnarray*}
a_{11} &=&\text{自分が2枚のクッキーを独り占めする。} \\
a_{12} &=&\text{2人でクッキーを1枚ずつ分ける} \\
a_{13} &=&\text{相手にクッキーを2枚ともあげる} \\
a_{21} &=&\text{相手からの提案を受け入れる} \\
a_{22} &=&\text{相手からの提案を受け入れない}
\end{eqnarray*}です。以下の問いに答えてください。
- このゲームにおけるそれぞれのプレイヤーの純粋戦略集合を特定してください。
- プレイヤー\(1\)はすべての純粋戦略を等しい確率で選ぼうと考えています。これを混合戦略として定式化してください。
- プレイヤー\(1\)が上述の混合戦略を採用する一方で、プレイヤー\(2\)が常に相手からの提案を受け入れる場合、それがプレイヤー\(2\)にもたらす利得の期待値を求めてください。
プレミアム会員専用コンテンツです
【ログイン】【会員登録】