< 前のページ
次のページ >

囚人のジレンマ

ある犯罪の共犯と思われる 2 人の被疑者が逮捕され取り調べを受けています。 2 人は別々の取調室に隔離されているため、互いに話をしたりメッセージを交換することはできません。検察は問題としている犯罪に関して 2 人を有罪にするほど十分な証拠を持っていませんが、比較的軽微な余罪に関して 2 人を有罪にするに足る証拠を持っています。そこで検察は 2 人に対して罪を自白するか黙秘するかのどちらか一方を選択させます。ただし、 2 人の行動の組み合わせに応じて以下の帰結が生じることを 2 人に対してあらかじめ伝えておきます。

  1. 2 人がともに自白すれば両者は容疑の件に関して有罪が確定し、両者はともに 8 年の懲役刑を受ける。
  2. 2 人がともに黙秘すれば両者は容疑の件に関しては有罪にならないが、余罪に関して有罪が確定し、両者はともに 1 年の懲役刑を受ける。
  3. 2 人のうち一方だけが自白した場合には共犯証言の制度により、自白した者の量刑は 3 ヶ月となり、黙秘した者への量刑は 10 年となる。

これは 1950 年にランド研究所のメリル・フラッド(Merrill Flood)とメルビン・ドレッシャー(Melvin Dresher)が行った心理実験から着想を得て、同じくランド研究所の顧問であったアルバート・タッカー(Albert Tucker)が形式化した囚人のジレンマ(prisoner’s dilemma)と呼ばれる逸話です。

 

完備情報の静学ゲームとしての囚人のジレンマ

囚人のジレンマが想定する状況を 2 人の被疑者をプレイヤーとするゲームと解釈します。2 人の被疑者は別々の取調室に隔離されているため、両者の間に拘束的合意は成立しません。また、仮に 2 人は逮捕される前に接触しており、取り調べにおいて口裏を合わせる約束をしていた場合でも、その約束には拘束力がありません。したがって囚人のジレンマは非協力ゲームです。さらに、2 人の被疑者は取り調べ中に相談することはできず、各自が相手の意思決定を観察できない状態で意思決定を行うことを強いられるため、囚人のジレンマは静学ゲームです。さらにゲームのルールが 2 人にとって共有知識であることを仮定するのであれば、囚人のジレンマが描写する戦略的相互依存の状況は完備情報の静学ゲームとして記述可能です。

そこで、囚人のジレンマを以下のような戦略型ゲーム\(G\)としてモデル化します。まず、ゲーム\(G\)のプレイヤー集合は\(I=\{1,2\}\)です。ただし、\(i\in I\)は被疑者\(i\)を表します。また、プレイヤー\(i\)の純粋戦略集合は\(S_{i}=\{C,D\}\)です。ただし、\(C\)は協調戦略である黙秘を表し(CooperateのC)、\(D\)は裏切り戦略である自白を表します(DefectのD)。ゲームの結果は以下の行列として整理されます。

$$\begin{array}{|c|c|c|}
\hline
1\diagdown 2 & C & D \\ \hline
C & 1YR,1YR & 10YR,3mo \\ \hline
D & 3mo,10YR & 8YR,8YR \\ \hline
\end{array}$$

表:囚人のジレンマの結果行列

利得関数に関しては様々な可能性がありますが、囚人のジレンマとは以下の利得行列

$$\begin{array}{|c|c|c|}
\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:囚人のジレンマの利得行列

によって定義されるゲームです。ただし、表中の\(a,b,c,d\)は利得を表しており、これらの間には、\begin{equation*}
a>b>c>d
\end{equation*}という関係が成り立つものとします。\(a>b\)と\(c>d\)が成り立つことは、相手が協調と裏切りのどちらを選ぶ場合においても、自分は裏切ったほうがよいことを意味します。また、\(b>c\)が成り立つことは、お互いに協調するほうがお互いに裏切るよりも双方にとってよいことを意味します。

例(囚人のジレンマ)
以下の利得行列は囚人のジレンマとしての条件を満たしています。
$$\begin{array}{|c|c|c|}
\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$
表:囚人のジレンマ

 

囚人のジレンマのナッシュ均衡

繰り返しになりますが、囚人のジレンマとは以下の利得行列

$$\begin{array}{|c|c|c|}
\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:囚人のジレンマ

によって定義される完備情報の静学ゲームです。ただし、表中の\(a,b,c,d\)は利得を表しており、これらの間には、\begin{equation}
a>b>c>d \tag{1}
\end{equation}という関係が成り立ちます。このゲームにナッシュ均衡は存在するでしょうか。プレイヤー\(1\)の利得に関しては、\(\left( 1\right) \)より、\begin{eqnarray*}
u_{1}\left( C,C\right) &=&b<a=u_{1}\left( D,C\right) \\
u_{1}\left( C,D\right) &=&d<c=u_{1}\left( D,D\right)
\end{eqnarray*}が成り立つため、プレイヤー\(1\)の純粋戦略\(D\)はプレイヤー\(2\)の純粋戦略\(C,D\)双方に対する狭義の最適反応です。プレイヤー\(2\)の利得に関しても、\(\left( 1\right) \)より、\begin{eqnarray*}
u_{2}\left( C,C\right) &=&b<a=u_{2}\left( D,C\right) \\
u_{2}\left( C,D\right) &=&d<c=u_{2}\left( D,D\right)
\end{eqnarray*}が成り立つため、プレイヤー\(2\)の純粋戦略\(D\)はプレイヤー\(1\)の純粋戦略\(C,D\)双方に対する狭義の最適反応です。したがって、純粋戦略の組\(\left( D,D\right) \)は狭義の最適反応の組であるため、これは狭義の純粋戦略ナッシュ均衡です。

一般に、狭義の純粋戦略ナッシュ均衡は通常の純粋戦略ナッシュ均衡でもあるため、囚人のジレンマにおいて、純粋戦略の組\(\left( D,D\right) \)は通常の純粋戦略ナッシュ均衡でもあります。

命題(囚人のジレンマの純粋戦略ナッシュ均衡)
囚人のジレンマにおいて、裏切り戦略の組\(\left( D,D\right) \)は狭義の純粋戦略ナッシュ均衡である。
証明を見る(プレミアム会員限定)

一般に、純粋戦略ナッシュ均衡は混合戦略ナッシュ均衡でもあるため、囚人のジレンマにおいて裏切り戦略の組\(\left( D,D\right) \)は混合戦略ナッシュ均衡でもあります。では、囚人のジレンマには\(\left( D,D\right) \)とは異なる混合戦略ナッシュ均衡は存在するでしょうか。プレイヤー\(i\ \left( =1,2\right) \)の混合戦略を、\begin{equation*}
\sigma _{i}=\left( \sigma _{i}\left( C\right) ,\sigma _{i}\left( D\right)
\right) =\left( \sigma _{i},1-\sigma _{i}\right) \quad \left( 0\leq \sigma
_{i}\leq 1\right)
\end{equation*}で表記します。つまり、\(\sigma _{i}\)は混合戦略\(\sigma _{i}\)のもとでプレイヤー\(1\)が純粋戦略\(C\)を選ぶ確率であり、\(1-\sigma _{i}\)は混合戦略\(\sigma _{i}\)のもとでプレイヤー\(1\)が純粋戦略\(D\)を選ぶ確率です。プレイヤー\(1\)の均衡戦略について\(0<\sigma _{1}^{\ast }<1\)が成り立つ混合戦略ナッシュ均衡\(\left( \sigma _{1}^{\ast },\sigma _{2}^{\ast }\right) \)が存在するものと仮定します。\(\sigma _{1}^{\ast }\)は純粋戦略\(C,D\)の双方に正の確率を付与するということです。このとき、プレイヤー\(2\)の任意の混合戦略\(\sigma _{2}\in \Delta \left( S_{2}\right) \)に対して、\begin{equation*}
F_{1}\left( D,\sigma _{2}\right) >F_{1}\left( \sigma _{1}^{\ast },\sigma
_{2}\right)
\end{equation*}が成り立つため(確認してください)、\(\sigma _{1}^{\ast }\)は\(\sigma _{2}\)に対する混合戦略最適反応ではありません。したがって、\(0<\sigma _{1}^{\ast }<1\)を満たす混合戦略ナッシュ均衡\(\left( \sigma _{1}^{\ast },\sigma _{2}^{\ast }\right) \)は存在しません。\(0<\sigma _{2}^{\ast }<1\)を満たす混合戦略ナッシュ均衡\(\left( \sigma _{1}^{\ast },\sigma _{2}^{\ast }\right) \)が存在しないことも同様にして示されます。

命題(囚人のジレンマの混合戦略ナッシュ均衡)
囚人のジレンマにおいて、裏切り戦略の組\(\left( D,D\right) \)は唯一の混合戦略ナッシュ均衡である。
証明を見る(プレミアム会員限定)

囚人のジレンマにはナッシュ均衡が存在することが明らかになりましたが、囚人のジレンマが有限ゲームである以上、ナッシュの定理より、これは当然の帰結です。ただ、囚人のジレンマは通常のナッシュ均衡よりも強い均衡を持つため、理論の予測精度をさらに高めることができます。次節では、囚人のジレンマが支配される戦略の逐次消去によって解けることを示します。

 

囚人のジレンマの支配される戦略の逐次消去による解

繰り返しになりますが、囚人のジレンマとは以下の利得行列

$$\begin{array}{|c|c|c|}
\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:囚人のジレンマ

によって定義される完備情報の静学ゲームです。ただし、表中の\(a,b,c,d\)は利得を表しており、これらの間には、\begin{equation}
a>b>c>d \tag{1}
\end{equation}という関係が成り立ちます。このゲームは支配される戦略の逐次消去によって解くことはできるでしょうか。初期ゲーム\(G\)におけるそれぞれのプレイヤーの純粋戦略集合は、\begin{equation*}
S_{1}=S_{2}=\left\{ C,D\right\}
\end{equation*}です。\(\left( 1\right) \)より、初期ゲーム\(G\)においてプレイヤー\(1\)は純粋戦略\(D\)によって強支配される純粋戦略\(C\)を持ち、プレイヤー\(2\)は純粋戦略\(D\)によって強支配される純粋戦略\(C\)を持ちます。したがって、それらの戦略を消去すると、第\(1\)期のゲーム\(G_{1}\)における純粋戦略集合は、\begin{equation*}
S_{1}^{1}=S_{2}^{1}=\left\{ D\right\}
\end{equation*}となるため、ゲーム\(D\)は純粋戦略によって強支配される戦略の逐次消去によって解くことができ、その解は\(\left( D,D\right) \)となります。

命題(囚人のジレンマの純粋戦略によって支配される戦略の逐次消去による解)
囚人のジレンマは純粋戦略によって強支配される戦略の逐次消去によって解くことができ、その解は裏切り戦略の組\(\left( D,D\right) \)である。
証明を見る(プレミアム会員限定)

一般に、戦略型ゲーム\(G\)が純粋戦略によって強支配される戦略の逐次消去によって解ける場合、\(G\)の混合拡張\(G^{\ast }\)は混合戦略によって強支配される戦略の逐次消去によって解くことができ、両者の解は一致します。したがって、囚人のジレンマは混合戦略によって強支配される戦略の逐次消去によって解くことができ、その解もまた裏切り戦略の組\(\left( D,D\right) \)になります。

命題(囚人のジレンマの混合戦略によって支配される戦略の逐次消去による解)
囚人のジレンマは混合戦略によって強支配される戦略の逐次消去によって解くことができ、その解は裏切り戦略の組\(\left( D,D\right) \)である。
証明を見る(プレミアム会員限定)

囚人のジレンマは支配される戦略の逐次消去によって解けることが明らかになりました。逐次消去を行う際には、消去を一度行えばすぐに解\(\left( D,D\right) \)へ到達するため、プレイヤーたちが\(\left( D,D\right) \)を実際にプレーすることを保証するためには、プレイヤーの合理性を共有知識であるとまで仮定する必要はありません。必要な仮定は以下の3点のみです。

  1. それぞれのプレイヤーが合理的であること。
  2. 「相手が合理的」であることをそれぞれのプレイヤーが知っていること。
  3. 「「相手が合理的」であることをそれぞれのプレイヤーが知っていること」をそれぞれのプレイヤーが知っていること。

ただ、囚人のジレンマはより強い均衡を持つため、理論の予測精度をさらに高めることができます。次節では、囚人のジレンマが支配戦略均衡を持つことを示します。

 

囚人のジレンマの支配戦略均衡

繰り返しになりますが、囚人のジレンマとは以下の利得行列

$$\begin{array}{|c|c|c|}
\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:囚人のジレンマ

によって定義される完備情報の静学ゲームです。ただし、表中の\(a,b,c,d\)は利得を表しており、これらの間には、\begin{equation}
a>b>c>d \tag{1}
\end{equation}という関係が成り立ちます。このゲームには支配戦略均衡は存在するのでしょうか。プレイヤー\(1\)の利得に関しては、\(\left( 1\right) \)より、\begin{eqnarray*}
u_{1}\left( C,C\right) &=&b<a=u_{1}\left( D,C\right) \\
u_{1}\left( C,D\right) &=&d<c=u_{1}\left( D,D\right)
\end{eqnarray*}が成り立つため、プレイヤー\(1\)の純粋戦略\(D\)は強支配純粋戦略です。プレイヤー\(2\)の利得に関しても、\(\left( 1\right) \)より、\begin{eqnarray*}
u_{2}\left( C,C\right) &=&b<a=u_{2}\left( D,C\right) \\
u_{2}\left( C,D\right) &=&d<c=u_{2}\left( D,D\right)
\end{eqnarray*}が成り立つため、プレイヤー\(2\)の純粋戦略\(D\)は強支配純粋戦略です。したがって、純粋戦略の組\(\left( D,D\right) \)は強支配純粋戦略の組であるため、これは強支配純粋戦略均衡です。

命題(囚人のジレンマの支配純粋戦略均衡)
囚人のジレンマにおいて、裏切り戦略の組\(\left( D,D\right) \)は強支配純粋戦略均衡である。
証明を見る(プレミアム会員限定)

一般に、戦略型ゲーム\(G\)に強支配純粋戦略均衡が存在することと、\(G\)の混合拡張\(G^{\ast }\)に強支配混合戦略均衡が存在することは必要十分であるとともに、両者は一致します。したがって、囚人のジレンマにおいて裏切り戦略の組\(\left( D,D\right) \)は強支配混合戦略均衡でもあります。

命題(囚人のジレンマの支配混合戦略均衡)
囚人のジレンマにおいて、裏切り戦略の組\(\left( D,D\right) \)は強支配混合戦略均衡である。
証明を見る(プレミアム会員限定)

囚人のジレンマは支配戦略均衡を持つことが明らかになりました。したがって、プレイヤーたちの合理性が相互知識や共有知識であることを仮定せずとも、それぞれのプレイヤーが合理的でありさえすれば、均衡\(\left( D,D\right) \)が実際にプレーされることが理論的に予測されます。

 

囚人のジレンマの均衡解釈

戦略型ゲームを分析する際にはプレイヤーの行動原理として合理性の仮定を採用します。つまり、プレイヤーは自己の利得を最大化するために最適な行動を選択するという仮定です。囚人のジレンマにおいてそれぞれのプレイヤーは、相手が自白\(D\)と黙秘\(C\)のどちらを選ぶ場合においても、自分は自白\(D\)したほうが黙秘\(C\)する場合よりもより大きな利得を得られます(\(D\)が\(C\)を強支配する)。したがって、プレイヤーの目的が自己の利得の最大化である限りにおいて、プレイヤーは自白\(D\)を選びます。

$$\begin{array}{|c|c|c|}
\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

しかし、2 人がともに自白\(D\)を選んだときに実現する\(\left( D,D\right) \)において自分が得る利得(上の表では\(2\))は、2 人がともに黙秘\(C\)を選んだときに実現する\(\left( C,C\right) \)において自分が得る利得(上の表では\(5\))よりも小さくなってしまいます。相手にとっても事情は同じですので、自分だけではなく相手にとっても\(\left( C,C\right) \)は\(\left( D,D\right) \)よりも望ましい結果のはずです。つまり、それぞれのプレイヤーが自己の利得を最大化するために行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないという意味において、囚人のジレンマは興味深い例になっています。

自己の利得を最大化する合理的なプレイヤーたちは本当に\(\left( C,C\right) \)を選ばないのでしょうか。\(\left( C,C\right) \)は\(\left( D,D\right) \)よりも双方により大きな利得をもたらすため、\(\left( D,D\right) \)が実現しないという結論に違和感を感じるかもしれません。そこで以下では、\(\left( C,C\right) \)が実現しない理由をより詳細に分析します。

まず、囚人のジレンマのような完備情報の静学ゲームは、プレイヤーの間に拘束的な合意が成立しない状況を想定します。したがって、仮に一方のプレイヤーが\(C\)を選んだとしても、そのプレイヤーは相手に対して自分と同じように\(C\)を選ぶように仕向けることはできません。そして、自分が\(C\)を選んだときに相手が\(D\)を選べば、それは自分にとって最悪の結果です(上の表では利得\(0\))。したがって自分が\(C\)を選ぶ合理的な根拠がありません。

一歩譲って、仮に相手に対して\(C\)を選ぶように仕向けることに成功したとしましょう。しかし、その場合には、今度は自分が\(C\)ではなく\(D\)を選べば自分にとって最良の結果になるため(上の表では利得\(8\))、自分は\(D\)を選ぶことになります。したがってこの場合にも自分が\(C\)を選ぶ合理的な根拠がありません。

完備情報の静学ゲームという戦略的状況と合理性の仮定を前提とする限りにおいて、囚人のジレンマにおいてプレイヤーたちが\(\left( C,C\right) \)を選ぶことを正当化するのは困難です。ただし、囚人のジレンマのルールやプレイヤーの行動原理に改変を加えながら、プレイヤーたちが協調均衡を選び得る状況を模索する研究は数多く行われています。これらの研究については場を改めて解説します。

 

囚人のジレンマから得られる道徳的教訓

各人が自身の利得を最大化しようと行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないというのは囚人のジレンマの重要な帰結です。しかし、この結論を引き合いに出して、各人が自身の利得を最大化しようとすることを全面的に否定するのは極端です。まして、各人が常に自身を犠牲にしてまで他人のために行動することを道徳的に要求するのも極端です。

$$\begin{array}{|c|c|c|}
\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

囚人のジレンマにおいて利他的な行動とはどのようなものでしょうか。上の利得行列で表される囚人のジレンマにおいて、プレイヤー\(2\)が\(C\)と\(D\)のどちらを選ぶ場合においても、プレイヤー\(1\)が\(D\)ではなく\(C\)を選んだ場合のほうが、プレイヤー\(2\)は常により大きな利得を得ます。したがって、プレイヤー\(1\)の利他的な戦略は\(C\)です。同様に考えると、プレイヤー\(2\)の利他的な戦略は\(C\)です。したがって、仮に 2 人が利他的に行動する場合には\(\left( C,C\right) \)が実現します。

注目すべきは、各人が利他的に行動する場合の結果\(\left( C,C\right) \)は、各人が自身の利得を最大化しようと行動する場合の結果\(\left( D,D\right) \)よりも双方にとってより望ましいということです。つまり、利他的な行動は自身の犠牲を必ずしも意味せず、むしろ相手だけでなく自身にとってさえもより望ましい結果を導き得るということです。

囚人のジレンマは2人ゲームですが、これを3人以上に拡張するとどのようなモデルになるでしょうか。次回はn人囚人のジレンマについて解説します。

次へ進む 質問・コメント(プレミアム会員限定) 演習問題(プレミアム会員限定)
Share on facebook
Share on twitter
Share on email
< 前のページ
次のページ >

プレミアム会員になると、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。プレミアム会員の方は以下からログインしてください。

会員登録 | パスワードを忘れましたか?

有料のプレミアム会員になると、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

本サイトは MathJax を実装しているため、コメント文中で LaTex コマンドを利用することで美しい数式を入力できます。その際、インライン数式は\(数式\)で、ディスプレイ数式は$$数式$$という形式でそれぞれ入力してください。 例えば、\(ax^{2}+bx+c=0\)と入力すると\(ax^{2}+bx+c=0\)と表示され、$$ax^{2}+bx+c=0$$と入力すると$$ax^{2}+bx+c=0$$と表示されます。MathJax(LaTex)の文法については次のサイト( https://easy-copy-mathjax.xxxx7.com )などを参照してください。 紙に手書きした数式や図をカメラやスマホで撮影した上で、コメント欄に張り付けることもできます。その場合、コメント入力欄にある「ファイルを選択」ボタンをクリックした上で画像をアップロードしてください。アップロード可能な画像フォーマットは jpg, gif, png の 3 種類、ファイルサイズの上限は 5 MB です。PDF ファイルの添付も可能です。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員だけが質問やコメントを投稿・閲覧できます。

アカウント
ログイン