教材一覧
EXAMPLES OF GAMES

囚人のジレンマ

< 前のページ
次のページ >
Share on twitter
Twitterで共有
Share on email
メールで共有

囚人のジレンマ

ある犯罪の共犯と思われる2人の被疑者が逮捕され取り調べを受けています。2人は別々の取調室に隔離されているため、互いに話をしたりメッセージを交換することはできません。検察は問題としている犯罪に関して2人を有罪にするほど十分な証拠を持っていませんが、比較的軽微な余罪に関して2人を有罪にするに足る証拠を持っています。そこで検察は2人に対して罪を自白するか黙秘するかのどちらか一方を選択させます。ただし、2人の行動の組み合わせに応じて以下の帰結が生じることを2人に対してあらかじめ伝えておきます。

  • 2人がともに自白すれば両者は容疑の件に関して有罪が確定し、両者はともに8年の懲役刑を受ける。
  • 2人がともに黙秘すれば両者は容疑の件に関しては有罪にならないが、余罪に関して有罪が確定し、両者はともに1年の懲役刑を受ける。
  • 2人のうち一方だけが自白した場合には共犯証言の制度により、自白した者の量刑は3ヶ月となり、黙秘した者への量刑は10年となる。

これは1950年にランド研究所のメリル・フラッド(Merrill Flood)とメルビン・ドレッシャー(Melvin Dresher)が行った心理実験から着想を得て、同じくランド研究所の顧問であったアルバート・タッカー(Albert Tucker)が形式化した囚人のジレンマ(prisoner’s dilemma)と呼ばれる逸話です。

 

完備情報の静学ゲームとしての囚人のジレンマ

囚人のジレンマが想定する状況を2人の被疑者をプレイヤーとするゲームと解釈します。2人の被疑者は別々の取調室に隔離されているため、両者の間に拘束的合意は成立しません。また、仮に2人は逮捕される前に接触しており、取り調べにおいて口裏を合わせる約束をしていた場合でも、その約束には拘束力がありません。したがって囚人のジレンマは非協力ゲームです。さらに、2人の被疑者は取り調べ中に相談することはできず、各自が相手の意思決定を観察できない状態で意思決定を行うことを強いられるため、囚人のジレンマは静学ゲームです。さらにゲームのルールが2人にとって共有知識であることを仮定するのであれば、囚人のジレンマが描写する戦略的相互依存の状況は完備情報の静学ゲームとして記述可能です。

そこで、囚人のジレンマを以下のような戦略型ゲーム\(G\)としてモデル化します。まず、ゲーム\(G\)のプレイヤー集合は\(I=\{1,2\}\)です。ただし、\(i\in I\)は被疑者\(i\)を表します。また、プレイヤー\(i\)の純粋戦略集合は\(S_{i}=\{C,D\}\)です。ただし、\(C\)は協調戦略である黙秘を表し(CooperateのC)、\(D\)は裏切り戦略である自白を表します(DefectのD)。ゲームの結果は以下の行列として整理されます。$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 1年,1年 & 10年,3カ月 \\ \hline
D & 3カ月,10年 & 8年,8年 \\ \hline
\end{array}$$

表:囚人のジレンマの結果行列

利得関数に関しては様々な可能性がありますが、典型的なものは「量刑が軽い方がより望ましい」というものであり、これは以下の利得行列
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:囚人のジレンマの利得行列

として表現されます。ただし、表中の\(a,b,c,d\)は利得を表しており、これらの間には、\begin{equation*}a>b>c>d
\end{equation*}という関係が成り立ちます。\(a>b\)と\(c>d\)が成り立つことは、相手が協調と裏切りのどちらを選ぶ場合においても自分は裏切ったほうがよいことを意味します。また、\(b>c\)が成り立つことは、お互いに協調するほうがお互いに裏切るよりも双方にとってよいことを意味します。

例(囚人のジレンマ)
以下の利得行列は囚人のジレンマとしての条件を満たしています。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

 

囚人のジレンマの均衡

囚人のジレンマに均衡は存在するでしょうか。繰り返しになりますが、囚人のジレンマとは以下の利得行列
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:囚人のジレンマ

によって定義される完備情報の静学ゲームです。ただし、表中の\(a,b,c,d\)は利得を表しており、これらの間には、\begin{equation*}a>b>c>d
\end{equation*}という関係が成り立ちます。プレイヤー\(1\)の利得に関しては、\begin{eqnarray*}u_{1}\left( C,C\right) &=&b<a=u_{1}\left( D,C\right) \\
u_{1}\left( C,D\right) &=&d<c=u_{1}\left( D,D\right)
\end{eqnarray*}が成り立つため、純粋戦略\(D\)は強支配純粋戦略です。プレイヤー\(2\)の利得に関しては、\begin{eqnarray*}u_{2}\left( C,C\right) &=&b<a=u_{2}\left( D,C\right) \\
u_{2}\left( C,D\right) &=&d<c=u_{2}\left( D,D\right)
\end{eqnarray*}が成り立つため、純粋戦略\(D\)は強支配純粋戦略です。したがって、純粋戦略の組\(\left(D,D\right) \)は強支配純粋戦略の組であるため、これは強支配純粋戦略均衡です。ちなみに、強支配純粋戦略が存在する場合には一意的であるため、\(\left(D,D\right) \)は囚人のジレンマにおける一意的な強支配純粋戦略均衡です。

一般に、戦略型ゲーム\(G\)に強支配純粋戦略均衡が存在することと、\(G\)の混合拡張\(G^{\ast }\)に強支配混合戦略均衡が存在することは必要十分であるとともに、両者は一致します。したがって、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける一意的な強支配混合戦略均衡でもあります。

命題(囚人のジレンマの強支配戦略均衡)
囚人のジレンマにおいて、裏切り戦略の組\(\left( D,D\right) \)は唯一の強支配純粋戦略均衡である。

囚人のジレンマは支配戦略均衡を持つことが明らかになりました。したがって、プレイヤーたちの合理性が相互知識や共有知識であることを仮定せずとも、それぞれのプレイヤーが合理的でありさえすれば、均衡\(\left( D,D\right) \)が実際にプレーされることが理論的に予測されます。

戦略型ゲーム\(G\)に強支配純粋戦略均衡が存在する場合、それは狭義の純粋戦略ナッシュ均衡でもあります。同様に、\(G\)の混合拡張\(G^{\ast }\)に強支配混合戦略均衡が存在する場合、それは狭義の混合戦略ナッシュ均衡でもあります。したがって、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける狭義の純粋戦略ナッシュ均衡であるとともに、狭義の混合戦略ナッシュ均衡でもあります。加えて、裏切り戦略の組\(\left( D,D\right) \)は唯一の狭義の混合戦略ナッシュ均衡であるともに、唯一の混合戦略ナッシュ均衡でもあります(演習問題にします)。

命題(囚人のジレンマのナッシュ均衡)
囚人のジレンマにおいて、裏切り戦略の組\(\left( D,D\right) \)は唯一のナッシュ均衡である。
証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

囚人のジレンマには混合戦略ナッシュ均衡が存在することが明らかになりましたが、囚人のジレンマが有限ゲームである以上、ナッシュの定理より、これは当然の帰結です。

 

囚人のジレンマの均衡解釈

戦略型ゲームを分析する際にはプレイヤーの行動原理として合理性の仮定を採用します。つまり、プレイヤーは自己の利得を最大化するために最適な行動を選択するという仮定です。囚人のジレンマにおいてそれぞれのプレイヤーは、相手が自白\(D\)と黙秘\(C\)のどちらを選ぶ場合においても、自分は自白\(D\)したほうが黙秘\(C\)する場合よりもより大きな利得を得られます(\(D\)が\(C\)を強支配する)。したがって、プレイヤーの目的が自己の利得の最大化である限りにおいて、プレイヤーは自白\(D\)を選びます。$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

しかし、2 人がともに自白\(D\)を選んだときに実現する\(\left( D,D\right) \)において自分が得る利得(上の表では\(2\))は、2 人がともに黙秘\(C\)を選んだときに実現する\(\left(C,C\right) \)において自分が得る利得(上の表では\(5\))よりも小さくなってしまいます。相手にとっても事情は同じであるため、自分だけではなく相手にとっても\(\left( C,C\right) \)は\(\left(D,D\right) \)よりも望ましい結果のはずです。つまり、それぞれのプレイヤーが自己の利得を最大化するために行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないという意味において、囚人のジレンマは興味深い例になっています。

自己の利得を最大化する合理的なプレイヤーたちは本当に\(\left(C,C\right) \)を選ばないのでしょうか。\(\left( C,C\right) \)は\(\left(D,D\right) \)よりも双方により大きな利得をもたらすため、\(\left( D,D\right) \)が実現しないという結論に違和感を感じるかもしれません。そこで以下では、\(\left( C,C\right) \)が実現しない理由をより詳細に分析します。

まず、囚人のジレンマのような完備情報の静学ゲームは、プレイヤーの間に拘束的な合意が成立しない状況を想定します。したがって、仮に一方のプレイヤーが\(C\)を選んだとしても、そのプレイヤーは相手に対して自分と同じように\(C\)を選ぶように仕向けることはできません。そして、自分が\(C\)を選んだときに相手が\(D\)を選べば、それは自分にとって最悪の結果です(上の表では利得\(0\))。したがって自分が\(C\)を選ぶ合理的な根拠がありません。

一歩譲って、仮に相手に対して\(C\)を選ぶように仕向けることに成功したとしましょう。しかし、その場合には、今度は自分が\(C\)ではなく\(D\)を選べば自分にとって最良の結果になるため(上の表では利得\(8\))、自分は\(D\)を選ぶことになります。したがってこの場合にも自分が\(C\)を選ぶ合理的な根拠がありません。

完備情報の静学ゲームという戦略的状況と合理性の仮定を前提とする限りにおいて、囚人のジレンマにおいてプレイヤーたちが\(\left( C,C\right) \)を選ぶことを正当化するのは困難です。ただし、囚人のジレンマのルールやプレイヤーの行動原理に改変を加えながら、プレイヤーたちが協調均衡を選び得る状況を模索する研究は数多く行われています。これらの研究については場を改めて解説します。

 

囚人のジレンマから得られる道徳的教訓

各人が自身の利得を最大化しようと行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないというのは囚人のジレンマの重要な帰結です。しかし、この結論を引き合いに出して、各人が自身の利得を最大化しようとすることを全面的に否定するのは極端です。まして、各人が常に自身を犠牲にしてまで他人のために行動することを道徳的に要求するのも極端です。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

囚人のジレンマにおける利他的な行動とはどのようなものでしょうか。上の利得行列で表される囚人のジレンマにおいて、プレイヤー\(2\)が\(C\)と\(D\)のどちらを選ぶ場合においても、プレイヤー\(1\)が\(D\)ではなく\(C\)を選んだ場合のほうが、プレイヤー\(2\)は常により大きな利得を得ます。したがって、プレイヤー\(1\)の利他的な戦略は\(C\)です。同様に考えると、プレイヤー\(2\)の利他的な戦略は\(C\)です。したがって、仮に2人が利他的に行動する場合には\(\left(C,C\right) \)が実現します。

注目すべきは、各人が利他的に行動する場合の結果\(\left( C,C\right) \)は、各人が自身の利得を最大化しようと行動する場合の結果\(\left( D,D\right) \)よりも双方にとってより望ましいということです。つまり、利他的な行動は自身の犠牲を必ずしも意味せず、むしろ相手だけでなく自身にとってさえもより望ましい結果を導き得るということです。

 

演習問題

問題(囚人のジレンマの支配される戦略の逐次消去による解)
一般に、戦略型ゲーム\(G\)に強支配純粋戦略均衡が存在する場合、そのゲームは純粋戦略によって強支配される戦略の逐次消去によって解くことができ、なおかつその解は強支配純粋戦略均衡と一致します。したがって、囚人のジレンマは純粋戦略によって強支配される戦略の逐次消去によって解くことができ、その解は裏切り戦略の組\(\left( D,D\right) \)と一致するはずです。このことを純粋戦略によって強支配される戦略の逐次消去を通じて確認してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(囚人のジレンマのナッシュ均衡)
一般に、戦略型ゲーム\(G\)に強支配純粋戦略均衡が存在する場合、それは狭義の純粋戦略ナッシュ均衡でもあります。したがって、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける狭義の純粋戦略ナッシュ均衡であるはずです。このことを狭義の純粋戦略ナッシュ均衡の定義から確認してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

囚人のジレンマは2人ゲームですが、これを3人以上に拡張するとどのようなモデルになるでしょうか。次回はn人囚人のジレンマについて解説します。

< 前のページ
次のページ >
Share on twitter
Twitterで共有
Share on email
メールで共有
RELATED KNOWLEDGE

関連知識

クールノー競争

戦略型ゲーム

完備情報の静学ゲームを記述するためにはプレイヤー、行動、結果、利得などをそれぞれ具体的に特定する必要があります。それらの要素を記述する方法はいくつか存在しますが、ここでは戦略型ゲームと呼ばれるモデルについて解説します。

囚人のジレンマの例

n人囚人のジレンマ

囚人のジレンマは2人ゲームですが、これを3人以上に拡張するとどのようなモデルになるでしょうか。n人囚人のジレンマと呼ばれるゲームについて解説します。

囚人のジレンマの例

非対称的な利得構造を持つ囚人のジレンマ

これまではプレイヤーたちが同一の利得関数を持つ囚人のジレンマについて考えてきましたが、状況を少し一般化して、プレイヤーたちが異なる利得関数を持つ場合の囚人のジレンマについて考えます。

囚人のジレンマの例

囚人のジレンマとしての軍拡競争

冷戦期に行われた米ソ間の軍拡競争は囚人のジレンマとしての側面を持っていることを解説した上で、そこでのナッシュ均衡を求めます。

囚人のジレンマの例

囚人のジレンマとしての価格競争

完全代替財を販売する企業の間で行われる価格競争は囚人のジレンマとしての側面を持っていることを解説した上で、そこでのナッシュ均衡を求めます。

囚人のジレンマの例

囚人のジレンマとしての広告競争

完全代替財を定価で販売する企業の間で行われる広告競争は囚人のジレンマとしての側面を持っていることを解説した上で、そこでのナッシュ均衡を求めます。

囚人のジレンマ

強支配純粋戦略均衡

あるプレイヤーの純粋戦略が別の純粋戦略を強支配すること、強支配純粋戦略、強支配純粋戦略均衡などについて解説します。

囚人のジレンマ

強支配混合戦略均衡

あるプレイヤーの混合戦略が別の混合戦略を強支配すること、強支配混合戦略、強支配戦略均衡などについて解説します。

DISCUSSION

質問とコメント

プレミアム会員専用コンテンツです
ログイン】【会員登録