教材一覧
教材一覧
教材検索
EXAMPLES OF GAMES

囚人のジレンマ

目次

< 前のページ
次のページ >
Share on twitter
Twitterで共有
Share on email
メールで共有

囚人のジレンマ

ある犯罪の共犯と思われる2人の被疑者が逮捕され取り調べを受けています。2人は別々の取調室に隔離されているため、話をしたりメッセージを交換することはできません。検察は問題としている犯罪に関して2人を有罪にするほど十分な証拠を持っていませんが、比較的軽微な余罪に関して2人を有罪にするに足る証拠を持っています。そこで検察は2人に対して罪を自白するか黙秘するかのどちらか一方を選択させます。ただし、2人の行動の組み合わせに応じて以下の帰結が生じることを2人に対してあらかじめ伝えておきます。

  1. 2人がともに自白すれば両者は容疑の件に関して有罪が確定し、両者はともに8年の懲役刑を受ける。
  2. 2人がともに黙秘すれば両者は容疑の件に関しては有罪にならないが、余罪に関して有罪が確定し、両者はともに1年の懲役刑を受ける。
  3. 2人のうち一方だけが自白した場合には共犯証言の制度により、自白した者の量刑は3ヶ月となり、黙秘した者への量刑は10年となる。

これは1950年にランド研究所のメリル・フラッド(Merrill Flood)とメルビン・ドレッシャー(Melvin Dresher)が行った心理実験から着想を得て、同じくランド研究所の顧問であったアルバート・タッカー(Albert Tucker)が形式化した囚人のジレンマ(prisoner’s dilemma)と呼ばれる逸話です。

 

完備情報の静学ゲームとしての囚人のジレンマ

囚人のジレンマが想定する状況を2人の被疑者をプレイヤーとするゲームと解釈します。2人の被疑者は別々の取調室に隔離されているため、両者が事前交渉を行うことはできず、したがって拘束的合意は成立し得ません。仮に、2人が逮捕される前に接触しており、取り調べにおいて口裏を合わせる約束をしていた場合でも、その約束には拘束力がありません。したがって囚人のジレンマは非協力ゲームです。さらに、2人は別々の取調室に隔離されているため相談できず、相手の意思決定を観察できない状態で意思決定を行うことを強いられるため、囚人のジレンマは静学ゲームです。さらにゲームのルールが2人にとって共有知識であることを仮定するのであれば、囚人のジレンマを完備情報の静学ゲームとして記述することができます。

そこで、囚人のジレンマを以下のような戦略型ゲーム\(G\)としてモデル化します。まず、プレイヤー集合は\(I=\{1,2\}\)です。ただし、\(i\in I\)は被疑者\(i\)を表します。また、プレイヤー\(i\)の純粋戦略集合は\(S_{i}=\{C,D\}\)です。ただし、\(C\)は協調戦略である黙秘を表し(CooperateのC)、\(D\)は裏切り戦略である自白を表します(DefectのD)。ゲームの結果は以下の行列として整理されます。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 1年,1年 & 10年,3カ月 \\ \hline
D & 3カ月,10年 & 8年,8年 \\ \hline
\end{array}$$

表:囚人のジレンマの結果行列

利得関数としては様々な可能性がありますが、典型的なものは「刑が軽い方が望ましい」というものであり、これは、\begin{equation*}
a>b>c>d
\end{equation*}を満たす実数\(a,b,c,d\in \mathbb{R} \)を用いて以下の利得行列
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:囚人のジレンマの利得行列

として表現されます。\(a>b\)と\(c>d\)が成り立つことは、相手が協調と裏切りのどちらを選ぶ場合においても自分は裏切ったほうがよいことを意味します。また、\(b>c\)が成り立つことは、お互いに協調するほうがお互いに裏切るよりも双方にとってよいことを意味します。

例(囚人のジレンマ)
以下の利得行列は囚人のジレンマとしての条件を満たしています。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

 

囚人のジレンマの均衡

囚人のジレンマでは裏切りの組\(\left( D,D\right) \)が狭義の支配戦略均衡になります。

命題(囚人のジレンマの狭義の支配戦略均衡)
戦略型ゲーム\(G\)のプレイヤー集合は\(I=\left\{ 1,2\right\} \)であり、それぞれのプレイヤー\(i\in I\)の純粋戦略集合は\(S_{i}=\left\{ C,D\right\} \)であり、利得関数\(u_{i}:S_{1}\times S_{2}\rightarrow \mathbb{R} \)は、\begin{equation*}a>b>c>d
\end{equation*}を満たす実数\(a,b,c,d\in \mathbb{R} \)を用いて、以下の利得行列
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:利得行列

によって表現されているものとする。このゲーム\(G\)には狭義の支配戦略均衡が存在し、それは\(\left( D,D\right) \)である。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

一般に、戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合には一意的であるため、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける唯一の狭義の支配戦略均衡です。

プレイヤーが混合戦略を採用する場合にはどうなるでしょうか。一般に、戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在することと、\(G\)の混合拡張\(G^{\ast }\)に狭義の支配戦略均衡が存在することは必要十分であるとともに、両者は一致します。したがって、裏切り戦略の組\(\left(D,D\right) \)は混合戦略の範囲においても狭義の支配戦略均衡です。

戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合、プレイヤーたちが合理的であるという事実が共有知識でない場合においても、それぞれのプレイヤーが合理的でありさえすれば、プレイヤーたちはその均衡をプレーします。囚人のジレンマでは裏切り戦略の組\(\left( D,D\right) \)が狭義の支配戦略均衡であるため、それぞれのプレイヤーが合理的であれば、彼らは均衡\(\left( D,D\right) \)を実際にプレーすることが予測されます。

 

囚人のジレンマの均衡解釈

戦略型ゲームを分析する際にはプレイヤーの行動原理として合理性の仮定を採用します。つまり、プレイヤーは自己の利得を最大化するために最適な行動を選択するという仮定です。囚人のジレンマにおいてそれぞれのプレイヤーは、相手が自白\(D\)と黙秘\(C\)のどちらを選ぶ場合においても、自分は自白\(D\)したほうが黙秘\(C\)する場合よりもより大きな利得を得られます(\(D\)が\(C\)を狭義支配する)。したがって、プレイヤーの目的が自己の利得の最大化である限りにおいて、プレイヤーは自白\(D\)を選びます。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

しかし、2人がともに自白\(D\)を選んだときに実現する結果\(\left( D,D\right) \)において自分が得る利得(上の表では\(2\))は、2人がともに黙秘\(C\)を選んだときに実現する結果\(\left( C,C\right) \)において自分が得る利得(上の表では\(5\))よりも小さくなってしまいます。相手にとっても事情は同じであるため、自分だけではなく相手にとっても\(\left(C,C\right) \)は\(\left( D,D\right) \)よりも望ましい結果のはずです。つまり、それぞれのプレイヤーが自己の利得を最大化するために行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないという意味において、囚人のジレンマは興味深い例になっています。

自己の利得を最大化する合理的なプレイヤーたちは本当に\(\left(C,C\right) \)をプレーしないのでしょうか。\(\left( C,C\right) \)は\(\left( D,D\right) \)よりも双方により大きな利得をもたらすため、\(\left( D,D\right) \)が実現しないという結論に違和感を感じるかもしれません。そこで以下では、\(\left( C,C\right) \)が実現しない理由をより詳細に分析します。

まず、囚人のジレンマのような完備情報の静学ゲームは、プレイヤーの間に拘束的な合意が成立しない状況が想定されています。したがって、仮に一方のプレイヤーが\(C\)を選んだとしても、そのプレイヤーは相手に対して自分と同じように\(C\)を選ぶように仕向けることはできません。そして、自分が\(C\)を選んだときに相手が\(D\)を選べば、それは自分にとって最悪の結果です(上の表では利得\(0\))。したがって自分が\(C\)を選ぶ合理的な根拠がありません。

一歩譲って、仮に相手に対して\(C\)を選ぶように仕向けることに成功したとしましょう。しかし、その場合には、今度は自分が\(C\)ではなく\(D\)を選べば自分にとって最良の結果になるため(上の表では利得\(8\))、自分は\(D\)を選ぶことになります。したがってこの場合にも自分が\(C\)を選ぶ合理的な根拠がありません。

完備情報の静学ゲームという戦略的状況と合理性の仮定を前提とする限りにおいて、囚人のジレンマにおいてプレイヤーたちが\(\left( C,C\right) \)を選ぶことを正当化するのは困難です。ただし、囚人のジレンマのルールやプレイヤーの行動原理に改変を加えながら、プレイヤーたちが協調均衡を選び得る状況を模索する研究は数多く行われています。これらの研究については場を改めて解説します。

 

囚人のジレンマから得られる道徳的教訓

各人が自身の利得を最大化しようと行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないというのは囚人のジレンマの重要な帰結です。しかし、この結論を引き合いに出して、各人が自身の利得を最大化しようとすることを全面的に否定するのは極端です。まして、各人が常に自身を犠牲にしてまで他人のために行動することを道徳的に要求するのも極端です。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

囚人のジレンマにおける利他的な行動とはどのようなものでしょうか。上の利得行列で表される囚人のジレンマにおいて、プレイヤー\(2\)が\(C\)と\(D\)のどちらを選ぶ場合においても、プレイヤー\(1\)が\(D\)ではなく\(C\)を選んだ場合のほうが、プレイヤー\(2\)は常により大きな利得を得ます。したがって、プレイヤー\(1\)の利他的な戦略は\(C\)です。同様に考えると、プレイヤー\(2\)の利他的な戦略は\(C\)です。したがって、仮に2人が利他的に行動する場合には\(\left(C,C\right) \)が実現します。

注目すべきは、各人が利他的に行動する場合の結果\(\left( C,C\right) \)は、各人が自身の利得を最大化しようと行動する場合の結果\(\left( D,D\right) \)よりも双方にとってより望ましいということです。つまり、利他的な行動は自身の犠牲を必ずしも意味せず、むしろ相手だけでなく自身にとってさえもより望ましい結果を導き得るということです。

 

演習問題

問題(囚人のジレンマのナッシュ均衡)
一般に、戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合、それは狭義の純粋戦略ナッシュ均衡でもあります。したがって、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける狭義の純粋戦略ナッシュ均衡であるはずです。このことを狭義の純粋戦略ナッシュ均衡の定義から確認してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(囚人のジレンマの支配される戦略の逐次消去による解)
一般に、戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合、そのゲームは純粋戦略によって狭義に支配される戦略の逐次消去によって解くことができ、なおかつその解は狭義の支配純粋戦略均衡と一致します。したがって、囚人のジレンマは純粋戦略によって狭義に支配される戦略の逐次消去によって解くことができ、その解は裏切り戦略の組\(\left( D,D\right) \)と一致するはずです。このことを純粋戦略によって狭義に支配される戦略の逐次消去を通じて確認してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(囚人のジレンマのナッシュ均衡)
戦略型ゲーム\(G\)の混合拡張\(G^{\ast }\)に狭義の支配戦略均衡が存在する場合、それは狭義の混合戦略ナッシュ均衡でもあります。さらに、狭義の混合戦略ナッシュ均衡は広義の混合戦略ナッシュ均衡でもあります。本文中で明らかになったように、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける狭義の支配戦略均衡であるため、先の理由により、広義の混合戦略均衡でもあります。以上を踏まえた上で、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける唯一の広義の混合戦略ナッシュ均衡であることを証明してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

囚人のジレンマは2人ゲームですが、これを3人以上に拡張するとどのようなモデルになるでしょうか。次回はn人囚人のジレンマについて解説します。

< 前のページ
次のページ >
Share on twitter
Twitterで共有
Share on email
メールで共有
RELATED KNOWLEDGE

関連知識

クールノー競争

戦略型ゲーム(標準型ゲーム)

完備情報の静学ゲームを記述するためにはプレイヤー、行動、結果、利得などをそれぞれ具体的に特定する必要があります。それらの要素を記述する方法はいくつか存在しますが、ここでは戦略型ゲームと呼ばれるモデルについて解説します。

囚人のジレンマ

n人囚人のジレンマ

囚人のジレンマは2人ゲームですが、これを3人以上に拡張するとどのようなモデルになるでしょうか。n人囚人のジレンマと呼ばれるゲームについて解説します。

囚人のジレンマ

非対称的な利得構造を持つ囚人のジレンマ

これまではプレイヤーたちが同一の利得関数を持つ囚人のジレンマについて考えてきましたが、状況を少し一般化して、プレイヤーたちが異なる利得関数を持つ場合の囚人のジレンマについて考えます。

囚人のジレンマ

囚人のジレンマの例:軍拡競争

冷戦期に行われた米ソ間の軍拡競争は囚人のジレンマとしての側面を持っていることを解説した上で、そこでのナッシュ均衡を求めます。

囚人のジレンマの例

囚人のジレンマとしての価格競争

完全代替財を販売する企業の間で行われる価格競争は囚人のジレンマとしての側面を持っていることを解説した上で、そこでのナッシュ均衡を求めます。

ベイジアンゲーム

ベイジアンゲームにおける支配戦略均衡

ベイジアンゲームにおいてプレイヤーがある純粋戦略を選ぶとき、自身を含めた全員のタイプや他のプレイヤーたちの行動、信念に関わらず利得を常に最大化できるならば、そのような戦略を支配純粋戦略と呼びます。支配純粋戦略の組を支配純粋戦略均衡と呼びます。

支配戦略均衡

狭義の支配戦略均衡

戦略型ゲームにおける純粋戦略の組を構成する戦略がいずれも狭義の支配戦略である場合、そのような戦略の組を狭義の支配戦略均衡と呼びます。

支配戦略均衡

広義の支配戦略均衡

戦略型ゲームにおける純粋戦略の組を構成する戦略がいずれも広義の支配戦略である場合、そのような戦略の組を広義の支配戦略均衡と呼びます。

事後均衡

事後均衡と支配戦略均衡の関係

ベイジアンゲームにおいて事後均衡は支配戦略均衡でもありますが、その逆は成立するとは限りません。ただ、私的価値モデルにおいて事後均衡が一定の条件を満たす場合、それは支配戦略均衡になることが保証されます。

DISCUSSION

質問とコメント

プレミアム会員専用コンテンツです
ログイン】【会員登録

ゲームの例