WIIS

ゲームの例

囚人のジレンマ

目次

前のページ:
次のページ:

n人囚人のジレンマ

Mailで保存
Xで共有

囚人のジレンマ

ある犯罪の共犯と思われる2人の被疑者が逮捕され取り調べを受けています。2人は別々の取調室に隔離されているため、話をしたりメッセージを交換できません。検察は問題としている犯罪に関して2人を有罪にするほど十分な証拠を持っていませんが、比較的軽微な余罪に関して2人を有罪にするに足る証拠を持っています。そこで検察は2人に対して罪を自白するか黙秘するかのどちらか一方を選択させます。ただし、2人の行動の組み合わせに応じて以下の帰結が生じることを2人に対してあらかじめ伝えておきます。

  1. 2人がともに自白すれば両者は容疑の件に関して有罪が確定し、両者はともに8年の懲役刑を受ける。
  2. 2人がともに黙秘すれば両者は容疑の件に関しては有罪にならないが、余罪に関して有罪が確定し、両者はともに1年の懲役刑を受ける。
  3. 2人のうち一方だけが自白した場合には共犯証言の制度により、自白した者の量刑は3ヶ月となり、黙秘した者への量刑は10年となる。

これは1950年にランド研究所のメリル・フラッド(Merrill Flood)とメルビン・ドレッシャー(Melvin Dresher)が行った心理実験から着想を得て、同じくランド研究所の顧問であったアルバート・タッカー(Albert Tucker)が形式化した囚人のジレンマ(prisoner’s dilemma)と呼ばれる逸話です。

 

完備情報の静学ゲームとしての囚人のジレンマ

囚人のジレンマが想定する状況を2人の被疑者をプレイヤーとするゲームと解釈します。2人の被疑者は別々の取調室に隔離されているため、両者が事前交渉を行うことはできず、したがって拘束的合意は成立し得ません。仮に、2人が逮捕される前に接触しており、取り調べにおいて口裏を合わせる約束をしていた場合でも、その約束には拘束力がありません。したがって囚人のジレンマは非協力ゲームです。さらに、2人は別々の取調室に隔離されているため相談できず、相手の意思決定を観察できない状態で意思決定を行うことを強いられるため、囚人のジレンマは静学ゲームです。さらにゲームのルールが2人にとって共有知識であることを仮定するのであれば、囚人のジレンマを完備情報の静学ゲームとして記述することができます。

そこで、囚人のジレンマを以下のような戦略型ゲーム\(G\)としてモデル化します。まず、プレイヤー集合は、\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}です。ただし、\(i\in I\)は被疑者\(i\)を表します。また、それぞれのプレイヤー\(i\in I\)の純粋戦略集合は、\begin{equation*}S_{1}=S_{2}=\left\{ C,D\right\}
\end{equation*}です。ただし、\(C\)は協調戦略に相当する黙秘を表し(CooperateのC)、\(D\)は裏切り戦略に相当する自白を表します(DefectのD)。ゲームの結果は以下の行列として整理されます。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 1年,1年 & 10年,3カ月 \\ \hline
D & 3カ月,10年 & 8年,8年 \\ \hline
\end{array}$$

利得関数としては様々な可能性がありますが、典型的なものは「自身に課される刑が軽い方が望ましい」というものであり、それは、以下の条件\begin{equation*}
a>b>c>d
\end{equation*}を満たす実数\(a,b,c,d\in \mathbb{R} \)を用いて以下の利得行列

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

として表現されます。つまり、プレイヤー\(1\)の利得関数\(u_{1}:S_{1}\times S_{2}\rightarrow \mathbb{R} \)は、\begin{equation*}u_{1}\left( D,C\right) >u_{1}\left( C,C\right) >u_{1}\left( D,D\right)
>u_{1}\left( C,D\right)
\end{equation*}を満たし、プレイヤー\(2\)の利得関数\(u_{2}:S_{1}\times S_{2}\rightarrow \mathbb{R} \)は、\begin{equation*}u_{2}\left( C,D\right) >u_{2}\left( C,C\right) >u_{2}\left( D,D\right)
>u_{2}\left( D,C\right)
\end{equation*}を満たすということです。\(a>b\)と\(c>d\)が成り立つことは、相手が協調と裏切りのどちらを選ぶ場合においても自分は裏切ったほうがよいことを意味します。また、\(b>c\)が成り立つことは、お互いに協調するほうがお互いに裏切るよりも双方にとってよいことを意味します。

例(囚人のジレンマ)
以下の利得行列は囚人のジレンマとしての条件を満たしています。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ
例(囚人のジレンマ)
以下の利得行列は囚人のジレンマとしての条件を満たしています。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 2,2 & 0,3 \\ \hline
D & 3,0 & 1,1 \\ \hline
\end{array}$$

表:囚人のジレンマ
例(資源の過剰採取)
2つの主体がある資源を共有している状況を想定します。水場を共有する2つの農家、牧草地を共有する2つの酪農家、漁場を共有する2人の漁師などを想定してください。それぞれの主体に与えられている選択肢は、資源の使用量を適切な水準に抑える(協調戦略\(C\))か、資源を過剰に利用する(裏切り戦略\(D\))かのどちらか一方です。それぞれの主体はより多くの資源を利用するほど、より多くの利益が得られるものとします。双方が\(C\)を選ぶ場合や、一方だけが\(D\)を選ぶ場合には資源は持続可能である一方で、双方が\(D\)を選ぶ場合には資源は枯渇してしまうものとします。この場合、両者が直面する状況は囚人のジレンマです。

 

囚人のジレンマの均衡

囚人のジレンマでは2人がともに裏切りを選択することが狭義の支配戦略均衡になります。

命題(囚人のジレンマの狭義の支配戦略均衡)
戦略型ゲーム\(G\)のプレイヤー集合は\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}であり、それぞれのプレイヤー\(i\in I\)の純粋戦略集合は、\begin{equation*}S_{1}=S_{2}=\left\{ C,D\right\}
\end{equation*}であり、利得関数\(u_{i}:S_{1}\times S_{2}\rightarrow \mathbb{R} \)は以下の条件\begin{equation*}a>b>c>d
\end{equation*}を満たす実数\(a,b,c,d\in \mathbb{R} \)を用いて、以下の利得行列
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$

表:利得行列

として表現されるものとする。このゲーム\(G\)には狭義の支配戦略均衡が存在し、それは、\begin{equation*}\left( D,D\right)
\end{equation*}である。

証明

プレミアム会員専用コンテンツです
ログイン】【会員登録

戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合には一意的であるため、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける唯一の狭義の支配戦略均衡です。

プレイヤーが混合戦略を採用する場合にはどうなるでしょうか。戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在することと、\(G\)の混合拡張\(G^{\ast }\)に狭義の支配戦略均衡が存在することは必要十分であるとともに、両者は一致します。したがって、裏切り戦略の組\(\left( D,D\right) \)は混合戦略の範囲においても狭義の支配戦略均衡です。

戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合、プレイヤーたちが合理的であるという事実が共有知識でない場合においても、それぞれのプレイヤーが合理的でありさえすれば、プレイヤーたちはその均衡をプレーします。囚人のジレンマでは裏切り戦略の組\(\left( D,D\right) \)が狭義の支配戦略均衡であるため、それぞれのプレイヤーが合理的であれば、彼らは均衡\(\left( D,D\right) \)を実際にプレーすることが理論的に結論付けられます。

 

囚人のジレンマの均衡解釈

戦略型ゲームを分析する際にはプレイヤーの行動原理として合理性の仮定を採用します。つまり、プレイヤーは自己の利得を最大化するために最適な行動を選択するという仮定です。囚人のジレンマにおいてそれぞれのプレイヤーは、相手が自白\(D\)と黙秘\(C\)のどちらを選ぶ場合においても、自分は自白\(D\)したほうが黙秘\(C\)する場合よりもより大きな利得を得られます(\(D\)が\(C\)を狭義支配する)。したがって、プレイヤーの目的が自己の利得の最大化である限りにおいて、プレイヤーは自白\(D\)を選びます。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

しかし、2人がともに自白\(D\)を選んだときに実現する結果\(\left( D,D\right) \)において自分が得る利得(上の表では\(2\))は、2人がともに黙秘\(C\)を選んだときに実現する結果\(\left( C,C\right) \)において自分が得る利得(上の表では\(5\))よりも小さくなってしまいます。相手にとっても事情は同じであるため、自分だけではなく相手にとっても\(\left(C,C\right) \)は\(\left( D,D\right) \)よりも望ましい結果のはずです。つまり、それぞれのプレイヤーが自己の利得を最大化するために行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないという意味において、囚人のジレンマは興味深い例になっています。

自己の利得を最大化する合理的なプレイヤーたちは本当に\(\left(C,C\right) \)をプレーしないのでしょうか。\(\left( C,C\right) \)は\(\left( D,D\right) \)よりも双方により大きな利得をもたらすとともに、双方はその事実を把握しているため、\(\left( C,C\right) \)が実現しないという結論に違和感を感じるかもしれません。そこで以下では、\(\left( C,C\right) \)が実現しない理由をより詳細に分析します。

まず、囚人のジレンマのような完備情報の静学ゲームでは、プレイヤーの間に拘束的な合意が成立しない状況が想定されています。したがって、仮に一方のプレイヤーが\(C\)を選んだとしても、そのプレイヤーは相手に対して自分と同じように\(C\)を選ぶように仕向けることはできません。そして、自分が\(C\)を選んだときに相手が\(D\)を選べば、それは自分にとって最悪の結果です(上の表では利得\(0\))。したがって自分が\(C\)を選ぶ合理的な根拠がありません。

一歩譲って、仮に相手に対して\(C\)を選ぶように仕向けることに成功したとしましょう。しかし、その場合には、今度は自分が\(C\)ではなく\(D\)を選べば自分にとって最良の結果になるため(上の表では利得\(8\))、自分は\(D\)を選ぶことになります。したがってこの場合にも自分が\(C\)を選ぶ合理的な根拠がありません。

完備情報の静学ゲームという戦略的状況と合理性の仮定を前提とする限りにおいて、囚人のジレンマにおいてプレイヤーたちが\(\left( C,C\right) \)を選ぶことを正当化するのは困難です。ただし、囚人のジレンマのルールやプレイヤーの行動原理に改変を加えながら、プレイヤーたちが協調均衡を選び得る状況を模索する研究は数多く行われています。これらの研究については場を改めて解説します。

 

囚人のジレンマから得られる道徳的教訓

各人が自身の利得を最大化しようと行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないというのは囚人のジレンマの重要な帰結です。しかし、この結論を引き合いに出して、各人が自身の利得を最大化しようとすることを全面的に否定するのは極端です。まして、各人が常に自身を犠牲にしてまで他人のために行動することを道徳的に要求するのも極端です。

$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$

表:囚人のジレンマ

囚人のジレンマにおける利他的な行動とはどのようなものでしょうか。上の利得行列で表される囚人のジレンマにおいて、プレイヤー\(2\)が\(C\)と\(D\)のどちらを選ぶ場合においても、プレイヤー\(1\)が\(D\)ではなく\(C\)を選んだ場合のほうが、プレイヤー\(2\)は常により大きな利得を得ます。したがって、プレイヤー\(1\)の利他的な戦略は\(C\)です。同様に考えると、プレイヤー\(2\)の利他的な戦略は\(C\)です。したがって、仮に2人が利他的に行動する場合には\(\left(C,C\right) \)が実現します。

注目すべきは、各人が利他的に行動する場合の結果\(\left( C,C\right) \)は、各人が自身の利得を最大化しようと行動する場合の結果\(\left( D,D\right) \)よりも双方にとってより望ましいということです。つまり、利他的な行動は自身の犠牲を必ずしも意味せず、むしろ相手だけでなく自身にとってさえもより望ましい結果を導き得るということです。

 

演習問題

問題(囚人のジレンマの具体例)
2人のプレイヤーが参加する以下のゲームについて考えます。それぞれのプレイヤーは、自分が\(1\)万円をもらうか、相手が\(2\)万円をもらうか、どちらか一方を選択する必要があります。2人は事前に話をしたりメッセージを交換することはできません。また、相手が選んだ選択肢を観察できない状態で自分の選択肢を決定する必要があります。以上の状況を戦略型ゲームとして定式化するとともに、それが囚人のジレンマであることを明らかにしてください。その上で、ゲームの均衡を求めてください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(囚人のジレンマのナッシュ均衡)
戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合、それは狭義の純粋戦略ナッシュ均衡でもあります。したがって、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける狭義の純粋戦略ナッシュ均衡であるはずです。このことを狭義の純粋戦略ナッシュ均衡の定義から確認してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(囚人のジレンマの支配される戦略の逐次消去による解)
戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合、そのゲームは純粋戦略によって狭義に支配される戦略の逐次消去によって解くことができ、なおかつその解は狭義の支配純粋戦略均衡と一致します。したがって、囚人のジレンマは純粋戦略によって狭義に支配される戦略の逐次消去によって解くことができ、その解は裏切り戦略の組\(\left( D,D\right) \)と一致するはずです。このことを純粋戦略によって狭義に支配される戦略の逐次消去を通じて確認してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

問題(囚人のジレンマのナッシュ均衡)
戦略型ゲーム\(G\)の混合拡張\(G^{\ast }\)に狭義の支配戦略均衡が存在する場合、それは狭義の混合戦略ナッシュ均衡でもあります。さらに、狭義の混合戦略ナッシュ均衡は広義の混合戦略ナッシュ均衡でもあります。本文中で明らかになったように、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける狭義の支配戦略均衡であるため、先の理由により、広義の混合戦略均衡でもあります。以上を踏まえた上で、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける唯一の広義の混合戦略ナッシュ均衡であることを証明してください。
解答を見る

プレミアム会員専用コンテンツです
ログイン】【会員登録

関連知識

前のページ:
次のページ:

n人囚人のジレンマ

Mailで保存
Xで共有

質問とコメント

プレミアム会員専用コンテンツです

会員登録

有料のプレミアム会員であれば、質問やコメントの投稿と閲覧、プレミアムコンテンツ(命題の証明や演習問題とその解答)へのアクセスなどが可能になります。

ワイズのユーザーは年齢・性別・学歴・社会的立場などとは関係なく「学ぶ人」として対等であり、お互いを人格として尊重することが求められます。ユーザーが快適かつ安心して「学ぶ」ことに集中できる環境を整備するため、広告やスパム投稿、他のユーザーを貶めたり威圧する発言、学んでいる内容とは関係のない不毛な議論などはブロックすることになっています。詳細はガイドラインをご覧ください。

誤字脱字、リンク切れ、内容の誤りを発見した場合にはコメントに投稿するのではなく、以下のフォームからご連絡をお願い致します。

プレミアム会員専用コンテンツです
ログイン】【会員登録

ゲームの例