囚人のジレンマ
ある犯罪の共犯と思われる2人の被疑者が逮捕され取り調べを受けています。2人は別々の取調室に隔離されているため、話をしたりメッセージを交換できません。検察は問題としている犯罪に関して2人を有罪にするほど十分な証拠を持っていませんが、比較的軽微な余罪に関して2人を有罪にするに足る証拠を持っています。そこで検察は2人に対して罪を自白するか黙秘するかのどちらか一方を選択させます。ただし、2人の行動の組み合わせに応じて以下の帰結が生じることを2人に対してあらかじめ伝えておきます。
- 2人がともに自白すれば両者は容疑の件に関して有罪が確定し、両者はともに8年の懲役刑を受ける。
- 2人がともに黙秘すれば両者は容疑の件に関しては有罪にならないが、余罪に関して有罪が確定し、両者はともに1年の懲役刑を受ける。
- 2人のうち一方だけが自白した場合には共犯証言の制度により、自白した者の量刑は3ヶ月となり、黙秘した者への量刑は10年となる。
これは1950年にランド研究所のメリル・フラッド(Merrill Flood)とメルビン・ドレッシャー(Melvin Dresher)が行った心理実験から着想を得て、同じくランド研究所の顧問であったアルバート・タッカー(Albert Tucker)が形式化した囚人のジレンマ(prisoner’s dilemma)と呼ばれる逸話です。
完備情報の静学ゲームとしての囚人のジレンマ
囚人のジレンマが想定する状況を2人の被疑者をプレイヤーとするゲームと解釈します。2人の被疑者は別々の取調室に隔離されているため、両者が事前交渉を行うことはできず、したがって拘束的合意は成立し得ません。仮に、2人が逮捕される前に接触しており、取り調べにおいて口裏を合わせる約束をしていた場合でも、その約束には拘束力がありません。したがって囚人のジレンマは非協力ゲームです。さらに、2人は別々の取調室に隔離されているため相談できず、相手の意思決定を観察できない状態で意思決定を行うことを強いられるため、囚人のジレンマは静学ゲームです。さらにゲームのルールが2人にとって共有知識であることを仮定するのであれば、囚人のジレンマを完備情報の静学ゲームとして記述することができます。
そこで、囚人のジレンマを以下のような戦略型ゲーム\(G\)としてモデル化します。まず、プレイヤー集合は、\begin{equation*}I=\left\{ 1,2\right\}
\end{equation*}です。ただし、\(i\in I\)は被疑者\(i\)を表します。また、それぞれのプレイヤー\(i\in I\)の純粋戦略集合は、\begin{equation*}S_{1}=S_{2}=\left\{ C,D\right\}
\end{equation*}です。ただし、\(C\)は協調戦略に相当する黙秘を表し(CooperateのC)、\(D\)は裏切り戦略に相当する自白を表します(DefectのD)。ゲームの結果は以下の行列として整理されます。
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 1年,1年 & 10年,3カ月 \\ \hline
D & 3カ月,10年 & 8年,8年 \\ \hline
\end{array}$$
利得関数としては様々な可能性がありますが、典型的なものは「自身に課される刑が軽い方が望ましい」というものであり、それは、以下の条件\begin{equation*}
a>b>c>d
\end{equation*}を満たす実数\(a,b,c,d\in \mathbb{R} \)を用いて以下の利得行列
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$
として表現されます。つまり、プレイヤー\(1\)の利得関数\(u_{1}:S_{1}\times S_{2}\rightarrow \mathbb{R} \)は、\begin{equation*}u_{1}\left( D,C\right) >u_{1}\left( C,C\right) >u_{1}\left( D,D\right)
>u_{1}\left( C,D\right)
\end{equation*}を満たし、プレイヤー\(2\)の利得関数\(u_{2}:S_{1}\times S_{2}\rightarrow \mathbb{R} \)は、\begin{equation*}u_{2}\left( C,D\right) >u_{2}\left( C,C\right) >u_{2}\left( D,D\right)
>u_{2}\left( D,C\right)
\end{equation*}を満たすということです。\(a>b\)と\(c>d\)が成り立つことは、相手が協調と裏切りのどちらを選ぶ場合においても自分は裏切ったほうがよいことを意味します。また、\(b>c\)が成り立つことは、お互いに協調するほうがお互いに裏切るよりも双方にとってよいことを意味します。
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 2,2 & 0,3 \\ \hline
D & 3,0 & 1,1 \\ \hline
\end{array}$$
囚人のジレンマの均衡
囚人のジレンマでは2人がともに裏切りを選択することが狭義の支配戦略均衡になります。
\end{equation*}であり、それぞれのプレイヤー\(i\in I\)の純粋戦略集合は、\begin{equation*}S_{1}=S_{2}=\left\{ C,D\right\}
\end{equation*}であり、利得関数\(u_{i}:S_{1}\times S_{2}\rightarrow \mathbb{R} \)は以下の条件\begin{equation*}a>b>c>d
\end{equation*}を満たす実数\(a,b,c,d\in \mathbb{R} \)を用いて、以下の利得行列
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & b,b & d,a \\ \hline
D & a,d & c,c \\ \hline
\end{array}$$
として表現されるものとする。このゲーム\(G\)には狭義の支配戦略均衡が存在し、それは、\begin{equation*}\left( D,D\right)
\end{equation*}である。
戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合には一意的であるため、裏切り戦略の組\(\left( D,D\right) \)は囚人のジレンマにおける唯一の狭義の支配戦略均衡です。
プレイヤーが混合戦略を採用する場合にはどうなるでしょうか。戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在することと、\(G\)の混合拡張\(G^{\ast }\)に狭義の支配戦略均衡が存在することは必要十分であるとともに、両者は一致します。したがって、裏切り戦略の組\(\left( D,D\right) \)は混合戦略の範囲においても狭義の支配戦略均衡です。
戦略型ゲーム\(G\)に狭義の支配戦略均衡が存在する場合、プレイヤーたちが合理的であるという事実が共有知識でない場合においても、それぞれのプレイヤーが合理的でありさえすれば、プレイヤーたちはその均衡をプレーします。囚人のジレンマでは裏切り戦略の組\(\left( D,D\right) \)が狭義の支配戦略均衡であるため、それぞれのプレイヤーが合理的であれば、彼らは均衡\(\left( D,D\right) \)を実際にプレーすることが理論的に結論付けられます。
囚人のジレンマの均衡解釈
戦略型ゲームを分析する際にはプレイヤーの行動原理として合理性の仮定を採用します。つまり、プレイヤーは自己の利得を最大化するために最適な行動を選択するという仮定です。囚人のジレンマにおいてそれぞれのプレイヤーは、相手が自白\(D\)と黙秘\(C\)のどちらを選ぶ場合においても、自分は自白\(D\)したほうが黙秘\(C\)する場合よりもより大きな利得を得られます(\(D\)が\(C\)を狭義支配する)。したがって、プレイヤーの目的が自己の利得の最大化である限りにおいて、プレイヤーは自白\(D\)を選びます。
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$
しかし、2人がともに自白\(D\)を選んだときに実現する結果\(\left( D,D\right) \)において自分が得る利得(上の表では\(2\))は、2人がともに黙秘\(C\)を選んだときに実現する結果\(\left( C,C\right) \)において自分が得る利得(上の表では\(5\))よりも小さくなってしまいます。相手にとっても事情は同じであるため、自分だけではなく相手にとっても\(\left(C,C\right) \)は\(\left( D,D\right) \)よりも望ましい結果のはずです。つまり、それぞれのプレイヤーが自己の利得を最大化するために行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないという意味において、囚人のジレンマは興味深い例になっています。
自己の利得を最大化する合理的なプレイヤーたちは本当に\(\left(C,C\right) \)をプレーしないのでしょうか。\(\left( C,C\right) \)は\(\left( D,D\right) \)よりも双方により大きな利得をもたらすとともに、双方はその事実を把握しているため、\(\left( C,C\right) \)が実現しないという結論に違和感を感じるかもしれません。そこで以下では、\(\left( C,C\right) \)が実現しない理由をより詳細に分析します。
まず、囚人のジレンマのような完備情報の静学ゲームでは、プレイヤーの間に拘束的な合意が成立しない状況が想定されています。したがって、仮に一方のプレイヤーが\(C\)を選んだとしても、そのプレイヤーは相手に対して自分と同じように\(C\)を選ぶように仕向けることはできません。そして、自分が\(C\)を選んだときに相手が\(D\)を選べば、それは自分にとって最悪の結果です(上の表では利得\(0\))。したがって自分が\(C\)を選ぶ合理的な根拠がありません。
一歩譲って、仮に相手に対して\(C\)を選ぶように仕向けることに成功したとしましょう。しかし、その場合には、今度は自分が\(C\)ではなく\(D\)を選べば自分にとって最良の結果になるため(上の表では利得\(8\))、自分は\(D\)を選ぶことになります。したがってこの場合にも自分が\(C\)を選ぶ合理的な根拠がありません。
完備情報の静学ゲームという戦略的状況と合理性の仮定を前提とする限りにおいて、囚人のジレンマにおいてプレイヤーたちが\(\left( C,C\right) \)を選ぶことを正当化するのは困難です。ただし、囚人のジレンマのルールやプレイヤーの行動原理に改変を加えながら、プレイヤーたちが協調均衡を選び得る状況を模索する研究は数多く行われています。これらの研究については場を改めて解説します。
囚人のジレンマから得られる道徳的教訓
各人が自身の利得を最大化しようと行動する場合、得られる結果は相手だけではなく自分にとっても最適なものにならないというのは囚人のジレンマの重要な帰結です。しかし、この結論を引き合いに出して、各人が自身の利得を最大化しようとすることを全面的に否定するのは極端です。まして、各人が常に自身を犠牲にしてまで他人のために行動することを道徳的に要求するのも極端です。
$$\begin{array}{|c|c|c|}\hline
1\diagdown 2 & C & D \\ \hline
C & 5,5 & 0,8 \\ \hline
D & 8,0 & 2,2 \\ \hline
\end{array}$$
囚人のジレンマにおける利他的な行動とはどのようなものでしょうか。上の利得行列で表される囚人のジレンマにおいて、プレイヤー\(2\)が\(C\)と\(D\)のどちらを選ぶ場合においても、プレイヤー\(1\)が\(D\)ではなく\(C\)を選んだ場合のほうが、プレイヤー\(2\)は常により大きな利得を得ます。したがって、プレイヤー\(1\)の利他的な戦略は\(C\)です。同様に考えると、プレイヤー\(2\)の利他的な戦略は\(C\)です。したがって、仮に2人が利他的に行動する場合には\(\left(C,C\right) \)が実現します。
注目すべきは、各人が利他的に行動する場合の結果\(\left( C,C\right) \)は、各人が自身の利得を最大化しようと行動する場合の結果\(\left( D,D\right) \)よりも双方にとってより望ましいということです。つまり、利他的な行動は自身の犠牲を必ずしも意味せず、むしろ相手だけでなく自身にとってさえもより望ましい結果を導き得るということです。
プレミアム会員専用コンテンツです
【ログイン】【会員登録】