Meine Merkliste
my.bionity.com  
Login  

Gefangenendilemma



Das Gefangenendilemma ist ein Paradoxon, das zentraler Bestandteil der Spieltheorie ist. Bei dem Dilemma handelt es sich um ein klassisches symmetrisches „Zwei-Personen-Nicht-Nullsummen-Spiel”, das in den 1950er Jahren von zwei Mitarbeitern der RAND Corporation formuliert wurde. Um ihre abstrakten theoretischen Resultate zu veranschaulichen, beschrieben Merrill Flood und Melvin Dresher ein soziales Dilemma als Zwei-Personen-Spiel, das zeigt, wie individuell rationale Entscheidungen zu kollektiv schlechteren Ergebnissen führen können. Die Bezeichnung „Gefangenendilemma“ stammt von Albert William Tucker von der Universität Princeton.

Inhaltsverzeichnis

Beschreibung der Situation

Zwei Gefangene werden verdächtigt, gemeinsam eine Straftat begangen zu haben. Die Höchststrafe für das Verbrechen beträgt fünf Jahre. Beiden Gefangenen wird nun ein Handel angeboten, worüber auch beide informiert sind. Wenn einer gesteht und somit seinen Partner mitbelastet, kommt er ohne Strafe davon – der andere muss die vollen fünf Jahre absitzen. Entscheiden sich beide zu schweigen, bleiben nur Indizienbeweise, die aber ausreichen, um beide für zwei Jahre einzusperren. Gestehen aber beide die Tat, erwartet jeden eine Gefängnisstrafe von vier Jahren.

Nun werden die Gefangenen unabhängig voneinander befragt. Weder vor noch während der Befragung haben die beiden die Möglichkeit, sich untereinander abzusprechen.

In einer Auszahlungsmatrix eingetragen, ergibt sich folgendes Bild:

B schweigt (kooperiert mit A) B gesteht (verrät A)
A schweigt (kooperiert mit B) A: −2 / B: −2 A: −5 / B: 0
A gesteht (verrät B) A: 0 / B: −5 A: −4 / B: −4
Ergebnisse (hier)
0 Versuchung” (temptation)– Belohnung für einseitigen Verrat (Freiheit)
-2 Belohnung” (reward) – Belohnung für Kooperation von A und B (nur zwei Jahre Strafe)
-4 Bestrafung” (punishment) – Bestrafung für gegenseitigen Verrat (vier Jahre Strafe)
-5 Des Gutgläubigen Belohnung” (sucker's payoff) – Bestrafung für Vertrauen, das Vertrauen wurde einseitig durch den Partner gebrochen (fünf Jahre Strafe)

In allgemeiner Form ergibt sich folgende Auszahlungsmatrix:

B kooperiert B verrät
A kooperiert R / R S / T
A verrät T / S P / P

mit T > R > P > S.

Die Auszahlung eines Spielers hängt somit nicht nur von der eigenen, sondern auch von der Entscheidung des Komplizen ab (Interdependenz des Verhaltens).

Individuell scheint es für beide vorteilhafter zu sein, auszusagen. Der Gefangene denkt sich: Falls der andere gesteht, reduziere ich mit meiner Aussage meine Strafe von fünf auf vier Jahre; falls er aber schweigt, dann kann ich mit meiner Aussage meine Strafe von zwei Jahren auf Null reduzieren! Also sollte ich auf jeden Fall gestehen! Diese Entscheidung zur Aussage hängt nicht vom Verhalten des anderen ab, und es ist anscheinend immer vorteilhafter zu gestehen. Eine solche Strategie, die ungeachtet der gegnerischen gewählt wird, wird in der Spieltheorie als dominante Strategie bezeichnet.

Würden beide Gefangene schweigen, dann müsste jeder nur zwei Jahre ins Gefängnis. Der Verlust für beide zusammen beträgt so vier Jahre und jede andere Kombination aus Gestehen und Schweigen führt zu einem höheren Verlust.

Die Spielanlage verhindert aber die Verständigung zwischen den Gefangenen und provoziert so einen einseitigen Verrat, durch den der Verräter das für ihn individuell bessere Resultat „Freispruch“ (falls der Mitgefangene schweigt) oder vier statt fünf Jahre (falls der Mitgefangene gesteht) zu erreichen hofft. Versuchen dies aber beide Gefangenen, so verschlimmern sie – auch individuell – ihre Lage, da sie nun je vier Jahre statt der zwei Jahre Gefängnis erhalten.

In diesem Auseinanderfallen der möglichen Strategien besteht das Dilemma der Gefangenen. Die vermeintlich rationale, schrittweise Analyse der Situation verleitet beide Gefangenen dazu zu gestehen, was zu einem schlechten Resultat führt (suboptimale Allokation). Das bessere Resultat wäre durch gemeinsame Kooperation erreichbar, die aber anfällig für einen Vertrauensbruch ist. Die rationalen Spieler treffen sich in einem Punkt, der in diesem Fall als pareto-ineffizientes Nash-Gleichgewicht bezeichnet wird.

Schuld und Unschuld

Im Gefangenendilemma spielt die Frage von tatsächlicher Schuld oder Unschuld für das Resultat keine Rolle. Das wirkt sich so aus, dass auch der Unschuldige besser wegkommt, wenn er gesteht – in dem Fall etwas, das er nicht getan hat. Da moralische Bedenken und die Hoffnung auf Erweis der Unschuld den Unschuldigen davon abhalten, zu gestehen, was er nicht getan hat, muss er dann oft die schlechtere Stellung einnehmen, die sich aus dem Nichtgeständnis ergibt. Wenn die Strafe für Nichtgestehen sehr hoch ist, gestehen auch viele Unschuldige alles. Das Dilemma kommt insbesondere bei Schauprozessen zum Tragen.

Vertrauen

Das Dilemma beruht besonders darauf, dass kein Teilnehmer weiß, wie sich der andere Teilnehmer verhalten wird. Die optimale Strategie für beide zusammen wäre, wenn beide Mitspieler einander vertrauen und miteinander kooperieren. Das Vertrauen kann auf zweierlei Art erzielt werden: Zum einen durch – nach den ursprünglichen Spielregeln nicht erlaubte – Kommunikation und entsprechende Vertrauensbeweise, zum anderen durch Strafe im Falle des Vertrauensbruches.

Der Ökonom und Spieletheoretiker Thomas Schelling geht in seinem Werk The Strategy of Conflict (deutsch: Die Strategie des Konflikts) auf solche Probleme unter den Bedingungen des Kalten Krieges ein (Gleichgewicht des Schreckens). Die Bestrafung für einseitigen Vertrauensbruch wäre so groß gewesen, dass er sich nicht lohnte. Beim wiederholten Spiel des Gefangenendilemmas beruhen die meisten Strategien darauf, dass man Informationen aus vorhergehenden Schritten verwendet. Wenn der andere in einem Schritt kooperiert, vertraut die erfolgreiche Strategie Tit for Tat („Wie du mir, so ich dir“) darauf, dass er es weiterhin tut, und gibt ihrerseits einen Vertrauensbeweis. Im entgegengesetzten Fall bestraft sie, um zu verhindern, dass sie ausgenutzt wird.

William Poundstone weist darauf hin, dass es sich nicht um ein Dilemma handele, wenn man auf Grund des Vertrauens sofort und immer Kooperation wählt. [1]

Spielweisen

Einmaliges Spiel

Gemäß der klassischen Analyse des Spiels ist im nur einmal gespielten Gefangenendilemma die einzig rationale Strategie für einen am eigenen Wohl interessierten Spieler, zu gestehen und den Mitgefangenen damit zu verraten. Denn durch seine Entscheidung kann er das Verhalten des Mitspielers nicht beeinflussen, und unabhängig von der Entscheidung des Mitspielers stellt er sich immer besser, wenn er selbst nicht mit dem Mitgefangenen kooperiert. Diese Analyse setzt voraus, dass die Spieler nur einmal aufeinander treffen, und ihre Entscheidungen keinen Einfluss auf spätere Interaktionen haben können. Da es sich um ein echtes Dilemma handelt, folgt aus dieser Analyse aber keine eindeutige Handlungsanweisung (präskriptive Aussage) für reale Interaktionen, die einem Gefangenendilemma entsprechen. Im einmaligen, um nicht zu sagen alles entscheidenden Spiel, muss jedoch darauf hingewiesen werden, dass es egal ist, ob sich beide Parteien zuvor absprechen. Die Situation nach einem evtl. geführten Gespräch bleibt gleich!

Moderne Analysen zeigen andere rationale Strategien, insbesondere bei anderen Anwendungen des Modells. Dass es unterschiedliche Auffassungen über die Rationalität geben könne, zeigt ein Hinweis Douglas Hofstadters. Er meinte, dass es zwei Typen von Zivilisationen im Weltall geben könne, eine, deren Mitglieder beim einmaligen Spiel des Gefangenendilemmas kooperieren würden, die andere, deren Mitglieder Verrat üben würden. Der zweite Typ dieser Gesellschaften würde sich am Ende in die Luft jagen. [2]

In Experimenten wurde nachgewiesen, dass sehr viele Mitspieler auch bei einmaligem Spiel kooperieren. Es wird angenommen, dass es verschiedene Spielertypen gibt. Die tatsächliche Verteilung der in den Experimenten beobachteten Kooperation kann durch die Standardtheorie der „rationalen Strategie“ nicht erklärt werden. In einem Experiment mit 40 Mitspielern, die jeweils 20 paarweise Spiele absolvierten, betrug die Kooperationsrate im Durchschnitt 22%.[3]

Mehrmaliges (endliches) Spiel

Die Situation ändert sich, wenn das Spiel mehrere Runden gespielt wird (sog. iterierte Spiele). Diese Variation ermöglicht den Spielern, die Entscheidungen des Gegners in den vorherigen Runden mit in die Entscheidung, ob in der jeweils nächsten Runde kooperiert oder übergelaufen wird, einzubeziehen. Vertrauensbruch kann somit im nächsten oder einem späteren Spiel geahndet werden (Vergeltung), Kooperation kann belohnt werden.

Die Anzahl der Runden darf den Spielern allerdings nicht mitgeteilt werden, sondern muss diesen unbekannt sein. Andernfalls könnte es sich für eigentlich kooperierende Spieler lohnen, in der letzten Runde zu verraten, weil dafür eine Vergeltung nicht mehr möglich ist. Somit wird aber die vorletzte Runde zur letzten, in welcher effektiv eine Entscheidung zu fällen ist, worauf sich wieder dieselbe Situation ergibt. Durch Induktion folgt, dass das einzig rationale Verhalten eines Spielers (Strategie) in diesem Fall der ständige Verrat ist[4]. In der Praxis wird dieses theoretisch rationale Verhalten jedoch nicht immer beobachtet[5].

Beim mehrmaligen Spiel wird die Auszahlungsmatrix in der Regel so gestaltet, dass zusätzlich zur allgemein gültigen Ungleichung T > R > P > S außerdem 2R > T + S gilt, was in der Beispiel-Auszahlungsmatrix aus der Einleitung erfüllt ist: 2 \cdot \left(-2\right) > 0 + \left(-5\right). Im entgegengesetzten Fall könnten sich zwei Spieler sonst durch abwechselndes Ausbeuten und Ausgebeutet Werden einen Vorteil gegenüber kooperierenden Spielern verschaffen.

Zur Interpretation der Ergebnisse eines Spiels werden bei endlichen Spielen die Auszahlungen der einzelnen Runden zu einer Gesamtauszahlung zusammengefasst, welche dann den Erfolg eines Spielers in einem Spiel wiedergibt. Hierfür werden die Auszahlungen der einzelnen Runden üblicherweise ungewichtet aufaddiert.

Man sollte bei diesem Spiel beachten, dass es ein Unterschied ist, ob man siegen oder gewinnen will. Wenn man den Sieg erringen will, handelt es sich eigentlich um ein anderes Spiel. Das Spiel wird zu einem Nullsummenspiel, wenn am Ende nur der Sieg gezählt wird. Wenn man gewinnen will (einen Gewinn erzielen will), lohnt es sich, dem anderen Mitspieler auch Kooperation anzubieten, indem man kooperiert. Wenn der andere darauf eingeht, erzielt man am Ende einen höheren Gewinn, als wenn man ausschließlich Verrat übt. Auch wenn man selbst auf die Kooperation des anderen eingeht durch eigene Kooperation, steigert man seinen Gewinn. [6]

Unendliches Spiel

Das Spiel wiederholt sich, ohne dass den Spielern bekannt ist, wann die letzte Runde stattfindet. Befinden sich die Spieler in diesem Dilemma, dann kann eine Nicht-Kooperation im darauf folgenden Spiel geahndet werden. Nicht zu kooperieren zahlt sich also nicht (zwangsläufig) aus, da man bei Verrat (direkt) im zweiten Spiel bestraft würde, während Kooperation (dauerhaft) belohnt wird. Tit-for-tat („wie du mir, so ich dir“) bedeutet Bestrafung für Verrat in der nächsten Periode. Man spricht in dem Fall von kalkulativem Vertrauen.

Computerturnier von Axelrod

Der amerikanische Politologe Robert Axelrod veranstaltete zum mehrmaligen Gefangenendilemma zu Beginn der 1980er Jahre ein Computerturnier, in dem er Computerprogramme mit verschiedenen Strategien gegeneinander antreten ließ. Die insgesamt erfolgreichste Strategie und gleichzeitig eine der einfachsten war besagte Tit-for-tat-Strategie, entwickelt von Anatol Rapoport. Sie kooperiert im ersten Schritt (freundliche Strategie) und den folgenden und „verzichtet auf den Verrat”, solange der andere ebenfalls kooperiert. Versucht der andere, sich einen Vorteil zu verschaffen („Verrat”), tut sie dies beim nächsten Mal ebenfalls (sie lässt sich nicht ausbeuten), kooperiert aber sofort wieder, wenn der andere kooperiert (sie ist nicht nachtragend).

Evolutionsdynamische Turniere

Eine Weiterentwicklung des Spiels über mehrere Runden ist das Spielen über mehrere Generationen. Sind alle Strategien in mehreren Runden gegeneinander und gegen sich selbst angetreten, werden die erzielten Resultate für jede Strategie zusammengezählt. Für einen nächsten Durchgang ersetzen die erfolgreichen Strategien die weniger erfolgreichen. Die erfolgreichste Strategie ist in der nächsten Generation am häufigsten vertreten. Auch diese Turnier-Variante wurde von Axelrod durchgeführt.

Strategien, die zum Verraten tendierten, erzielten hier zu Beginn relativ gute Resultate – solange sie auf andere Strategien stießen, die tendenziell eher kooperierten, also sich ausnutzen ließen. Sind verräterische Strategien aber erfolgreich, so werden kooperative von Generation zu Generation seltener – die verräterischen Strategien entziehen sich in ihrem Gelingen selbst die Erfolgsgrundlage. Treffen aber zwei Verräter-Strategien zusammen, so erzielen sie schlechtere Resultate als zwei kooperierende Strategien. Verräter-Strategien können nur durch Ausbeutung von Mitspielern wachsen. Kooperierende Strategien wachsen dagegen am besten, wenn sie aufeinander stoßen. Eine Minderheit von miteinander kooperierenden Strategien wie z. B. Tit-for-tat kann sich so sogar in einer Mehrheit von verräterischen Strategien behaupten und zur Mehrheit anwachsen. Solche Strategien, die sich über Generationen hin etablieren können und auch gegen Invasionen durch andere Strategien resistent sind, nennt man evolutionär stabile Strategien.

Tit-for-tat konnte erst 2004 von einer neuartigen Strategie der Universität Southampton geschlagen werden, welche sich bei gegenseitigem Aufeinandertreffen nach einem Initial-Austausch in eine Ausbeuter- bzw. eine Opferrolle begibt, um dem Ausbeuter so eine Spitzenposition zu ermöglichen (master-and-servant). Nötig dazu ist aber eine gewisse kritische Mindestgröße, d. h. master-and-servant kann sich nicht aus einer kleinen Anfangspopulation etablieren. Da die Spielpartner über ihr anfängliches Spielverhalten codiert kommunizieren, besteht der Einwand, dass die Master-and-servant-Strategie die Spielregeln verletzt, wonach die Spielpartner isoliert voneinander befragt werden. Die Strategie erinnert an Insektenvölker, in denen Arbeiterinnen auf Fortpflanzung gänzlich verzichten und ihre Arbeitskraft für das Wohlergehen der fruchtbaren Königin aufwenden.

Notwendige Bedingungen für das Ausbreiten von kooperativen Strategien sind: a) dass mehrere Runden gespielt werden, b) sich die Spieler von Runde zu Runde gegenseitig wiedererkennen können, um nötigenfalls Vergeltung zu üben, und c) dass nicht bekannt ist, wann sich die Spieler zum letzten Mal begegnen.

Sequentielle Entscheidung

Die Variante des Gefangenendilemma, bei der die Spieler nacheinander entscheiden, stellt die Spieler in eine asymmetrische Position. Eine solche Situation ergibt sich beispielsweise bei der Ausführung von bei Ebay zustande gekommenen Geschäften. Zunächst muss der Käufer entscheiden, ob er kooperieren, d.h. den Kaufbetrag an den Verkäufer überweisen möchte. Anschließend entscheidet der Verkäufer, ob er die Ware versendet. Trivialerweise wird der Verkäufer in keinem Fall die Ware versenden, wenn der Käufer den Kaufbetrag nicht überweist.

(Anmerkung zum Verständnis: Im Folgenden steht nicht die rationale Entscheidungsfindung im Sinne einer optimalen Strategie, sondern eine emotionale Motivation im Fokus.) Der Käufer befindet sich also in einer Situation der „Angst“, dass der Verkäufer die Ware nicht versenden könnte, auch wenn er – der Käufer – den Kaufpreis überweist. Ist das Geld beim Verkäufer eingegangen, gibt es für diesen die Versuchung („Gier“), die Ware dennoch nicht zu versenden. Angst und Gier können als Emotionen in diesem Fall den beiden Spielern also getrennt zugeordnet werden, während bei der üblichen, zeitgleichen Entscheidungsfindung beide Spieler gleichermaßen beide Emotionen empfinden bzw. erfahren können.

Dieser Unterschied macht die Analyse des Einflusses der Sozialen Identität (vereinfacht: „Wir-Gefühl“) möglich. Die traditionelle Hypothese ist, dass ein vorhandenes Wir-Gefühl die Tendenz zur Kooperation generell verstärkt. Yamagishi und Kiyonari[7]. stellten jedoch die These auf, dass ein Einfluss eines Wir-Gefühls zwar existiert, im Falle des sequentiellen Gefangenendilemmas jedoch ein viel stärkerer Effekt der reziproken Kooperation das Vorhandensein oder Nicht-Vorhandensein eines Wir-Gefühls unerheblich macht: Der Käufer motiviert den Verkäufer durch seine eigene Kooperation ebenfalls zur Kooperation. Simpson[8] konnte jedoch zeigen, dass die Belege, die Yamagishi und Kiyonari für ihre These anführen, ebenfalls mit der Annahme verträglich sind, dass ein vorhandenes „Wir-Gefühl“ die Spieler zwar dazu bringt, der Gier nicht nachzugeben, die Angst, der andere könne nicht kooperieren, jedoch weiterhin ein entscheidender Einfluss bleibt. Ein solcher Sachverhalt wäre insbesondere dazu geeignet, dass bei den Minimal-group-Experimenten von Tajfel[9] nicht beobachtet wurde, dass die Spieler den Gewinn ihrer eigenen Gruppe, sondern den Gewinnunterschied zur anderen Gruppe zu maximieren und den Unterschied innerhalb der eigenen Gruppe zu minimieren trachteten: Geht man einmal davon aus, dass zwei Spieler eines Gefangenendilemmas sich in irgendeiner Weise beide als Teil einer Gruppe fühlen und die Gruppenzugehörigkeit im Moment des Spiels salient ist, muss man annehmen, dass die beiden Spieler zum einen eine möglichst gleiche Verteilung zum anderen eine möglichst geringe Summe an Strafen (bzw. möglichst hohe Summe an Belohnung) anstreben. Nimmt ein Spieler an, der andere kooperiere (er also durch Gier von der Kooperation abgehalten werden kann), so können beide Ziele durch Kooperation (Differenz: RR < TS; und Summe: 2R > T + S) erreicht werden, nimmt der Spieler jedoch an, der andere kooperiere nicht (Angst vor Ausnutzung), so werden beide Ziele mit unterschiedlichen Strategien erreicht (Differenz schlägt Nicht-Kooperation vor: PP < TS; aber Summe schlägt Kooperation vor: 2P < T + S).

Strategien

Einige ausgewählte Strategien

Für das über mehrere Runden gespielte Gefangenendilemma gibt es viele verschiedene Strategien. Für einige Strategien haben sich Namen eingebürgert (Übersetzung in Klammern):

  • tit-for-tat (wie du mir, so ich dir): Kooperiert in der ersten Runde und kopiert in den nächsten Runden den vorherigen Spielzug des Spielpartners. Diese Strategie ist prinzipiell kooperationswillig, übt aber bei Verrat Vergeltung. Bei erneuter Kooperation des Mitspielers ist sie nicht nachtragend, sondern reagiert ihrerseits mit Kooperation.
Im Endlosspiel (englisch: Single Shot) erhält der tit-for-tat-Spieler (TFT) die Auszahlung
- gegen einen ewigen Kooperateur (K): TFT/K = \frac {a}  {1-\delta} (dieselbe Auszahlung erhält der Kooperateur)
- gegen einen anderen tit-for-tat-Spieler: TFT/TFT = \frac {a}  {1-\delta}
- gegen einen Verräter (D): TFT/D = \frac {c}  {1-\delta} +d-c
  • mistrust (Misstrauen): Verrät in der ersten Runde und kopiert in den nächsten Runden (wie tit-for-tat) den vorherigen Spielzug des Spielpartners. Ist nicht von sich aus kooperationswillig.
  • spite (Groll): Kooperiert solange, bis der Mitspieler zum ersten mal verrät. Verrät danach immer. Kooperiert bis zum ersten Vertrauensmissbrauch. Sehr nachtragend.
  • punisher (Bestrafer): Kooperiert bis zur ersten Abweichung. Dann ist er so lange feindlich, bis der Gewinn des Mitspielers aus seinem Abweichen aufgebraucht wurde. Dann kooperiert er wieder bis zum nächsten Abweichen von der kooperativen Lösung. Diese Strategie ist optimal bei kooperationswilligen Spielern, die Fehler begehen, also irrtümlich einen konfrontativen Zug machen. Bei wenigen Wiederholungen oder zu großen Unterschieden in der Ergebnismatrix kann es jedoch vorkommen, dass ein Verlust durch einen Fehler des Gegners nicht mehr ausgeglichen werden kann. Diese Spiele heißen unheilbar.
  • pavlov: Kooperiert in der ersten Runde und verrät, falls der vorherige Zug des Mitspielers anders als der eigene war. Kooperiert, wenn in der Vorrunde beide Spieler kooperierten oder beide verrieten. Dies führt zu einem Wechsel des Verhaltens, wenn der Gewinn der Vorrunde klein war, aber zum Beibehalten des Verhaltens, wenn der Gewinn groß war.
  • gradual (allmählich): Kooperiert solange, bis der Mitspieler zum ersten mal verrät. Verrät darauf einmal und kooperiert zweimal. Verrät der Mitspieler nach dieser Sequenz nochmals, Verrät die graduale Strategie zweimal und kooperiert zweimal. Verrät der Mitspieler danach nochmals, verrät sie dreimal und kooperiert zweimal. Diese Strategie kooperiert grundsätzlich, bestraft aber jeden Ausbeutungsversuch zunehmend unversöhnlicher.
  • prober (Sondierer): spielt die ersten drei Züge kooperieren, verraten, verraten und verrät fortan, wenn der Gegner im zweiten und dritten Zug kooperiert hat, spielt sonst tit-for-tat. Testet, ob sich der Mitspieler ohne Vergeltung ausnehmen lässt. Nimmt nicht-vergeltende Mitspieler aus. Passt sich bei Vergeltung aber an.
  • master-and-servant („Herr und Knecht” oder auch „Southampton-Strategie”): Diese Strategie spielt während der ersten fünf bis zehn Runden ein der Erkennung dienendes, codiertes Verhalten. Die Strategie stellt so fest, ob der Mitspieler ebenfalls Master-and-Servant spielt, d. h. ob er ein Verwandter ist. Ist dies der Fall, wird der eine Mitspieler zum Ausbeuter ('Master'), der immer betrügt, der andere Mitspieler zum Ausgenommenen ('Servant'), der bedingungslos und scheinbar wider alle Vernunft kooperiert. Ist der Mitspieler nicht 'Master-and-Servant'-konform, wird betrogen, um die Mitstreiter im Wettbewerb zu schädigen. Dies führt zu einem sehr guten Resultat für die Strategie als Ganzes, da bei Master-Servant-Begegnungen dem Master fast immer die maximal mögliche Punktzahl für einseitigen Verrat erhält, was bei sonst üblichen Begegnungen extrem unwahrscheinlich ist. Durch das mehrfache Einsenden von ähnlichen, sich als 'verwandt' erkennenden Master-and-Servant-Strategien kann der Erfolg in einem Turnier noch verstärkt werden. Ob Master-and-Servant gegen Tit-for-Tat gewinnen kann, hängt von den vergebenen Punkten (Auszahlungsmatrix) ab. Wenn T+P < 2\cdot R ist, hat es die Strategie schwer gegen Tit-for-Tat zu gewinnen.
  • always defect (verrate immer): Verrät immer, egal was der Spielpartner tut.
Gegen einen ewigen Kooperateur (K) erhält der Verräter (D): D/K = \frac {b}  {1-\delta}
Gegen einen anderen ewigen Defekteur erhält der Verräter D/D = \frac {c}  {1-\delta}
  • always cooperate (kooperiere immer): Kooperiert immer, egal was der Spielpartner tut.
Gegen einen anderen ewigen Koopereteur (K) erhält er: K/K = \frac {a}  {1-\delta}
Gegen einen ewigen Verräter (D) erhält er: K/D = \frac {d}  {1-\delta}
  • random (Zufall): Verrät oder kooperiert aufgrund eines 50:50-Zufallsentscheids.
  • per kind (periodisch und freundlich): Spielt periodisch die Folge kooperieren/kooperieren/verraten. Diese Strategie versucht, den Mitspieler durch zweimaliges Kooperieren in Sicherheit zu wiegen, um ihn dann einmal auszunehmen.
  • per nasty (periodisch und unfreundlich): Spielt periodisch die Folge verraten/verraten/kooperieren.
  • go by majority (Entscheide gemäß Mehrheit): Kooperiert in der ersten Runde und spielt dann den meistbenutzten Zug des Mitspielers. Bei Unentschieden wird kooperiert.
  • tit-for-two-tat (gutmütigeres tit-for-tat): Kooperiert in der ersten Runde. Hat der Mitspieler zuletzt kooperiert, wird auch kooperiert. Hat aber der Mitspieler zuletzt verraten, wird mit gleicher Wahrscheinlichkeit kooperiert oder verraten. Diese tit-for-tat-Variation kann sehr erfolgreich Kolonien bilden, auch wenn durch „Missverständnisse“ (Sabotage oder schlechte Kommunikation) die Geschäftsbeziehung hin und wieder gestört wird. Normale tit-for-tat-Agenten können durch eine Störung in einen Zyklus geraten, in dem immer abwechselnd einer kooperiert und der andere verrät. Dieser Zyklus wird nur durch eine weitere Störung durchbrochen.
gegen einen ewigen Verräter erhält der tit-for-two-tat-Spieler (TFTT) die Auszahlung: TFTT/D = \frac {c}  {1-\delta} +(1+\delta^2) \cdot (d - c)
gegen einen ewigen Kooperateur (K) einen tit-for-tat-Spieler oder einen anderen tit-for-two-tat-Spieler erhält er die Auszahlung: = \frac {a}  {1-\delta}

Optimale Strategie

Die einfache, aber sehr wirkungsvolle und langfristig erfolgreiche Strategie „tit-for-tat“ weist den Schönheitsfehler auf: Wenn nach einer gewissen Zeit beide Spieler diese Strategie langfristig wählen, können sie sich in einer dauerhaften Konfrontation blockieren. Dieser Umstand wird Vendetta (italienisch: Blutrache) genannt.

Abhilfe kann dadurch geschaffen werden, dass nach zufälliger, das heißt für den Gegner nicht abschätzbarer Anzahl von Wiederholungen spontan einseitig Kooperation gespielt wird, um den Kreislauf der Konfrontation zu durchbrechen („Verzeihen“). Dadurch wird langfristig das beste Ergebnis für beide Seiten erreicht.

Man kann auch von Fehler machenden Tit-for-tat-Spielern ausgehen. Das bedeutet, dass es die Möglichkeit gibt, dass ein Spieler eine Kooperation in der Vorrunde als Verrat fehldeutet. In diesem Fall ist der Verzeih-Mechanismus notwendig, um nicht in einer Vendetta zu enden. Solange die Fehlerquote nicht so hoch ist, dass sie die Erkennbarkeit der gespielten Tit-for-tat-Strategie verhindert, ist es noch möglich, optimale Ergebnisse zu erzielen. Dazu muss die Verzeihensquote proportional zur Fehlerquote gewählt werden.

Beispiele

Aus Politik und Wirtschaft

Das Gefangenendilemma lässt sich auf viele Sachverhalte in der Praxis übertragen. Vereinbaren beispielsweise zwei Länder eine Rüstungskontrolle, so wird es immer individuell besser sein, heimlich doch aufzurüsten. Keines der Länder hält sich an sein Versprechen und beide sind durch die Aufrüstung schlechter gestellt (höheres Gefahrenpotential, höhere ökonomische Kosten), allerdings besser, als wenn nur der jeweils andere aufrüstete (Gefahr einer Aggression durch den anderen).

Auch in der Wirtschaft finden sich Beispiele für das Gefangenendilemma, etwa bei Absprachen in Kartellen oder Oligopolen: Zwei Unternehmen vereinbaren eine Outputquote (zum Beispiel bei der Ölförderung), aber individuell lohnt es sich, die eigene Quote gegenüber der vereinbarten zu erhöhen. Beide Unternehmen werden mehr produzieren. Das Kartell platzt. Die Unternehmen im Oligopol sind aufgrund der erhöhten Produktion gezwungen, die Preise zu senken, wodurch sich ihr Monopolgewinn schmälert.

Konkurrieren mehrere Firmen auf einem Markt, erhöhen sich die Werbeausgaben immer weiter, da jeder die anderen ein wenig übertreffen möchte. Diese Theorie konnte 1971 in den USA bestätigt werden, als ein Gesetz zum Werbeverbot für Zigaretten im Fernsehen verabschiedet wurde. Es gab kaum Proteste aus den Reihen der Zigarettenhersteller. Das Gefangenendilemma, in das die Zigarettenindustrie geraten war, wurde durch dieses Gesetz gelöst.

Ein weiteres Beispiel ist ein Handlungsreisender, der seine Kunden bei Vorkasse (gegebenenfalls ungedeckte Schecks) mit guter Ware (kleinerer Profit, aber langfristig sicher) oder gar keiner Ware (hoher kurzzeitiger Profit) beliefern kann. Händler mit schlechtem Ruf verschwinden in solchen Szenarien vom Markt, da keiner mit ihnen Geschäfte macht, und sie ihre Fixkosten nicht decken können. Hier führt „tit-for-tat” zu einem Markt mit wenig „Betrug”. Ein bekanntes Beispiel nach diesem Muster ist die Funktionsweise des eBay-Bewertungsschemas: Händler, die trotz erhaltener Bezahlung die vereinbarte Ware nicht liefern, erhalten schlechte Bewertungen und verschwinden so vom Markt.

Beachtenswert ist das Anbieterdilemma, das zu einer Beeinflussung der Preise für angebotene Güter führt. Zwar profitieren Anbieter bei Vorliegen des Dilemmas nicht, jedoch kann sich die Wohlfahrt einer Volkswirtschaft insgesamt erhöhen, da der Nachfrager durch niedrige Preise profitiert. Durch staatlichen Eingriff in Form von Wettbewerbspolitik wird ein Anbieterdilemma häufig künstlich generiert, indem beispielsweise Absprachen zwischen Anbietern untersagt werden. Somit sorgen Institutionen für mehr Wettbewerb, um den Verbraucher zu schützen.

Auch die Versteigerung der UMTS-Lizenzen in Deutschland dient als Beispiel. Es wurden zwölf Frequenzblöcke für UMTS versteigert, die entweder als 2er- oder 3er-Paket erworben werden konnten. Sieben Bieter (E-Plus/Hutchison, Mannesmann, T-Mobile, Group 3G, debitel, mobilcom und VIAG Interkom) nahmen an der Versteigerung im August 2000 teil. Beachtenswert ist auch, dass – wie im theoretischen Original – Absprachen unter den Spielern, also der Mobilfunkanbieter, unterbunden wurden. Nach dem Ausscheiden von debitel nach der 126. Runde am 11. August 2000 waren zwölf Lizenzen für sechs Mobilfunkanbieter vorhanden, also zwei für jeden. Die Summe aller Lizenzen hat zu diesem Zeitpunkt 57,6 Mrd. DM betragen. Durch das Spekulieren der Mobilfunkanbieter auf ein Ausscheiden eines weiteren Anbieters und der Möglichkeit, drei Lizenzen zu erwerben, ging die Bieterschlacht jedoch weiter. In der 173. Runde, am 17. August 2000, gingen je zwei Lizenzen an die sechs verbliebenen Mobilfunkanbieter – ein Ergebnis also, das auch schon in der 127. Runde hätte erreicht werden können. Die Summe, die die Mobilfunkanbieter für alle Lizenzen zahlten, lag nun bei 98,8 Mrd. DM.

Aus der Kriminalistik

Die sogenannte „Omertà” (Schweig oder stirb!) der Mafia versucht das Schweigen (Kooperieren) dadurch sicherzustellen, dass ein Verstoß mit besonders drastischen Sanktionen bedroht wird. Damit wird die Kooperation gefestigt, während gleichzeitig ein einseitiges Geständnis durch extremen Verlust demotiviert wird. Dies wäre eine Internalisierung eines negativen externen Effektes („negativ” in rein spieltheoretischem Sinn).

Omertà versucht die Spieler zu gegenseitigem Vertrauen anzuhalten, kann aber das grundsätzliche Dilemma nicht auflösen. Als Gegenmittel kann die Justiz z. B. eine neue Identität und Straffreiheit für Verräter ins Spiel bringen, um das Vertrauen der Komplizen zu untergraben (Kronzeugenregelung). Eine einfache (wenngleich in Deutschland nach § 136a StPO unzulässige) Verhörstrategie der Polizei kann darin bestehen, den Verdächtigten zu verunsichern, indem behauptet wird, der Komplize hätte bereits gestanden.

Einfluss auf die Wohlfahrt

Inwiefern das Gefangenendilemma die soziale Wohlfahrt verbessert oder verschlechtert, hängt vom betrachteten Sachverhalt ab. Im Fall eines Kartells oder Oligopols führt das Gefangenendilemma zu einer Verbesserung der Situation. Das „Marktversagen” durch ein verringertes Angebot kann behoben werden. Betrachtet man allerdings die Waffenaufrüstung von Staaten oder die Werbeausgaben von Firmen, dann führt das Gefangenendilemma zu einer schlechteren Wohlfahrt, da lediglich Kosten geschaffen werden, die zu keinem neuen Nutzen führen.

Karl Homann geht in seiner Konzeption einer Wirtschaftsethik davon aus, dass es Aufgabe der Staaten bzw. des Gesetzgebers sei, in der Gestaltung der Rahmenordnung darauf hinzuwirken, dass erwünschte Dilemmasituationen aufrechterhalten werden und dass unerwünschte Dilemmasituationen durch die Schaffung bzw. Veränderung von Institutionen überwunden werden. So können beispielsweise gesetzliche Mindeststandards bei der Sicherung von Konsumentenrechten (z.B. AGB-Gesetz) ein Misstrauen dem Verkäufer gegenüber (unerwünschte Dilemmasituation) ausräumen und so zu mehr Handel führen; gleichzeitig ist die Konkurrenz zwischen den jeweiligen Verkäufern und den jeweiligen Käufern als erwünschte Dilemmasituation aufrechtzuerhalten.

Beschreibung der Verhaltensoptionen

Ob die beiden Möglichkeiten, sich zu verhalten, sinnvollerweise als Vertrauen/Verrat, Kooperation/Verweigerung oder Altruismus/Egoismus beschrieben werden, hängt unter anderem von der genauen Form der Auszahlungsmatrix ab. Ersetzt man im Vergleich zu obiger Matrix -2 durch 2, 0 durch 3, -5 durch 0 und -4 durch 1, liegt beispielsweise Altruismus/Egoismus als Interpretation näher: Beide Spieler beginnen mit einem Gut. Ein Spieler kann auf sein Gut verzichten (Altruismus). Der Mitspieler erhielte dafür zwei (!) Güter. Behält er sein Gut (Egoismus), erfolgt keine Bestrafung oder Ähnliches. Er kann das Spiel bei einem altruistischen Mitspieler mit drei Gütern abschließen, ansonsten behält er sein eines Gut.

Verwandte Probleme

Zu den symmetrischen Zweipersonen-Nichtnullsummenspielen gehören auch das Spiel mit dem Untergang (Feiglings-Spiel, chicken game), die Hirschjagd und das Spiel Kampf der Geschlechter.

Weitere Beispiele dafür, dass individuelle und kollektive Rationalität zu unterschiedlichen Ergebnissen führt, sind das Braess-Paradoxon und die Rationalitätenfalle.

Literatur

  • Anatol Rapoport, Albert M. Chammah: Prisoner's dilemma: a study in conflict and cooperation. University of Michigan Press, 1965
  • Robert Axelrod: Die Evolution der Kooperation. Oldenbourg Verlag, 2000, ISBN 3-48-653995-7
  • Eggebrecht, Winfried; Manhart, Klaus: Fatale Logik: Egoismus oder Kooperation in der Computersimulation, c't 6/1991

Einzelnachweise

  1. William Poundstone, Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb, Anchor/Random House, 1992
  2. William Poundstone, Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb, Anchor/Random House, 1992, S. 258
  3. Carsten Vogt, Kooperation im Gefangenen-Dilemma durch endogenes Lernen, Inauguraldissertation, http://diglib.uni-magdeburg.de/Dissertationen/2001/carvogt.pdf
  4. Robert Axelrod, The Evolution of Co-operation, 1984, S. 10
  5. Martin J. Osborne, Arial Rubinstein: A Course in Game Theory. MIT Press, 1994, S. 135
  6. William Poundstone, Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb, Anchor/Random House, 1992, S. 101 ff.
  7. T. Yamagishi and T. Kiyonari. The Group as the Container of Generalized Reciprocity.’ Social Psychology Quarterly 63: 116–32 2000
  8. Brent Simpson. Social Identity and Cooperation in Social Dilemmas. Rationality and Society 2006; 18; 443 DOI:10.1177/1043463106066381
  9. H. Tajfel. Experiments in intergroup discrimination. Scientific American, November 1970, 223, 96-102
Dieser Artikel wurde in die Liste der lesenswerten Artikel aufgenommen.
 
Dieser Artikel basiert auf dem Artikel Gefangenendilemma aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar.
Ihr Bowser ist nicht aktuell. Microsoft Internet Explorer 6.0 unterstützt einige Funktionen auf ie.DE nicht.