Sponsor

ATHENS WEATHER

Θεωρία παιγνίων - Ισορροπία Nash στην καθημερινή ζωή

Θα λέγαµε πως όλα έχουν κάποια σχέση µε την θεωρία παιγνίων αφού έχει εφαρµογές στην οικονοµία, στις επιχειρήσεις, στην πληροφορική, στις τηλεπικοινωνίες, στην πολιτική, στην κοινωνιολογία, στη βιολογία και φυσικά στην καθηµερινότητα.
 
Μια σύγχρονη µαθηµατική θεωρία µπορεί να αναλύσει κάθε είδος αναµέτρησης , από την ντάµα και το σκάκι µέχρι τον τζόγο ή έναν πυρηνικό πόλεµο, και να προβλέψει τον νικητή.

Τι είναι θεωρία παιγνίων

Απόσπασμα από την διπλωματική εργασία της Βλαχοπούλου Αθανασίας, Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2010. Η θεωρία παιγνίων είναι µια µεθοδολογία ανάλυσης καταστάσεων µεταξύ µιας οµάδας λογικών ατόµων η οποία ανταγωνίζεται µε σκοπό ο κάθε ένας να αποκτήσει το µεγαλύτερο όφελος. Σκοπός της είναι να µας βοηθήσει να καταλάβουµε διάφορες καταστάσεις στις οποίες αλληλεπιδρούν δύο ή περισσότερες οντότητες, κάθε µία από τις οποίες συµπεριφέρεται µε στρατηγικό τρόπο και προσπαθεί να πάρει κάποιες αποφάσεις. Η µεµονωµένη οντότητα στην συγκεκριµένη περίπτωση ονοµάζεται παίκτης, και είναι αυτός που παίρνει αποφάσεις. Σκοπός του κάθε παίκτη είναι να µεγιστοποιήσει το κέρδος του, το οποίο µετράται σε µια κλίµακα ωφέλειας. Εποµένως το παίγνιο που αναφέρεται στην θεωρία παιγνίων αντιπροσωπεύει την κατάσταση κατά την οποία δύο ή περισσότεροι παίκτες επιλέγουν τρόπους ενέργειας, που δηµιουργούν καταστάσεις αλληλεξάρτησης.

Εφαρµογές στην καθηµερινή ζωή

Όπως είδαµε µέχρι τώρα και θα δούµε και παρακάτω, η θεωρία παιγνίων έχει µεγάλη γκάµα εφαρµογών. Θα λέγαµε πως όλα έχουν κάποια σχέση µε την θεωρία παιγνίων αφού έχει εφαρµογές στην οικονοµία, στις επιχειρήσεις, στην πληροφορική, στις τηλεπικοινωνίες, στην πολιτική, στην κοινωνιολογία, στη βιολογία και φυσικά στην καθηµερινότητα. Μια σύγχρονη µαθηµατική θεωρία µπορεί να αναλύσει κάθε είδος αναµέτρησης, από την ντάµα και το σκάκι µέχρι τον τζόγο ή έναν πυρηνικό πόλεµο, και να προβλέψει τον νικητή.
Οι οικονοµολόγοι εδώ και πολύ καιρό χρησιµοποιούν τη θεωρία παιγνίων(έχοντας ως υλικά υποστήριξης τα πέντε βραβεία Νόµπελ στα οικονοµικά) για να αναλύσουν διάφορους κλάδους όπως για παράδειγµα η βιοµηχανική οργάνωση(industrial organization), ο σχεδιασµός µηχανισµών(mechanism design) µε υποκλάδο τις δηµοπρασίες, τις συµφωνίες, τα ολιγοπώλια, τα µονοπώλια, (ο Γάλλος µαθηµατικός Κουρνό το 1838 έγραψε το πρώτο µοντέλο δυοπωλίου ) τα συστήµατα για να µπορεί κάποιος να ψηφίσει και πολλά άλλα. Οι έρευνες αυτές για να πραγµατοποιηθούν εστιάζουν στην ισορροπία που υπάρχει στα παιχνίδια, την οποία θα σχολιάσουµε παρακάτω. Επιπρόσθετα παίζει σηµαντικό ρόλο στην παγκόσµια διπλωµατία και στις πολεµικές στρατηγικές, επηρεάζοντας τη µοίρα των διαφόρων χωρών ακόµη και αν δεν είναι άµεσα ορατό.
Χρησιµοποιείται όµως και στην Πολιτική Οικονοµία και ειδικά στη θεωρία της συλλογικής δράσης (Collective action), όπου εξηγεί ενδεχόµενα συνεργασίας µεταξύ των παικτών. Αυτό βρίσκεται σε άµεση συσχέτιση µε τον ρόλο του κράτους και των θεσµών σε θέµατα συνεργασίας. Χαρακτηριστικό παράδειγµα είναι η παροχή δηµόσιων αγαθών και η φορολογία. Στη βιολογία η θεωρία παιγνίων έχει χρησιµοποιηθεί για να κατανοήσουµε διάφορα φαινόµενα. Πρωτοχρησιµοποιήθηκε για να εξηγήσει την εξέλιξη(και την σταθερότητα) της αναλογίας 1 προς 1 στα φύλα. Ο Ronald Fisher (1930) πρότεινε ότι αυτή η αναλογία είναι αποτέλεσµα εξελικτικών δυνάµεων που δρουν µεµονωµένα, προσπαθώντας να µεγιστοποιήσουν τον αριθµό των εγγονιών! Συµπληρωµατικά οι επιστήµονες προσπάθησαν να εξηγήσουν την εµφάνιση της επικοινωνίας στα ζώα, ενώ ανέλυσαν και την επιθετική συµπεριφορά τους.
Είναι ξεκάθαρο ότι µπορούµε να αναφέρουµε άπειρες εφαρµογές της θεωρίας παιγνίων σε διάφορους τοµείς ακόµη και στην καθηµερινότητα µας, από τα πιο πολύπλοκα έως τα πιο απλά όπως για παράδειγµα πιο αυτοκίνητο να αγοράσουµε, που θα πάµε το βράδυ ή τι θα φορέσουµε.

Βασικές έννοιες της θεωρίας παιγνίων

Θεµέλιο λίθο στην θεωρία παιγνίων αποτελούν τα βασικά χαρακτηριστικά του παιγνίου. Ως στοιχεία του παιγνίου θεωρούνται το σύνολο των παικτών, το σύνολο των πιθανών ενεργειών που θα πραγµατοποιήσουν οι παίκτες (οι στρατηγικές τους), οι πληροφορίες που υπάρχουν κατά τη διάρκεια του παιχνιδιού, τα αποτελέσµατα που µπορεί να αποκοµίσει ο παίκτης για κάθε ενέργεια του, καθώς επίσης και οι προτιµήσεις των παικτών µε βάσει τα αποτελέσµατα. Το αποτέλεσµα που µπορεί να αποκοµίσει ο παίκτης(outcome), εξαρτάται από τις στρατηγικές που θα ακολουθήσει και από τις αποδόσεις που µπορεί να λάβει. Η απόδοση (payoff), είναι η αριθµητική αποτίµηση των στόχων του, η χρησιµότητα που θα αποκτήσει όταν το παιχνίδι θα τελειώσει.
Με τον όρο στρατηγική ορίζουµε το σύνολο των κανόνων σχετικά µε το ποια επιλογή πρέπει να ακολουθήσει ο παίκτης, ποιες είναι οι επιλογές του στο κάθε παίγνιο ξεχωριστά, έχοντας όµως υπόψη του και όλες τις κινήσεις του αντιπάλου. Μια διάκριση που µπορεί να γίνει στις στρατηγικές είναι σε αµιγείς“pure”και σε µεικτές “mixed”στρατηγικές. Μια αµιγής(καθαρή) στρατηγική είναι εκείνη στην οποία κάθε µία από τις δυνατές επιλογές που έχει ο παίκτης επιλέγεται στο ακέραιο. Αντίθετα µεικτή είναι η στρατηγική η οποία περιλαµβάνει συνδυασµό επιλογών, από τις οποίες τουλάχιστον µία επιλέγεται µε µη ακέραιες τιµές.
Οι µεικτές στρατηγικές δηλαδή καθορίζουν ότι η στρατηγική που θα διαλέξει ο παίκτης θα επιλεγεί τυχαία από το σύνολο των καθαρών στρατηγικών που έχει, µε κάποια πιθανότητα. Εποµένως µια µεικτή στρατηγική είναι µια κατανοµή πιθανοτήτων πάνω στις καθαρές στρατηγικές που έχει ο παίκτης. Ένα παίγνιο στο οποίο οι παίκτες παίζουν ταυτόχρονα, µπορεί να απεικονιστεί ως “κανονική”(normal) ή “στρατηγική”(strategic) µορφή χρησιµοποιώντας έναν πίνακα ο οποίος συσχετίζει τις στρατηγικές των παικτών µε τις αποδόσεις που θα έχουν. Ένα στρατηγικό παιχνίδι είναι ένα µοντέλο όπου έχουµε Ν παίκτες, καθένας από τους οποίους διαλέγει µόνο µία στρατηγική, η οποία δεν αλλάζει. Σε ένα στρατηγικό παιχνίδι υπάρχουν διάφορες συµπεριφορές παικτών:
• Το παιχνίδι παίζεται µόνο µία φορά.
• Κάθε παίκτης “ξέρει” το παιχνίδι (κάθε παίκτης γνωρίζει όλες τις κινήσεις και τις αποδόσεις του παιχνιδιού).
• Οι παίκτες είναι ορθολογικοί. Ένας ορθολογικός παίκτης είναι ένας παίκτης που παίζει εγωιστικά, θέλοντας να µεγιστοποιήσει το κέρδος του στο παιχνίδι, ενώ ταυτόχρονα γνωρίζει πως και οι αντίπαλοι του είναι ορθολογιστές.
• Όλοι οι παίκτες διαλέγουν τις κινήσεις τους ταυτόχρονα χωρίς όµως να γνωρίζουν τις επιλογές των άλλων παικτών.
Για να κατανοήσουµε καλύτερα την κανονική µορφή των παιγνίων, παραθέτουµε το τέταρτο παίγνιο του ερωτηµατολογίου το οποίο θα χρησιµοποιήσουµε σαν παράδειγµα για να εξηγήσουµε τα στρατηγικά παίγνια.
Παίγνιο κυριαρχίας κινδύνου “Risk Dominance”
Παίγνιο κυριαρχίας κινδύνου Risk Dominance.
Το συγκεκριµένο παίγνιο είναι δύο γραµµών επί δύο στηλών και έχουµε δύο παίκτες, τον Α και τον Β. Ο Α παίκτης ονοµάζεται “παίκτης γραµµής”, ενώ ο Β “παίκτης στήλης”. Οι επικεφαλίδες των στηλών και των γραµµών είναι οι στρατηγικές του κάθε παίκτη. Η πρώτη στρατηγική επιλογή του Α παίκτη είναι η πρώτη γραµµή, η οποία ονοµάζεται α1, ενώ η δεύτερη στρατηγική του είναι η α2. Οµοίως για τον παίκτη Β η πρώτη στρατηγική επιλογή του είναι η πρώτη στήλη, δηλαδή η β1, ενώ η δεύτερη στρατηγική του είναι η δεύτερη στήλη, η β2. Στα κελιά του κάθε πίνακα υπάρχουν αριθµοί που δείχνουν το κέρδος (όφελος, payoff) κάθε παίκτη για κάθε συνδυασµό στρατηγικών. Το πρώτο νούµερο σε κάθε κελί αντιστοιχεί στον παίκτη γραµµής, ενώ το δεύτερο ανήκει στον παίκτη στήλης. Το παιχνίδι ξεκινάει και οι παίκτες διαλέγουν ταυτόχρονα µία στρατηγική. Το κελί που αντιστοιχεί στο σηµείο τοµής των δύο επιλογών δείχνει το κέρδος που έχουν οι δύο παίκτες. Αν για παράδειγµα, ο Α παίκτης διαλέξει την πρώτη στρατηγική επιλογή(α1) και ο Β επίσης την πρώτη(β1) τότε το κέρδος τους θα είναι 5 µονάδες για τον καθένα.
Οι παίκτες πριν πάρουν κάποια απόφαση και διαλέξουν ποια στρατηγική θα ακολουθήσουν, κοιτάνε ποια στρατηγική πραγµατικά τους ωφελεί, µε ποια θα έχουν το µεγαλύτερο δυνατό κέρδος ότι και να κάνει ο αντίπαλος τους. Σε αυτό το σηµείο η επιλογή γίνεται µε βάση την κυριαρχία των στρατηγικών. Μια στρατηγική λέµε ότι είναι κυρίαρχη “dominant” εάν για όλους τους συνδυασµούς στρατηγικών των άλλων παικτών έχει το µεγαλύτερο όφελος σε σχέση µε τις υπόλοιπες. Είναι πάντα καλύτερη ότι και να κάνει ο άλλος παίκτης αφού έχει το µεγαλύτερο κέρδος σε σχέση µε τις άλλες εναλλακτικές επιλογές του. Αντιθέτως µια στρατηγική χαρακτηρίζεται ως κυριαρχούµενη “dominated” όταν υπάρχει κάποια άλλη στρατηγική που είναι πάντα καλύτερη ότι και να κάνει ο άλλος παίκτης.
Στο παραπάνω παράδειγµα βλέπουµε πως για τον Β παίκτη η στρατηγική β1 κυριαρχεί της στρατηγικής β2, αφού (5>4)και (1>0), δηλαδή αν ο Α παίκτης διαλέξει την α1 στρατηγική, ο Β θα επιλέξει την β1και το ίδιο θα κάνει αν ο Α διαλέξει την α2. Εποµένως η καλύτερη κίνηση του είναι να επιλέξει την β1 στρατηγική. Για τις στρατηγικές του παίκτη Α όµως δεν παρατηρούµε το ίδιο. Αυτό γιατί αν ο Α ξέρει πως ο Β θα επιλέξει την β1 στρατηγική, τον συµφέρει να διαλέξει την α1, αφού (5>0) εάν όµως ο Β διαλέξει την β2, ο Α δεν θα επιλέξει πάλι την α1 αλλά την α2 αφού (-100-100) και (0=0). Ο συνδυασµός των στρατηγικών που επιλέχθηκαν από κάθε παίκτη µας δίνει την έννοια της ισορροπίας “equilibrium”. Η ισορροπία στο παίγνιο δηλαδή προέρχεται από τις καλύτερες στρατηγικές µία για κάθε παίκτη στο παιχνίδι. Στο παράδειγµα µας η ισορροπία βρίσκεται στο κελί (α1, β1) δηλαδή στη λύση (5, 5) αφού η καλύτερη επιλογή για τον Α παίκτη είναι η α1, για τον Β παίκτη η β1 και η τοµή τους είναι το κελί (α1, β1).
Για να βρούµε αυτήν την ισορροπία εάν υπάρχει κυρίαρχη στρατηγική για κάποιον παίκτη τότε επιλέγεται, όπως αναφέραµε και παραπάνω. Σε περίπτωση όµως που δεν υπάρχει, ο περιορισµός των κυριαρχούµενων στρατηγικών “dominated” µπορεί να οδηγήσει στη δηµιουργία νέων κυριαρχούµενων στρατηγικών, οι οποίες µε τη σειρά τους θα απαλειφθούν κι αυτές. Ξεκινώντας το παιχνίδι διαγράφονται µία µια οι ασθενώς κυριαρχούµενες στρατηγικές από τις επιλογές του παίκτη και αυτό συνεχίζεται µέχρι να βρεθεί µόνο µία στρατηγική για κάθε παίκτη. Η διαδικασία αυτή ονοµάζεται απαλοιφή κυριαρχούµενων στρατηγικών “Iterated Elimination of Dominated Strategies, IEDS”. Η διαδικασία αυτή είναι απολύτως λογική αφού και οι παίκτες είναι λογικοί και γνωρίζουν πως και οι αντίπαλοι τους είναι λογικοί γεγονός που δείχνει ότι κανένας από αυτούς δεν θα επιλέξει µια στρατηγική η οποία είναι ασθενώς κυριαρχούµενη. Αν απαλείψουµε µόνο κυριαρχούµενες στρατηγικές, η σειρά της απαλοιφής δεν επηρεάζει το αποτέλεσµα. Ο κίνδυνος υπάρχει µόνο αν απαλείψουµε µε λάθος σειρά ασθενώς κυριαρχούµενες στρατηγικές, οδηγώντας µας σε λάθος αποτέλεσµα. Σωστή σειρά θεωρείται η ταυτόχρονη απαλοιφή για όλους τους παίκτες σε κάθε γύρο. Η σηµαντικότερη έννοια ισορροπίας στη θεωρία παιγνίων είναι η ισορροπία Nash που θα αναλύσουµε στην συνέχεια.

Κατηγορίες παιγνίων

Τα παίγνια µπορούν να ταξινοµηθούν σε διάφορες κατηγορίες µε βάση διάφορα είδη κριτηρίων. Εδώ θα προσπαθήσουµε να τα χωρίσουµε σε κάποιες κατηγορίες. Έτσι λοιπόν έχουµε τους εξής διαχωρισµούς: Σύµφωνα µε τον αριθµό των παικτών που παίρνουν µέρος. Αν υπάρχουν δύο παίκτες τότε ονοµάζονται “παίγνια δύο παικτών”, ενώ αν οι παίκτες είναι περισσότεροι(έστω n), τότε έχουµε “παίγνια n παικτών”, τα οποία βέβαια δεν έχουν µελετηθεί τόσο πολύ όσο τα πρώτα. Υπάρχει φυσικά και η περίπτωση που υπάρχει µόνο ένας παίκτης έχοντας σαν αντίπαλο του “τη φύση”, όπως για παράδειγµα ισχύει στην πασιέντζα. Τα παίγνια αυτά βέβαια θεωρούνται πως ανήκουν στην πρώτη κατηγορία των παιγνίων µε δύο παίκτες. Σύµφωνα µε τη δυνατότητα συνεργασίας.
Οι παίκτες (δύο ή περισσότεροι) πριν παίξουν το παίγνιο έχουν τη δυνατότητα να συνεργαστούν και να κάνουν συµφωνίες µεταξύ τους για τις στρατηγικές που θα ακολουθήσουν. Αυτά ονοµάζονται “συνεργατικά παίγνια”(cooperative games) σε αντίθεση µε τα παίγνια όπου ο παίκτης παίρνει τις αποφάσεις χωρίς να συνεννοηθεί µε τους άλλους, τα οποία ονοµάζονται “µη συνεργατικά ” (non cooperative games). Σύµφωνα µε τα χαρακτηριστικά των αποδοχών τους. Όταν το κέρδος ενός παίκτη είναι ίσο µε την απώλεια του αντιπάλου του, το παίγνιο ονοµάζεται “παίγνιο µηδενικού αθροίσµατος” (zero-sum games). Σε αυτά τα παίγνια το άθροισµα των αµοιβών είναι ίσο µε µηδέν µε αποτέλεσµα η συνεργασία για τους παίκτες να είναι ανέφικτη. Αντίστοιχα υπάρχουν “παίγνια µη-µηδενικού αθροίσµατος”(non zero-sum games) στα οποία το άθροισµα των αµοιβών είναι διάφορο του µηδενός. Το κέρδος κάποιου δεν σηµαίνει απαραίτητα τη ζηµιά κάποιου ανταγωνιστή, και οι δύο µπορεί να κερδίσουν ή και να χάσουν αντίστοιχα.
Σύµφωνα µε τη σειρά που παίρνονται οι αποφάσεις. Αν οι αντίπαλοι κινηθούν ταυτόχρονα επιλέγοντας µια στρατηγική στην αρχή του παιχνιδιού, χωρίς ο ένας να γνωρίζει τι θα πράξει ο άλλος, τότε µιλάµε για “στατικό παίγνιο” ή “στρατηγικό παίγνιο” ή “παίγνιο σε κανονική µορφή”. Στην αντίθεση περίπτωση έχουµε τα “δυναµικά παίγνια” ή “παίγνια σε εκτεταµένη µορφή” όπου οι παίκτες έχουν κάποια γνώση για τις προηγούµενες ενέργειες και έτσι η σειρά µε την οποία λαµβάνονται οι αποφάσεις έχει σηµασία. Στα παίγνια αυτά η αναπαράσταση γίνεται µε τη βοήθεια δέντρου. Σύµφωνα µε τον αριθµό των στρατηγικών. Τα παίγνια σε αυτήν την κατηγορία χωρίζονται σε “πεπερασµένα” και σε “µη πεπερασµένα”. Τα πεπερασµένα παίγνια τελειώνουν σε ένα µετρήσιµο αριθµό κινήσεων, σε αντίθεση µε τα άλλα τα οποία διαρκούν για άπειρες κινήσεις και ο νικητής γίνεται γνωστός αφού όλες αυτές οι κινήσεις τελειώσουν. Τέλος σύµφωνα µε την πληροφόρηση που παρέχουν. Λέµε ότι έχουµε “παίγνια πλήρους πληροφόρησης” όταν οι παίκτες είναι πλήρως ενηµερωµένοι για τις κινήσεις των αντιπάλων. Έτσι µόνο τα δυναµικά παίγνια µπορεί να είναι παίγνια πλήρους πληροφόρησης, µιας και στα στατικά οι παίκτες δεν είναι ενηµερωµένοι. Όταν οι παίκτες είναι µερικώς ενηµερωµένοι λέµε ότι έχουµε “παίγνια ατελούς πληροφόρησης”.

Προσέγγιση της ισορροπίας Nash

Το θεώρηµα που διατύπωσε ο Nash και έγινε γνωστό σε όλο τον κόσµο αναφέρει πως κάθε παίγνιο µε πεπερασµένο πλήθος παικτών και ενεργειών έχει τουλάχιστον ένα σηµείο ισορροπίας, σύµφωνα µε το οποίο όλοι οι παίκτες επιλέγουν τις πιο συµφέρουσες για αυτούς ενέργειες, γνωρίζοντας και τις επιλογές των αντιπάλων τους. Οι παίκτες σκέφτονται τι µπορεί να διαλέξει ο αντίπαλος τους, προσπαθούν να καταλάβουν τη συµπεριφορά των άλλων και επιλέγουν την στρατηγική τους σύµφωνα µε αυτό. ∆ηλαδή η στρατηγική ενός παίκτη αποτελεί την καλύτερη αντίδραση(απόκριση) στην στρατηγική του άλλου παίκτη. Αυτός ο συνδυασµός στρατηγικών αποτελεί ισορροπία Nash.
Ο παίκτης επιλέγει εκείνη από τις δικές του στρατηγικές, η οποία είναι η καλύτερη απάντηση στην στρατηγική που νοµίζει ότι θα επιλέξει ο άλλος παίκτης. Εποµένως κανένας παίκτης δεν έχει κίνητρο να φύγει µονοµερώς από αυτήν την ισορροπία που έχει δηµιουργηθεί. Οι παίκτες καταλαβαίνουν πως βρίσκονται σε ισορροπία αν µια αλλαγή στις στρατηγικές από οποιονδήποτε από αυτούς, οδηγήσει σε χαµηλότερο κέρδος από αυτό που θα είχαν αν παρέµεναν στη σωστή στρατηγική. ∆εδοµένου των επιλογών των αντιπάλων, ο παίκτης δεν έχει να κερδίσει κάποιο µεγαλύτερο όφελος και για αυτό δεν αλλάζει στρατηγική.
Όπως είναι φανερό η θεωρία για την ισορροπία Nash, έχει δύο συνιστώσες: πρώτα κάθε παίκτης κάνει την επιλογή του βασιζόµενος στην ορθολογική απόφαση που προέρχεται από τις πεποιθήσεις του για το τι θα πράξει ο αντίπαλος και δεύτερον κάθε πεποίθηση του παίκτη για την επιλογή του αντιπάλου του είναι σωστή. Για να κατανοήσουµε πλήρως την έννοια της ισορροπίας Nash, θα χρησιµοποιήσουµε πάλι το πιο πάνω παίγνιο το οποίο παραθέτουµε πάλι για ευκολία.
Παίγνιο κυριαρχίας κινδύνου “Risk Dominance”
Θεωρία παιγνίων Risk Dominance - Ισορροπία Nash.
Ξεκινώντας µε τον Α παίκτη βρίσκουµε ποια στρατηγική θα επιλέξει σε συγκεκριµένη στρατηγική του αντιπάλου. Έστω ότι ο Α πιστεύει ότι ο Β θα επιλέξει την β1 στρατηγική. Τότε προφανώς θα επιλέξει εκείνη από τις δύο δικές του στρατηγικές που θα του δώσει το µεγαλύτερο όφελος. Η α1 θα του δώσει 5 µονάδες ωφέλειας, ενώ η α2 θα του δώσει 0(όπως αναφέραµε και πιο πριν οι πρώτοι αριθµοί σε κάθε κελί αντιστοιχούν στον παίκτη γραµµής, δηλαδή στον Α). Άρα θα επιλέξει την α1 στρατηγική µε κέρδος 5. Αυτό το νούµερο το κυκλώνουµε. Αν ο Α πιστεύει πως ο Β θα διαλέξει την β2 στρατηγική αυτός φυσικά θα προτιµήσει την α2 αφού το κέρδος του θα είναι µεγαλύτερο(-100<0), άσχετα αν πρόκειται για 0 µονάδες.
Ύστερα από τις επιλογές του παίκτη Α, ο πίνακας παρουσιάζεται ως εξής:
Πρώτο στάδιο του παιγνίου
Θεωρία παιγνίων Risk Dominance Πρώτος Γύρος.
Οµοίως κάνουµε και για τον παίκτη Β. Αν αυτός νοµίζει ότι ο Α θα επιλέξει την α1 στρατηγική, θα προτιµήσει την β1 στρατηγική που θα του δώσει κέρδος 5 µονάδες και όχι 4 µονάδες(οι δεύτεροι αριθµοί σε κάθε κελί είπαµε πως αναφέρονται στον παίκτη στήλης, δηλαδή στον Β). Αν ο Β νοµίζει για τον Α πως θα ακολουθήσει την α2 στρατηγική, θα προτιµήσει και πάλι την β1 αφού θα έχει κέρδος 1 µονάδα αντί για 0 µονάδες. Αυτά τα νούµερα τα βάζουµε σε ένα µπλε τετράγωνο.
Ύστερα και από τις επιλογές του Β παίκτη ο πίνακας έχει ως εξής:
∆εύτερο στάδιο του παιγνίου
Θεωρία παιγνίων Παίγνιο Risk Dominance Δεύτερος Γύρος.
Η ισορροπία Nash υπάρχει όταν η καλύτερη απόκριση του παίκτη Α είναι ίδια µε την καλύτερη απόκριση του παίκτη Β, όταν δηλαδή σε ένα κελί υπάρχουν οι επιλογές και των δύο παικτών. Αυτό είναι και το σηµείο ισορροπίας. Στο παράδειγµα µας ισορροπία έχουµε στο κελί (α1, β1)=(5, 5). Υπάρχουν παιχνίδια που έχουν παραπάνω από µία ισορροπίες Nash, ενώ υπάρχουν και παιχνίδια χωρίς κανένα σηµείο ισορροπίας Nash.
Έχουµε αναφέρει πως εκτός από τις καθαρές στρατηγικές έχουµε και τις µικτές. Είπαµε πως η επιλογή µικτής στρατηγικής ισοδυναµεί µε το να επιλέξει ο παίκτης τυχαία µεταξύ συγκεκριµένων καθαρών στρατηγικών. Για παράδειγµα µπορούµε να πούµε πως ο παίκτης Α θα επιλέξει την α1 στρατηγική µε πιθανότητα p ή την α2 µε πιθανότητα p-1. Ο παίκτης δηλαδή που διαλέγει µικτή στρατηγική επιλέγει τις πιθανότητες καθεµιάς από τις καθαρές στρατηγικές που εµπεριέχονται στην συγκεκριµένη µικτή στρατηγική, αφήνοντας τα υπόλοιπα στην τύχη. Όσο και αν φαίνεται παράξενο υπάρχουν πολλές περιπτώσεις στην καθηµερινή ζωή όπου οι παίκτες προτιµούν να χρησιµοποιήσουν µικτές στρατηγικές.
Ο Nash κατάφερε επίσης να αποδείξει πως όλα τα πεπερασµένα παίγνια εµπεριέχουν τουλάχιστον ένα σύνολο µικτών στρατηγικών (µία ανά παίκτη) που συνιστά ισορροπία Nash σε µικτές στρατηγικές (ΙΝΜΣ) Όταν υπάρχουν πολλές ισορροπίες Nash (σε καθαρές στρατηγικές), τη λύση δίνει η ισορροπία Nash σε µικτές στρατηγικές. Ακόµη και αν δεν υπάρχει ισορροπία σε καθαρές στρατηγικές, υπάρχει µία µοναδική ισορροπία σε µικτές στρατηγικές.
Η ισορροπία σε καθαρές στρατηγικές φαίνεται πιο ελκυστική πρόταση από την ισορροπία στις µικτές, αφού δεν χρειάζεται οι παίκτες να επιλέγουν στην τύχη. Όµως από τη στιγµή που δεν υπάρχει ισορροπία σε κάθε παιχνίδι, η ισορροπία σε µικτές στρατηγικές αποκτάει µεγαλύτερη αξία αφού πλέον για κάθε παιχνίδι υπάρχει σίγουρα µία ισορροπία.

Εξέταση διαφόρων παιγνίων

Ένα από τα παράδοξα της ισορροπίας Nash που µπορεί να θεωρηθεί και σαν αδυναµία της είναι ότι σε κάποια παίγνια οι παίκτες έχουν µεγαλύτερο όφελος αν δεν διαλέξουν την ισορροπία Nash και διαλέξουν άλλη στρατηγική. Ενώ η ισορροπία Nash δίνει την ελκυστικότερη λύση για όλους τους παίκτες, οδηγώντας στο σηµείο ισορροπίας, εντούτοις υπάρχουν κάποια διάσηµα παίγνια που είναι εξαίρεση στον κανόνα. Κάποια από αυτά τα παίγνια χρησιµοποιήθηκαν στην έρευνα και θα αναλυθούν στη συνέχεια.
Το δίληµµα του φυλακισµένου “Prisoner’s dilemma”
Το πιο γνωστό και σηµαντικό παίγνιο στην ιστορία της θεωρίας παιγνίων είναι το παίγνιο του διλήµµατος του φυλακισµένου(Prisoner’s dilemma).
Τον Ιανουάριο του 1950 οι Melvin Dresher και Merrill Flood επινόησαν το συγκεκριµένο παίγνιο και το χρησιµοποίησαν σαν παράδειγµα στο RAND Corporation. Αργότερα όταν παρουσιάστηκε αυτό το παράδειγµα σε ένα σεµινάριο στο Stanford University, ο Albert W. Tucker σκαρφίστηκε µία ιστορία πάνω στην οποία βάσισε όλη του την διάλεξη. Το παίγνιο αυτό έµεινε από τότε στην ιστορία κάνοντας την θεωρία παιγνίων γνωστή σε όλες τις κοινωνικές επιστήµες, ενώ και πάρα πολλοί µελετητές έχουν ασχοληθεί µε αυτό γράφοντας διάφορα βιβλία.
Η ιστορία του Tucker έχει ως εξής:
∆ύο ύποπτοι για ένα έγκληµα συλλαµβάνονται από την αστυνοµία και κρατούνται σε διαφορετικά κελιά, ώστε να µην έχουν µεταξύ τους επικοινωνία. Οι αστυνοµικοί είναι σίγουροι για την ενοχή τους αλλά ελλείψει αποδεικτικών στοιχείων τους προσφέρουν µια συµφωνία: αν και οι δύο οµολογήσουν ότι διέπραξαν το έγκληµα θα καταδικαστούν µόνο σε τρία χρόνια φυλάκισης. Αν µόνο ο ένας οµολογήσει θα αφεθεί ελεύθερος ενώ ο άλλος που θα αρνηθεί θα φυλακιστεί για πέντε χρόνια. Τέλος, αν κανένας δεν οµολογήσει, και οι δύο θα περάσουνε έναν χρόνο στη φυλακή. Το παραπάνω πρόβληµα µπορεί να παρουσιαστεί στον επόµενο πίνακα
Το δίληµµα του φυλακισµένου (αρχική µορφή)
Θεωρία παιγνίων - Το δίληµµα του φυλακισµένου.
Το δίληµµα αυτό παίρνει τη µορφή του παρακάτω παιγνίου, όπου τα νούµερα είναι η ωφέλεια που αποκοµίζει ο παίκτης .
Το δίληµµα του φυλακισµένου (τελική µορφή)
Θεωρία παιγνίων Το δίληµµα του φυλακισµένου τελική μορφή.
Το δίληµµα εµφανίζεται όταν κάποιος υποθέτει ότι και οι δύο φυλακισµένοι νοιάζονται µόνο για να ελαχιστοποιήσουν την ποινή τους. Κάθε παίκτης έχει δύο στρατηγικές επιλογές : είτε να οµολογήσει και να συνεργαστεί µε την αστυνοµία (confess), είτε να παραµείνει σιωπηλός (not confess). Για παράδειγµα το καλύτερο αποτέλεσµα για τον παίκτη Α είναι να οµολογήσει και ο παίκτης Β να µείνει σιωπηλός. Το επόµενο καλύτερο αποτέλεσµα για τον Α είναι να µη µιλήσει κανένας από τους δύο, ενώ το χειρότερο σενάριο είναι να µιλήσει ο Β ενώ ο Α θα παραµείνει σιωπηλός. Το αντίστοιχο ισχύει και για τον παίκτη Β. Είναι λοιπόν φανερό πως οτιδήποτε και να σκοπεύει να κάνει ο Β, ο παίκτης Α θα πρέπει να επιλέξει την πρώτη στρατηγική (να οµολογήσει δηλαδή), αφού έτσι θα έχει καλύτερα αποτελέσµατα. Οµοίως ισχύει και για τον Β παίκτη ο οποίος θα προτιµήσει και αυτός να µη µιλήσει. Σε αυτό το σηµείο υπάρχει το δίληµµα αφού από τον πίνακα φαίνεται πως οι παίκτες θα αποκοµίσουν µεγαλύτερο όφελος αν και οι δύο επιλέξουν να µη µιλήσουν από το να τα οµολογήσουν όλα. Έτσι η καλύτερη στρατηγική για τον καθένα ξεχωριστά, παράγει ένα αποτέλεσµα που δεν είναι καλό για την οµάδα, κάνοντας τα ατοµικά κίνητρα να υπονοµεύουν το κοινό συµφέρον.
Πρόκειται για ένα παιχνίδι όπου τα κέρδη προέρχονται από τη συνεργασία. Το καλύτερο αποτέλεσµα και για τους δύο παίκτες είναι να µη µιλήσουν στους αστυνοµικούς . Παρόλα αυτά, κάθε παίκτης έχει ένα µεγάλο κίνητρο να γίνει προδότης. Οτιδήποτε και να κάνει ο ένας παίκτης, ο αντίπαλος προτιµάει να οµολογήσει. Έτσι το παίγνιο αυτό έχει µία µοναδική Nash ισορροπία, µία κυρίαρχη στρατηγική, η οποία είναι η λύση (Α1,Β1)=(1,1), η από κοινού οµολογία.
Σε κάθε παίγνιο η λύση παρουσιάζεται και µε τη βοήθεια του προγράµµατος Gambit, το οποίο είναι χρήσιµο εργαλείο στη θεωρία παιγνίων αφού έχει πολλές εφαρµογές και βρίσκει τις ισορροπίες Nash και σε καθαρές και σε µεικτές στρατηγικές.
Στην παρακάτω εικόνα βλέπουµε τη λύση που δίνει το πρόγραµµα για το συγκεκριµένο παίγνιο.
Θεωρία παιγνίων - Το δίληµµα του φυλακισµένου Gambit.



* Οι απόψεις του ιστολογίου μπορεί να μη συμπίπτουν με τις απόψεις του/της αρθρογράφου ή τα περιεχόμενα του άρθρου.

Δημοσίευση σχολίου

0 Σχόλια