niedziela, 28 lutego 2010

Kiedy warto być irracjonalnym... czyli paradoks Newcomba

Temat racjonalności wydaje się często oczywisty i nudny. Ludzie powinni dążyć do jak największych korzyści, wobec tego biorąc udział w jakiejś grze - a grają jedynie dla niej samej (a nie dla jakichś wyższych celów, na przykład samorozwoju) - to z tej perspektywy największą korzyścią jej jej wygranie. Jeśli wygrana stanowi suma pieniężna, to powinni dążyć do jej uzyskania - do maksymalizowania zysków. Wtedy są racjonalni.

Paradoks Newcomba roznosi w pył ten tok rozumowania.

Cytuję za wikipedią: http://pl.wikipedia.org/wiki/Paradoks_Newcomba

Wyobraź sobie dwóch graczy, Przewidującego i Wybierającego, którzy biorą udział w następującej grze:

1. W ma do wyboru dwa pudełka – otwarte pudełko I z 1000 zł oraz zamknięte pudełko II z 1 000 000 zł lub bez – W tego nie wie
2. W wybiera, czy chce dostać oba pudełka czy chce tylko pudełko II,
3. P dzień wcześniej przewidział, co wybierze W. Jeżeli W weźmie oba pudełka to pudełko II P pozostawi puste, jeżeli W wybierze tylko pudełko II to P włoży do niego 1 000 000 zł
4. W zdaje sobie sprawę, ze sposobu działania P opisanego powyżej, ale nie wie jaki jego ruch przewidział P w danej rozgrywce.

Pytanie:

Czy W ma wybrać oba pudełka, czy jedno?

Rozwiązanie pierwsze. Jeżeli P przewiduje bezbłędnie, to W powinien wybrać tylko pudełko II i wygra wtedy 1 000 000 zł. Jeżeli W weźmie oba pudełka, pudełko II będzie puste i W wygra tylko 1 000 zł. Nawet, jeżeli P jest tylko w przybliżeniu pewny swoich przewidywań, W nie chce ryzykować, że dostanie tylko tysiąc. Zgodne z takim rozumowaniem W powinien zawsze wybierać zamknięte pudełko II.

Rozwiązanie drugie. Jednakże w momencie, kiedy W przystępuje do wyboru, zawartość pudełek jest już ustalona. Zamknięte pudełko II może być albo puste albo pełne. Na oczach W zawartość pudełek nie może ulec zmianie. Niezależnie od tego czy pudełko II jest puste czy pełne wybierając oba W zwiększa swoją szansę wygranej, bo może zabrać dla siebie zawartość obu z nich. Kierując się taką logiką W powinien zawsze wybierać oba pudełka.

Istnienie dwóch rozwiązań wybieranych przez różne osoby w roku 1969 tak podsumował Nozick:
Dla prawie wszystkich jest całkowicie jasne i oczywiste jak należy wybrać. Problem tkwi w tym, że pytani o rozwiązanie dzielą się na dwie prawie równe grupy mające przeciwne zdanie na ten temat, a duża liczba pytanych osób sądzi, że ci wybierający drugie rozwiązanie są po prostu głupi.


Spróbujmy rozplątać ten paradoks.

1. Należy zadać pytanie czy W może w ogóle dokonać wyboru skoro P przewidział jego ruch. Innymi słowy, czy W ma wolną wolę? Niektórzy twierdzą, iż teza o wolnej woli usuwa paradoks Newcomba, gdyż jest sprzeczna z założeniem o istnieniu P, który przewiduje nasze decyzje. Tak twierdzi na przykład K. Binmore [Por. W. Z. Załuski, Problem wolnej woli, racjonalność decyzji a paradoks Newcomba, s. 3]. Rzeczywiście. A więc W nie ma wolnej woli. Jednakże on nie musi o tym wiedzieć. Dalej może się zastanawiać co zrobić. Paradoks nie został rozwiązany.

2. Aby rozwiązać paradoks, trzeba określić czy teraźniejszość ma wpływ na przeszłość (a nie odwrotnie). O przeszłości należy pomyśleć jak o przyszłości. Czy to co zrobi teraz W, będzie mieć znaczenie, dla tego, co zrobi (zrobił) P? Można zadać to pytanie inaczej. Czy P potrafi cofnąć się w przeszłość? Jeśli tak, w momencie, gdy W wybiera pudełko 2 lub oba, P natychmiast powraca do przeszłości i dokonuje odpowiedniego podstawienia bądź usunięcia kwoty w pudełku 2. Jeśli W wie o takich możliwościach P, oczywiście wybierze drugie pudełko. Nie ma tutaj żadnych wątpliwości co do wyboru.

Problem rodzi się dopiero w sytuacji rzeczywistej, czyli gdy...

3. P nie może się cofnąć w czasie. Czy może mimo to przewidywać ruch W, jeśli W nie ma wolnej woli? Tutaj musimy znów rozbić sytuację na dwie części. To jak się zachowa W, zależy od tego co P wie na temat W oraz czy W wie, co P o nim wie. Wiemy już natomiast, że P musi wiedzieć o W wszystko co jest potrzebne, do określenia, jaki ruch W wykona. P jest bowiem przewidującym graczem, a W nie ma wolnej woli. Chodzi tu mianowicie o to czy W jest racjonalny czy nie jest racjonalny.

a) Jeśli W jest racjonalny, to powracamy do drugiego rozwiązania. Zawartość pudełek nie może się już zmienić, więc W będzie maksymalizował zysk, jeśli wybierze oba pudełka. W wie o tym, że nie dostanie w takim razie miliona, ale to nie ma znaczenia, bo musi się zachować racjonalnie. Nie ma przecież wolnej woli. P o tym wszystkim wie i dlatego nie musi posiadać wehikułu czasu: może przewidzieć zachowanie W dzięki takiemu rozumowaniu.

b) Jeśli W nie jest racjonalny, to musimy znów rozbić problem na dwie części.

- W może zachowywać się przeciwnie do zachowania racjonalnego. Takie zachowanie nazwiemy irracjonalnym. Jeśli W jest irracjonalny, to wybierze drugie pudełko, w którym zobaczy milion. P bowiem wie, że W jest irracjonalny, a więc z łatwością potrafi przewidzieć ruch W.

- W może się zachowywać w sposób całkowicie losowy, tak że z prawdopodobieństwem 0,5 zachowa się racjonalnie lub irracjonalnie. Jednak losowość oznacza indeterminizm, a więc niemożliwość przewidywania. Losowe zachowanie jest równoznaczne z zachowaniem istnienia wolnej woli, a to wykluczyliśmy. Gdyby faktycznie ruchy W były losowe, P nie mógłby przewidywać.

Jeśli zakładamy istnienie P, to W może się zachowywać albo racjonalnie, albo irracjonalnie.
............................................................................
Zauważmy więc, że zachowanie irracjonalne przynosi suma sumarum większe korzyści materialne od racjonalnego. Mówiąc inaczej, racjonalnie działający W mógłby poprawić swoją sytuację, dokonując wyboru nieracjonalnego.

Jeżeli nie da się poprawić sytuacji żadnej ze stron bez pogorszenia sytuacji którejś strony, to taką sytuację nazywamy alokacją efektywną w rozumieniu Pareta. Zazwyczaj efektywność Pareta łączy się z racjonalnością stron, a jednak występują sytuacje, gdzie racjonalność i efektywność zachowań stoją ze sobą w sprzeczności. Zarówno P jak i racjonalny W osiągnęli najwyższą użyteczność - P przewidział ruch W, W dostał oba pudełka. Jednak sytuacja W mogłaby się poprawić bez pogorszenia sytuacji P, a więc alokacja nie jest efektywna.
............................................................................

No dobrze, ale ktoś powie, że to tylko abstrakcyjne ćwiczenie, bo nikt nie jest w stanie przewidywać zachowań innych ludzi ze 100% pewnością. Implikuje to, że ludzie mają wolną wolę. Okazuje się jednak, że nawet, jeśli P będzie przewidywał zachowanie W z ponad 50%-procentowym prawdopodobieństwem, paradoks istnieje nadal. Oznacza to, że paradoks istnieje w rzeczywistych sytuacjach decyzyjnych, z jakimi się często spotykamy.

Czy wolna wola coś zmienia w naszej sytuacji? Nie, W - jeśli jest racjonalny - powinien wybrać oba pudełka. Wybranie obydwu pudełek w takiej sytuacji wydaje się nawet "jeszcze bardziej" racjonalne niż w poprzedniej. Działania W i P są raczej niezależne. Ten problem przypomina oczywiście dylemat więźnia znany z teorii gier, kiedy to więźniowie nie mogą się porozumiewać ze sobą, ich działania nie są skoordynowane, co oznacza, że każdy z nich musi podjąć taką decyzję, aby niezależnie od ruchu drugiego więźnia, była ona najlepsza z możliwych. Dylemat więźnia jest przede wszystkim znany z tego, że również w nim występuje swego rodzaju paradoks: obaj więźniowie mogliby znaleźć się w lepszej sytuacji, gdyby zachowali się irracjonalnie. Jest to więc także sytuacja nieefektywna w rozumieniu Pareta.

W klasycznej formie dylemat więźnia, jest przedstawiany następująco (Źródło: wikipedia: http://pl.wikipedia.org/wiki/Dylemat_wi%C4%99%C5%BAnia):

Dwóch podejrzanych zostało zatrzymanych przez policję. Policja, nie mając wystarczających dowodów do postawienia zarzutów, rozdziela więźniów i przedstawia każdemu z nich tę samą ofertę: jeśli będzie zeznawać przeciwko drugiemu, a drugi będzie milczeć, to zeznający wyjdzie na wolność, a milczący dostanie dziesięcioletni wyrok. Jeśli obaj będą milczeć, obaj odsiedzą 6 miesięcy za inne przewinienia. Jeśli obaj będą zeznawać, obaj dostaną pięcioletnie wyroki. Każdy z nich musi podjąć decyzję niezależnie i żaden nie dowie się czy drugi milczy czy zeznaje aż do momentu wydania wyroku. Jak powinni postąpić?

Poniższa tabela przedstawia możliwe wyniki gry:



Strategia "zeznaje" okazuje się najlepsza niezależnie od tego co zrobi druga osoba. Rozwiązanie oparte na strategii dominującej polega na tym, że na przykład wybieramy opcję "zeznawać", której towarzyszy pewna "wypłata" i porównujemy tę "wypłatę" z wypłatą opcji "milczeć". Weźmy więźnia A. Zauważmy, że wolność (czyli gdy zeznaje) jest lepsza od 6 miesięcy odsiadki (gdy milczy). Pamiętajmy, że chodzi o porównanie. Jeśli B wybiera "milczeć", to A porównuje obie opcje: zeznawanie daje większą wypłatę (0 a nie -0,5 roku). Jeśli B wybiera zeznawać, A znowu porównuje: zeznawanie daje większą wypłatę (-5 a nie -10 lat). Nieważne co zrobi B, opcja zeznawać daje zawsze lepszą wypłatę niż opcja milczeć. Dla B wnioski są identyczne. Obaj będą zeznawać. Dostaną 5 lat więzienia. Gdyby jednak obaj poszli w zaparte i irracjonalnie milczeli, wyszliby na tym lepiej, gdyż dostaliby jedynie 6 miesięcy więzienia.

Można byłoby inaczej rozwiązać ten dylemat - po prostu w kategoriach wartości oczekiwanej. Ponieważ nie wiemy, z jakim prawdopodobieństwem drugi więzień dokonuje któregoś ruchu, uznajemy, że szansa jest 50:50.

Milczy:

(0,5+10)/2 = 5,25.

Zeznaje:

(0+5)/2 = 2,5.

Znowu lepiej zeznawać. Oczywiście można mieć wątpliwości co do takiej metody - po pierwsze określanie prawdopodobieństw jest kłopotliwe, po drugie dla gracza ważniejsze od prawdopodobieństwa zdarzenia będzie raczej możliwa strata i zysk. Dlatego kryterium strategii dominującej wydaje się lepsze od kryterium wartości oczekiwanej. To znaczy to drugie kryterium może być również poprawne, ale z pewnymi modyfikacjami - użycie zamiast samych wartości zdarzeń, użyteczności tych zdarzeń oraz zamiast prawdopodobieństw - użyteczności prawdopodobieństw. Kwestia ta jednak leży poza tematem - obiektywnie nie potrafilibyśmy określić który wybór jest lepszy.


Wróćmy zatem do paradoksu Newcomba. Możemy stworzyć następującą macierz wypłat:



Jaka jest strategia dominująca? Łatwo zauważyć, że nie istnieje. W takim razie użyjmy metody wartości oczekiwanej. Przyjmijmy, że P przewiduje z prawdopodobieństwem p. Wtedy wartość oczekiwana będzie następująca:

W bierze oba pudełka: p*1000 + (1-p)*1001000 = 1001000 - p*1000000
W bierze pudełko 2 : p*1000000 + (1-p)*0 = p*1000000

Niech p = 0,99.
W bierze oba pudełka: 1001000 - 0,99*1000000 = 11000
W bierze pudełko 2 : 0,99*1000000 = 990000.

Wynika z tego, że lepiej jest wziąć pudełko 2.

Czy nie ma jednak w tej konstrukcji jakiegoś fałszu? Moim zdaniem jest. W sposób podstępny zakłada się tu, że działania W i P są skorelowane (a nawet powiązane łańcuchem przyczynowo-skutkowym). To co zrobi W za chwilę, P właśnie już przewidział. Nie tyle przewidział, co po prostu wyprognozował, a więc ta czynność prognozowania już się zakończyła. Nie można jednak określać tej prognozy w kategoriach poprawności. P nie może ani przewidzieć poprawnie, ani niepoprawnie w trakcie dokonywania wyboru przez W, bo ten akt przewidywania dopiero zależy od wyboru W, który zależy od tej macierzy. (Jak W może dokonać wyboru skoro P już przewidział to dobrze lub źle?).

Zachowania obydwu graczy stają się zbyt uwikłane ze sobą. Musimy zbudować tak macierz, aby zachowania te były niezależne. Oto ta macierz:



Teraz strategia dominująca istnieje, gdyż niezależnie od wyboru P, dla W bardziej opłacalne będzie wzięcie obydwu pudełek. Łatwo porównać: 1000 (oba pudełka) > 0 (pudełko 2) oraz 1001000 (oba pudełka) > 1000000 (pudełko 2).

Strategia oparta na wartości oczekiwanej:

W bierze oba pudełka: p*1000 + (1-p)*1001000 = 1001000 - p*1000000
W bierze pudełko 2 : p*0 + (1-p)*1000000 = 1000000 - p*1000000.

Wybór obu pudełek jest korzystniejszy niezależnie od prawdopodobieństwa. W zasadzie przedstawiono tu rozwiązanie oparte po prostu na spostrzeżeniu z drugiego rozwiązania - nie można już zmienić zawartości pudełek. Rozwiązanie to nieco doprecyzowaliśmy.
....................................................................

Zmodyfikowany paradoks Newcomba i dylemat więźnia w jednym występuje na efektywnym rynku kapitałowym. Opiszę go w następnym poście.

Brak komentarzy:

Prześlij komentarz