Pokazywanie postów oznaczonych etykietą paradoks Newcomba. Pokaż wszystkie posty
Pokazywanie postów oznaczonych etykietą paradoks Newcomba. Pokaż wszystkie posty

niedziela, 28 lutego 2010

Kiedy warto być irracjonalnym... czyli paradoks Newcomba

Temat racjonalności wydaje się często oczywisty i nudny. Ludzie powinni dążyć do jak największych korzyści, wobec tego biorąc udział w jakiejś grze - a grają jedynie dla niej samej (a nie dla jakichś wyższych celów, na przykład samorozwoju) - to z tej perspektywy największą korzyścią jej jej wygranie. Jeśli wygrana stanowi suma pieniężna, to powinni dążyć do jej uzyskania - do maksymalizowania zysków. Wtedy są racjonalni.

Paradoks Newcomba roznosi w pył ten tok rozumowania.

Cytuję za wikipedią: http://pl.wikipedia.org/wiki/Paradoks_Newcomba

Wyobraź sobie dwóch graczy, Przewidującego i Wybierającego, którzy biorą udział w następującej grze:

1. W ma do wyboru dwa pudełka – otwarte pudełko I z 1000 zł oraz zamknięte pudełko II z 1 000 000 zł lub bez – W tego nie wie
2. W wybiera, czy chce dostać oba pudełka czy chce tylko pudełko II,
3. P dzień wcześniej przewidział, co wybierze W. Jeżeli W weźmie oba pudełka to pudełko II P pozostawi puste, jeżeli W wybierze tylko pudełko II to P włoży do niego 1 000 000 zł
4. W zdaje sobie sprawę, ze sposobu działania P opisanego powyżej, ale nie wie jaki jego ruch przewidział P w danej rozgrywce.

Pytanie:

Czy W ma wybrać oba pudełka, czy jedno?

Rozwiązanie pierwsze. Jeżeli P przewiduje bezbłędnie, to W powinien wybrać tylko pudełko II i wygra wtedy 1 000 000 zł. Jeżeli W weźmie oba pudełka, pudełko II będzie puste i W wygra tylko 1 000 zł. Nawet, jeżeli P jest tylko w przybliżeniu pewny swoich przewidywań, W nie chce ryzykować, że dostanie tylko tysiąc. Zgodne z takim rozumowaniem W powinien zawsze wybierać zamknięte pudełko II.

Rozwiązanie drugie. Jednakże w momencie, kiedy W przystępuje do wyboru, zawartość pudełek jest już ustalona. Zamknięte pudełko II może być albo puste albo pełne. Na oczach W zawartość pudełek nie może ulec zmianie. Niezależnie od tego czy pudełko II jest puste czy pełne wybierając oba W zwiększa swoją szansę wygranej, bo może zabrać dla siebie zawartość obu z nich. Kierując się taką logiką W powinien zawsze wybierać oba pudełka.

Istnienie dwóch rozwiązań wybieranych przez różne osoby w roku 1969 tak podsumował Nozick:
Dla prawie wszystkich jest całkowicie jasne i oczywiste jak należy wybrać. Problem tkwi w tym, że pytani o rozwiązanie dzielą się na dwie prawie równe grupy mające przeciwne zdanie na ten temat, a duża liczba pytanych osób sądzi, że ci wybierający drugie rozwiązanie są po prostu głupi.


Spróbujmy rozplątać ten paradoks.

1. Należy zadać pytanie czy W może w ogóle dokonać wyboru skoro P przewidział jego ruch. Innymi słowy, czy W ma wolną wolę? Niektórzy twierdzą, iż teza o wolnej woli usuwa paradoks Newcomba, gdyż jest sprzeczna z założeniem o istnieniu P, który przewiduje nasze decyzje. Tak twierdzi na przykład K. Binmore [Por. W. Z. Załuski, Problem wolnej woli, racjonalność decyzji a paradoks Newcomba, s. 3]. Rzeczywiście. A więc W nie ma wolnej woli. Jednakże on nie musi o tym wiedzieć. Dalej może się zastanawiać co zrobić. Paradoks nie został rozwiązany.

2. Aby rozwiązać paradoks, trzeba określić czy teraźniejszość ma wpływ na przeszłość (a nie odwrotnie). O przeszłości należy pomyśleć jak o przyszłości. Czy to co zrobi teraz W, będzie mieć znaczenie, dla tego, co zrobi (zrobił) P? Można zadać to pytanie inaczej. Czy P potrafi cofnąć się w przeszłość? Jeśli tak, w momencie, gdy W wybiera pudełko 2 lub oba, P natychmiast powraca do przeszłości i dokonuje odpowiedniego podstawienia bądź usunięcia kwoty w pudełku 2. Jeśli W wie o takich możliwościach P, oczywiście wybierze drugie pudełko. Nie ma tutaj żadnych wątpliwości co do wyboru.

Problem rodzi się dopiero w sytuacji rzeczywistej, czyli gdy...

3. P nie może się cofnąć w czasie. Czy może mimo to przewidywać ruch W, jeśli W nie ma wolnej woli? Tutaj musimy znów rozbić sytuację na dwie części. To jak się zachowa W, zależy od tego co P wie na temat W oraz czy W wie, co P o nim wie. Wiemy już natomiast, że P musi wiedzieć o W wszystko co jest potrzebne, do określenia, jaki ruch W wykona. P jest bowiem przewidującym graczem, a W nie ma wolnej woli. Chodzi tu mianowicie o to czy W jest racjonalny czy nie jest racjonalny.

a) Jeśli W jest racjonalny, to powracamy do drugiego rozwiązania. Zawartość pudełek nie może się już zmienić, więc W będzie maksymalizował zysk, jeśli wybierze oba pudełka. W wie o tym, że nie dostanie w takim razie miliona, ale to nie ma znaczenia, bo musi się zachować racjonalnie. Nie ma przecież wolnej woli. P o tym wszystkim wie i dlatego nie musi posiadać wehikułu czasu: może przewidzieć zachowanie W dzięki takiemu rozumowaniu.

b) Jeśli W nie jest racjonalny, to musimy znów rozbić problem na dwie części.

- W może zachowywać się przeciwnie do zachowania racjonalnego. Takie zachowanie nazwiemy irracjonalnym. Jeśli W jest irracjonalny, to wybierze drugie pudełko, w którym zobaczy milion. P bowiem wie, że W jest irracjonalny, a więc z łatwością potrafi przewidzieć ruch W.

- W może się zachowywać w sposób całkowicie losowy, tak że z prawdopodobieństwem 0,5 zachowa się racjonalnie lub irracjonalnie. Jednak losowość oznacza indeterminizm, a więc niemożliwość przewidywania. Losowe zachowanie jest równoznaczne z zachowaniem istnienia wolnej woli, a to wykluczyliśmy. Gdyby faktycznie ruchy W były losowe, P nie mógłby przewidywać.

Jeśli zakładamy istnienie P, to W może się zachowywać albo racjonalnie, albo irracjonalnie.
............................................................................
Zauważmy więc, że zachowanie irracjonalne przynosi suma sumarum większe korzyści materialne od racjonalnego. Mówiąc inaczej, racjonalnie działający W mógłby poprawić swoją sytuację, dokonując wyboru nieracjonalnego.

Jeżeli nie da się poprawić sytuacji żadnej ze stron bez pogorszenia sytuacji którejś strony, to taką sytuację nazywamy alokacją efektywną w rozumieniu Pareta. Zazwyczaj efektywność Pareta łączy się z racjonalnością stron, a jednak występują sytuacje, gdzie racjonalność i efektywność zachowań stoją ze sobą w sprzeczności. Zarówno P jak i racjonalny W osiągnęli najwyższą użyteczność - P przewidział ruch W, W dostał oba pudełka. Jednak sytuacja W mogłaby się poprawić bez pogorszenia sytuacji P, a więc alokacja nie jest efektywna.
............................................................................

No dobrze, ale ktoś powie, że to tylko abstrakcyjne ćwiczenie, bo nikt nie jest w stanie przewidywać zachowań innych ludzi ze 100% pewnością. Implikuje to, że ludzie mają wolną wolę. Okazuje się jednak, że nawet, jeśli P będzie przewidywał zachowanie W z ponad 50%-procentowym prawdopodobieństwem, paradoks istnieje nadal. Oznacza to, że paradoks istnieje w rzeczywistych sytuacjach decyzyjnych, z jakimi się często spotykamy.

Czy wolna wola coś zmienia w naszej sytuacji? Nie, W - jeśli jest racjonalny - powinien wybrać oba pudełka. Wybranie obydwu pudełek w takiej sytuacji wydaje się nawet "jeszcze bardziej" racjonalne niż w poprzedniej. Działania W i P są raczej niezależne. Ten problem przypomina oczywiście dylemat więźnia znany z teorii gier, kiedy to więźniowie nie mogą się porozumiewać ze sobą, ich działania nie są skoordynowane, co oznacza, że każdy z nich musi podjąć taką decyzję, aby niezależnie od ruchu drugiego więźnia, była ona najlepsza z możliwych. Dylemat więźnia jest przede wszystkim znany z tego, że również w nim występuje swego rodzaju paradoks: obaj więźniowie mogliby znaleźć się w lepszej sytuacji, gdyby zachowali się irracjonalnie. Jest to więc także sytuacja nieefektywna w rozumieniu Pareta.

W klasycznej formie dylemat więźnia, jest przedstawiany następująco (Źródło: wikipedia: http://pl.wikipedia.org/wiki/Dylemat_wi%C4%99%C5%BAnia):

Dwóch podejrzanych zostało zatrzymanych przez policję. Policja, nie mając wystarczających dowodów do postawienia zarzutów, rozdziela więźniów i przedstawia każdemu z nich tę samą ofertę: jeśli będzie zeznawać przeciwko drugiemu, a drugi będzie milczeć, to zeznający wyjdzie na wolność, a milczący dostanie dziesięcioletni wyrok. Jeśli obaj będą milczeć, obaj odsiedzą 6 miesięcy za inne przewinienia. Jeśli obaj będą zeznawać, obaj dostaną pięcioletnie wyroki. Każdy z nich musi podjąć decyzję niezależnie i żaden nie dowie się czy drugi milczy czy zeznaje aż do momentu wydania wyroku. Jak powinni postąpić?

Poniższa tabela przedstawia możliwe wyniki gry:



Strategia "zeznaje" okazuje się najlepsza niezależnie od tego co zrobi druga osoba. Rozwiązanie oparte na strategii dominującej polega na tym, że na przykład wybieramy opcję "zeznawać", której towarzyszy pewna "wypłata" i porównujemy tę "wypłatę" z wypłatą opcji "milczeć". Weźmy więźnia A. Zauważmy, że wolność (czyli gdy zeznaje) jest lepsza od 6 miesięcy odsiadki (gdy milczy). Pamiętajmy, że chodzi o porównanie. Jeśli B wybiera "milczeć", to A porównuje obie opcje: zeznawanie daje większą wypłatę (0 a nie -0,5 roku). Jeśli B wybiera zeznawać, A znowu porównuje: zeznawanie daje większą wypłatę (-5 a nie -10 lat). Nieważne co zrobi B, opcja zeznawać daje zawsze lepszą wypłatę niż opcja milczeć. Dla B wnioski są identyczne. Obaj będą zeznawać. Dostaną 5 lat więzienia. Gdyby jednak obaj poszli w zaparte i irracjonalnie milczeli, wyszliby na tym lepiej, gdyż dostaliby jedynie 6 miesięcy więzienia.

Można byłoby inaczej rozwiązać ten dylemat - po prostu w kategoriach wartości oczekiwanej. Ponieważ nie wiemy, z jakim prawdopodobieństwem drugi więzień dokonuje któregoś ruchu, uznajemy, że szansa jest 50:50.

Milczy:

(0,5+10)/2 = 5,25.

Zeznaje:

(0+5)/2 = 2,5.

Znowu lepiej zeznawać. Oczywiście można mieć wątpliwości co do takiej metody - po pierwsze określanie prawdopodobieństw jest kłopotliwe, po drugie dla gracza ważniejsze od prawdopodobieństwa zdarzenia będzie raczej możliwa strata i zysk. Dlatego kryterium strategii dominującej wydaje się lepsze od kryterium wartości oczekiwanej. To znaczy to drugie kryterium może być również poprawne, ale z pewnymi modyfikacjami - użycie zamiast samych wartości zdarzeń, użyteczności tych zdarzeń oraz zamiast prawdopodobieństw - użyteczności prawdopodobieństw. Kwestia ta jednak leży poza tematem - obiektywnie nie potrafilibyśmy określić który wybór jest lepszy.


Wróćmy zatem do paradoksu Newcomba. Możemy stworzyć następującą macierz wypłat:



Jaka jest strategia dominująca? Łatwo zauważyć, że nie istnieje. W takim razie użyjmy metody wartości oczekiwanej. Przyjmijmy, że P przewiduje z prawdopodobieństwem p. Wtedy wartość oczekiwana będzie następująca:

W bierze oba pudełka: p*1000 + (1-p)*1001000 = 1001000 - p*1000000
W bierze pudełko 2 : p*1000000 + (1-p)*0 = p*1000000

Niech p = 0,99.
W bierze oba pudełka: 1001000 - 0,99*1000000 = 11000
W bierze pudełko 2 : 0,99*1000000 = 990000.

Wynika z tego, że lepiej jest wziąć pudełko 2.

Czy nie ma jednak w tej konstrukcji jakiegoś fałszu? Moim zdaniem jest. W sposób podstępny zakłada się tu, że działania W i P są skorelowane (a nawet powiązane łańcuchem przyczynowo-skutkowym). To co zrobi W za chwilę, P właśnie już przewidział. Nie tyle przewidział, co po prostu wyprognozował, a więc ta czynność prognozowania już się zakończyła. Nie można jednak określać tej prognozy w kategoriach poprawności. P nie może ani przewidzieć poprawnie, ani niepoprawnie w trakcie dokonywania wyboru przez W, bo ten akt przewidywania dopiero zależy od wyboru W, który zależy od tej macierzy. (Jak W może dokonać wyboru skoro P już przewidział to dobrze lub źle?).

Zachowania obydwu graczy stają się zbyt uwikłane ze sobą. Musimy zbudować tak macierz, aby zachowania te były niezależne. Oto ta macierz:



Teraz strategia dominująca istnieje, gdyż niezależnie od wyboru P, dla W bardziej opłacalne będzie wzięcie obydwu pudełek. Łatwo porównać: 1000 (oba pudełka) > 0 (pudełko 2) oraz 1001000 (oba pudełka) > 1000000 (pudełko 2).

Strategia oparta na wartości oczekiwanej:

W bierze oba pudełka: p*1000 + (1-p)*1001000 = 1001000 - p*1000000
W bierze pudełko 2 : p*0 + (1-p)*1000000 = 1000000 - p*1000000.

Wybór obu pudełek jest korzystniejszy niezależnie od prawdopodobieństwa. W zasadzie przedstawiono tu rozwiązanie oparte po prostu na spostrzeżeniu z drugiego rozwiązania - nie można już zmienić zawartości pudełek. Rozwiązanie to nieco doprecyzowaliśmy.
....................................................................

Zmodyfikowany paradoks Newcomba i dylemat więźnia w jednym występuje na efektywnym rynku kapitałowym. Opiszę go w następnym poście.