Pokazywanie postów oznaczonych etykietą teoria gier. Pokaż wszystkie posty
Pokazywanie postów oznaczonych etykietą teoria gier. Pokaż wszystkie posty

środa, 10 marca 2010

Paradoks rynku efektywnego. Natura rynku fraktalnego (ułamkowo efektywnego)

Rynek efektywny to taki, na którym wszelkie istotne informacje zostają natychmiast uwzględnione w cenach. Paradoksalnie w takiej sytuacji racjonalny inwestor nie powinien dyskontować informacji, gdyż szansa na to jest nikła. Jest takie powiedzenie o rynku efektywnym: Jeśli zobaczysz leżącego na ulicy dolara, nie podnoś go, bo już go ktoś znalazł przed tobą. Idiotyczne to, ale jakże znamienne dla rynku, któremu poświęcamy tyle czasu.

Inwestor dyskontujący informacje na doskonałym rynku, na którym wszyscy robią to samo co on, poniósłby duże ryzyko, inwestując w konkretne akcje. Jak pamiętamy, zgodnie z teorią efektywnego rynku oczekiwana stopa zwrotu z dowolnego papieru wartościowego leży na linii papierów wartościowych (SML). A zatem inwestor, który dyskontuje informacje powinien liczyć się z ryzykiem rynkowym wynoszącym beta.
Oczywiście mógłby inwestować w takie akcje, jeśli posiada niską awersję do ryzyka, ale i tak byłaby to zwykła spekulacja, bo zgodnie z teorią już ktoś przed nim albo w tym samym momencie co on zdyskontował wszelkie wiadomości.

Dlatego powinien stosować model linii rynku kapitałowego (CML) lub przynajmniej metodę Markowitza. W takim razie nikt nie powinien dyskontować informacji, lecz używać CML, a więc rynek przestałby być efektywny. Cóż za paradoks.

Oczywiście, gdyby wszyscy stosowali CML, ruchy cen nadal mogłyby być całkowicie losowe, lecz ważne wiadomości nie byłyby uwzględniane w cenach. Ktoś powie: a jakie to ma znaczenie, po prostu powstanie prawdziwy hazard. Jest to błędne rozumowanie.

Przychodzi informacja, że zysk spółki X wzrósł o 50% i zamierza ona o tyle samo zwiększyć dywidendę. Efektywny rynek powinien natychmiast na to zareagować zwyżkami cen, gdyż każdy może skorzystać z dodatkowego zysku firmy bez ryzyka. Po dniu ustalenia prawa do dywidendy (a na GPW 3 dni przed tym dniem, gdyż tyle trwa rozliczenie transakcji w KDPW) cena akcji powinna spaść dokładnie o wielkość stopy dywidendy, tak że informacja o dywidendzie już nie miałaby żadnego znaczenia dla kursów, a inwestor nie miałby żadnych korzyści z trzymania tych akcji, gdyż zysk z dywidendy zostałby skorygowany spadkiem kursu.

Jeśli wszyscy stosują CML, to kurs porusza się losowo, wobec czego w dniu ustalenia prawa dywidendy także. Ten dzień nie ma znaczenia. Oznacza to, że po tym dniu kurs nie musi spadać, lecz będzie zachowywać jak zwykle. Wynika z tego, że sprytny inwestor "wyłamujący się" ze schematu CML, mógłby znacznie więcej zarobić niż inni, czyli ponadprzeciętnie. Przerzuciłby wszystkie lub większość środków na spółkę X. Otrzymuje więc dużą dywidendę, a ponadto posiada ciągle akcje, których oczekiwana stopa zwrotu nie zmienia się (tj. nie spada). Wprawdzie ryzyko z samych akcji wzrasta (gdyż jak wiemy dywersyfikacja w CML jest maksymalna, a więc zapewnia najmniejsze ryzyko), ale zostaje to skompensowane dywidendą. Czy więc wychodzi na to samo, tzn. czy znów większy zysk jest okupiony większym ryzykiem? Nie, ponieważ inwestor zachowuje się tak, jakby stosował SML, czyli model bez dywersyfikacji, który właśnie przedstawia potencjalny większy zysk okupiony ryzykiem. A więc zgodnie z SML bez ryzyka niemożliwe jest uzyskanie zysku większego od stopy zwrotu z obligacji lub bonów skarbowych. A w omawianym przypadku dostajemy dodatkowy zysk z dywidendy. Tym samym inwestor pokonuje rynek, co jest niedopuszczalne na efektywnym rynku.

Oczywiście inwestorzy nie są głupi i szybko zauważyliby i wykorzystaliby takie możliwości. W zasadzie, wszyscy powinni tak zrobić, co oczywiście znów doprowadziłoby do powrotu rynku efektywnego. Ale jeśli każdy jest statystycznie identycznie spostrzegawczy, to statystyczny inwestor winien zarobić zero. A więc lepiej stosować strategię pasywną, bo po co się jak Syzyf męczyć... a więc każdy racjonalny jednak powinien nie dyskontować żadnych informacji i rynek znów staje się nieefektywny...

Znów więc stoimy wobec pytania, która postawa - aktywna czy pasywna - jest racjonalna na (efektywnym?) rynku?
Aby odpowiedzieć na to pytanie, zróbmy przykład. Powiedzmy, że na rynku są dwaj gracze A i B. Jeśli obaj dyskontują w tym samym czasie informację, to każdy zarobi V + 0 - Z, gdzie V - przeciętna wygrana wynikająca z SML lub CML - nie ma znaczenia która, gdyż oba modele po skorygowaniu o ryzyko dają te same oczekiwane stopy zwrotu. Dodajemy zero, gdyż 0 = 0,5*D + 0,5(-D), gdzie D - nadwyżka stopy zwrotu wynikająca ze zdyskontowania informacji (np. o dywidendzie). Któryś zarobi, ale średnio nikt. Z - koszt zarządzania wynikający z tego, że inwestor ciągle śledzi informacje napływające z minuty na minutę i dokonuje szybkich decyzji. Dla uproszczenia uznamy, że Z = V. A więc oczekiwany zysk, gdy wszyscy dyskontują informacje, równa się zero. Jeśli tylko jeden gracz dyskontuje informacje, to zarabia on V + D - Z = D, a wtedy drugi grając pasywnie, tj. stosując metodę CML, zarabia V. Jeśli obaj stosują CML, wtedy obaj zarabiają V. Dlaczego V nie rozdwaja się? Uznajemy, że parametry rozkładu stopy zwrotu są identyczne i niezależne od czasu. CML opiera się na tym, że po prostu kupujemy rynek, który zachowuje się losowo zgodnie z pewną wartością oczekiwaną (a ta jest z założenia stała).



Schemat ten został przedstawiony powyżej. Macierz jest symetryczna. Poziome strategie dotyczą gracza A, zaś pionowe gracza B. Lewa strona każdego okna odpowiada zyskom gracza A, prawa - oddzielona kreską - gracza B.

Od razu widać, że paradoks jest trudniejszy niż w standardowym przypadku paradoksu Newcomba. Strategia dominująca nie istnieje. Czy istnieje równowaga Nasha? Popatrzmy. Jeśli gracz A wybiera góra, wtedy gracz B wybiera zawsze prawa. Jeśli zaś B wybiera prawa, to A wybiera zawsze góra. Istnieje zatem równowaga Nasha. Ale jeśli gracz A wybiera dół, to gracz B wybiera zawsze lewa. Jeśli B wybiera lewa. to A wybiera zawsze dół. A więc też istnieje równowaga Nasha. Są dwie równowagi Nasha i prowadzi to do zamieszania. Musimy użyć więc strategii mieszanej. Chodzi tu o to, że gracze będą posługiwać się z pewnym prawdopodobieństwem strategią aktywną i pasywną. Gracz A z prawdopodobieństwem p stosuje strategię aktywną, a gracz B stosuje strategię aktywną z prawdopodobieństwem q. Oznacza to, że jeśli gracz A gra aktywnie, to dostaje z prawdopodobieństwem q zero (gdyż B stosuje z szansą q strategię aktywną) oraz z 1-q dostaje D (gdyż B stosuje z szansą 1-q strategię pasywną). Jeśli A gra pasywnie, to zawsze dostaje V, gdyż q*V +(1-q)*V = V. Jeśli gracz B aktywnie, to wszystko jest tak samo, lecz q zostaje zastąpione p. Należy zwrócić uwagę, kiedy używa się p, a kiedy q. A więc dla gracza A mamy:

Strategia aktywna: q*0 + (1-q)*D = D - q*D
Strategia pasywna: V.

Dla gracza B:

Strategia aktywna: p*0 + (1-p)*D = D - p*D
Strategia pasywna: V.

Gracz A stosuje strategię aktywną z prawdopodobieństwem p i pasywną z 1-p, lecz już przy danej strategii jego wygrana zależy od decyzji B, czyli prawdopodobieństwa q. Powstaje pytanie, ile musi wynieść p i q? Odpowiedź wydaje się logiczna. Wiadomo, że żadna strategia nie może być lepsza od drugiej, gdyż gracz zawsze by wybierał lepszą. Zatem wartość oczekiwana strategii aktywnej musi być równa wartości oczekiwanej strategii pasywnej. Weźmy gracza A:

D - q*D = V
q = (D - V)/D.

Dla gracza B:

p = (D - V)/D.

Stąd p = q.

W równowadze, gdy strategia aktywna jest równoważna pod względem wartości oczekiwanej strategii pasywnej, każdy gracz będzie dyskontował informacje z tym samym prawdopodobieństwem wynoszącym różnicę pomiędzy nadwyżkową stopą zwrotu a przeciętną stopą zwrotu podzieloną przez nadwyżkową stopę zwrotu.

Niech V = 100. Jeśli np. zysk w wyniku zdyskontowania istotnej informacji wynosi D = 1000, to p = (1000 - 100)/1000 = 0,9. Ale już przy D = 200, p = 0,5. A przy D = 100, p = 0, zaś przy D = 50, p = -1. Jak interpretować ujemne prawdopodobieństwo? Przypomnijmy, że założyliśmy, iż zmienna zarządzania Z = V. Jeśli więc zysk D jest mniejszy od kosztów zarządzania, to jest to to samo, co dopłacanie do rynku. Oznacza to, że aby inwestor dyskontował z jakąś szansą informacje, D > V.

Nasza dyskusja jest kluczowym momentem do zrozumienia, dlaczego rynki kapitałowe nie mogą być całkowicie efektywne, nawet jeśli wszyscy inwestorzy są równi i tak samo szybcy. Gracze - w równowadze - będą aktywnie dyskontować informacje na rynku efektywnym z prawdopodobieństwem (D-V)/D i będą grać pasywnie z prawdopodobieństwem 1 - (D-V)/D = V/D.

Jeśli częstość z jaką inwestorzy się zachowują jest znana, to jeśli trochę pomyślimy, dotrzemy do głębokiego wniosku. Jeśli mamy populację inwestorów, to (D-V)/D populacji będzie dyskontować informacje, a V/D jedynie grać pasywnie...

Teoria efektywnego rynku jest analogią teorii darwinowskiej, czyli teorii doboru naturalnego. Czytelnik sam to szybko zauważy, po przeczytaniu przytoczonego fragmentu pracy A. Łomnickiego: Ekologia ewolucyjna - 2008.

Proste rozumowanie wskazuje, że w sytuacji, gdy dwa osobniki walczą o ograniczone zasoby, na przykład gniazdo, samicę lub pokarm osobnik wygrywający powinien zostawić w przyszłych pokoleniach więcej swego materiału genetycznego, niż osobnik wykazujący tendencję do ustępowania. Zatem jeśli tendencja do ustępowania i tendencja, aby walczyć aż do wygranej lub do śmierci są genetycznie zdeterminowane, wówczas należy się spodziewać, że tendencja do ustępowania i wszelkie walki nie na serio, czyli typu konwencjonalnego powinny być już dawno wyeliminowane przez dobór. Jeśli akceptujemy takie rozumowanie, wówczas przyjmujemy też, że ustępowanie, unikanie konfliktów i wszelkiego rodzaju walki konwencjonalne nie mogły powstać drogą doboru naturalnego między osobnikami, ale jakimś innym sposobem. Konrad Lorenz w swych książkach sugerował, że takie zachowanie utrzymuje się, ponieważ jest dobre dla gatunku i zapobiega nadmiernej śmiertelności w wyniku agresji.
Za rozumowaniem Konrada Lorenza i wielu innych biologów myślących podobnie nie stał i nie stoi żaden opis mechanizmu doboru, który mógłby doprowadzić do powstania cech dobrych dla gatunku, a nie dla osobnika. Można stwierdzić, ze ograniczona agresja i walki konwencjonalne były w świetle Darwinowskiej teorii doboru naturalnego niezrozumiałe, a neodarwinizm z genetyką populacyjną też tych zjawisk nie tłumaczył. Była to wyraźna słabość biologii ewolucyjnej, która skończyła się, gdy do badania konfliktów między zwierzętami zastosowano teorię gier.


Łomnicki przedstawia w jaki sposób w ewolucji ukształtował się pewien podział na "agresorów" (jastrzębie) i "ustępujących" (gołębie). Zarówno jastrzębie jak i gołębie mogą współistnieć. Co więcej, muszą występować zarówno i ci, i ci. Zastosowana strategia jest właśnie tą, jaką tutaj zaprezentowaliśmy. Strategia ta nazywana jest strategią ewolucyjnie stabilną. Przytaczam kolejny fragment:

Strategia mieszana może być realizowana na dwa sposoby. Przy pierwszym sposobie, wszystkie osobniki w populacji mogą posługiwać się takim samym programem: z prawdopodobieństwem P bądź agresorem, zaś z prawdopodobieństwem (1 - P) bądź ustępującym. Przy sposobie drugim bycie agresorem lub ustępującym jest cechą zdeterminowaną genetycznie i dobór będzie prowadził do polimorfizmu zrównoważonego, czyli takiego, przy którym proporcja agresorów będzie równa P. (s. 1)

(...)ewolucyjnie stabilna strategia mieszana wyjaśnia częściowo zmienność genetyczną w naturalnych populacjach. Taką zmienność można sprowadzić do problemu zrównoważonego polimorfizmu genetycznego, czyli utrzymywania się w populacji w jednym locus dwóch lub więcej różnych alleli. Genetyka populacyjna tłumaczy polimorfizm genetyczny wyższym dostosowaniem heterozygot w stosunku do obu homozygot i doborem zależnych od częstości allelu, powodującym niższe dostosowanie formy bardziej pospolitej. Koncepcja mieszanej strategii ewolucyjnie stabilnej sugeruje jeszcze jeden powód doboru zależnego od częstości i tym samym utrzymywania się zmienności genetycznej przy założeniu, że strategia mieszana jest zdeterminowana genetycznie. (s. 4).

Jest to właśnie to o czym mówiliśmy. Częstość danej strategii może być używana przez naturę jako całość, bądź przez pojedyncze osobniki.

Wyobraźmy sobie, że populacja składa się tylko z gołębi. Nagle w wyniku mutacji pojawia się jastrząb. Jak to w przyrodzie, jednostki walczą ze sobą. Jastrząb wygrywa każdą potyczkę, co zwiększa szansę na pozostawienie potomstwa. Można byłoby krzyknąć, że gołębiom grozi zagłada! Załóżmy więc, że gołębie zostały zgładzone i zostały same jastrzębie. Doprowadzi to do wyniszczenia gatunku, gdyż każdy jastrząb ma taką samą szansę wygranej. Straty statystycznie będą większe od zysków (u nas byłby to koszt zarządzania większy od wygranej: D < Z). Nagle pojawia się mutacja w postaci gołębia. Biedaczyna nie ma szans, chociaż... jeśli statystyczna wygrana jest mniejsza od ceny przegranej gołębia, to okaże się, że gołąb będzie statystycznie zarabiał na przegrywaniu więcej niż jastrzębie! Skutkiem będzie wzrost liczebności gołębi. Okazuje się więc, że ze statystycznego punktu widzenia musi istnieć pewna proporcja gołębi i jastrzębi.

Na rynku efektywnym słabsi lub - co wychodzi na jedno - ustępujący gracze, powinni zostać wyeliminowani przez agresywnych i szybkich inwestorów. Wolniejsi nie zdołaliby zdyskontować informacji przed szybkimi, straciliby więc wszystkie pieniądze, bo to szybcy sprzedawaliby im lub odkupywaliby od nich. Ale widzieliśmy do czego prowadzi taka sytuacja. Zastępując gołębie graczami pasywnymi, a jastrzębie graczami aktywnymi, natura ekonomiczno-psychologiczna doprowadzi do współistnienia tych dwóch typów graczy.

Pasywny nie musi tu wcale oznaczać, że stosuje CAPM. Może oznaczać po prostu gracza, który ucieka z pola walki.

Jest dwóch graczy, którzy trzymają akcje. Dokupić czy sprzedawać? Chiken? Macierz jest podobna do tej pierwszej z małym wyjątkiem. 0 - gdy obaj dokupują. Windują cenę tak, że nikt od nich drożej nie odkupi, D - gdy dokupuje pod warunkiem, że drugi sprzedaje, V - gdy sprzedaje pod warunkiem, że drugi kupuje, V/2 - obaj sprzedają. W tym ostatnim przypadku siła podaży silnie zaniża cenę i obaj średnio zarabiają V/2. Oto macierz w tym przypadku:



Obliczmy p w równowadze (ze względu na symetrię macierzy p jest nadal równe q).

Dokupuje: p*0 + (1-p)*D = D - p*D
Sprzedaje: p*V + (1-p)*V/2 = p*V + V/2 - p*V/2

D - p*D = p*V + V/2 - p*V/2
p = (D - V/2)/(D + V/2).

A więc też bardzo ładny wynik.

Zakładamy istnienie trendu zwyżkującego. Aby zaistniała równowaga jeden z nich musi ustąpić - sprzedać, aby drugi mógł kupić. Jest to ważne, gdyż w następnej rozgrywce mogą się zastąpić miejscami. Tak tworzą trend.

Nie znaczy to, że muszą całkowicie nie zgadzać się co do tego czy będą w najbliższym czasie wzrosty czy spadki. Jeśli gracz A ma horyzont krótkoterminowy, a gracz B długoterminowy, to obaj mogą rozumować nieco innymi kategoriami. Inną możliwością wymiany a nie konkurencji, jest to, że gracz, który ma większy kapitał lub też dłużej trzyma dane akcje, więcej na nich zarobił i może być bardziej skłonny do sprzedaży akcji pomimo, iż może zgadzać się, że warto ciągle je kupować. Nawet jeśli prawdopodobieństwo dalszych zwyżek wynosi więcej niż 50:50 i tak będzie odczuwał pokusę realizacji zysków. Co więcej, będzie miał rację, bo w przeciwnym wypadku, jeśli wielu będzie takich jak on, którzy nie zdecydują się na sprzedaż, to nastąpią spadki. Jeśli jednak wielu się zdecyduje na sprzedaż, wtedy lepiej dokupować, a wygrana D gwarantowana. Statystycznie należy raz ustąpić, raz nie.

Tak, udało się. Rozwiązaliśmy paradoks rynku efektywnego. Rynek staje się fraktalny, czyli ułamkowo efektywny, gdyż tylko część graczy będzie dyskontować w pełni informacje (na przykład o istnieniu trendu - na efektywnym rynku trend powinien natychmiast zniknąć, gdy wszyscy się o nim dowiadują) lub też wszyscy będą dyskontować informacje z pewnym prawdopodobieństwem. Ta część lub to prawdopodobieństwo zależy od maksymalnej wygranej i od przeciętnej wygranej i można je łatwo obliczyć. Świadczy to o tym, że na giełdzie nie warto maksymalizować zysków za wszelką cenę.

Źródło:

1. A. Łomnicki, Ekologia ewolucyjna - 2008. Strategia ewolucyjnie stabilna,
2. T. Rostański, M. Drozd, Teoria gier, 2003.


................................................................................

We wpisie "Jak powstają cykle i podcykle? Ułamkowość jest wszędzie. Część piąta": http://gieldowyracjonalista.blogspot.com/2009/10/jak-powstaja-cykle-i-podcykle-uamkowosc.html napisano:

Przede wszystkim należy zauważyć, że zbiorowość jako pewna zorganizowana struktura tworzy się dlatego, że siła (użyteczność) zbiorowości jest wyższa niż siła (użyteczność) sumy jednostek ją tworzących. Pod tym względem rzeczywiście rynek zdobywa siłę, kształtuje się trend. To jest to, o czym pisałem w drugiej części cyklu, że inwestorzy niejako sami się racjonalizują. Aby utrzymać organizm przy życiu komórka musi współpracować z innymi komórkami.


Wcześniej, w "Jak powstają cykle i podcykle? Część druga": http://gieldowyracjonalista.blogspot.com/2009/08/jak-powstaja-cykle-i-podcykle-czesc.html stwierdzono:

Rynek kapitałowy jest ograniczony pewną ilością kapitału w danym przedziale czasowym. Musi "racjonalizować" tę ilość, czyli wykorzystywać kapitał jak najwydajniej. Choć zabrzmi to bardzo ezoterycznie, "coś" zmusza inwestorów do zachowania ograniczonej racjonalności. Ekonomicznie może być to ograniczony horyzont czasowy, a psychologicznie - pokusa kupna lub sprzedaży. Połączenie homo oeconomicusa i człowieka nieracjonalnego daje pewną kombinację: człowieka ograniczenie racjonalnego.

Można zajrzeć:

1. http://gieldowyracjonalista.blogspot.com/2009/08/jak-powstaja-cykle-czesc-pierwsza.html
2. http://gieldowyracjonalista.blogspot.com/2009/08/jak-powstaja-cykle-i-podcykle-czesc.html
3. http://gieldowyracjonalista.blogspot.com/2009/09/jak-powstaja-cykle-i-podcykle.html
4. http://gieldowyracjonalista.blogspot.com/2009/09/jak-powstaja-cykle-i-podcykle-giedowy.html
5. http://gieldowyracjonalista.blogspot.com/2009/10/jak-powstaja-cykle-i-podcykle-uamkowosc.html
6. http://gieldowyracjonalista.blogspot.com/2009/10/jak-powstaja-cykle-i-podcykle-czesc_18.html

Teraz wszystko zaczyna łączyć się w jedną całość. Dotąd brakowało tego budulca w postaci teorii gier, która rozwiązuje problem racjonalności i efektywności rynku.

niedziela, 28 lutego 2010

Kiedy warto być irracjonalnym... czyli paradoks Newcomba

Temat racjonalności wydaje się często oczywisty i nudny. Ludzie powinni dążyć do jak największych korzyści, wobec tego biorąc udział w jakiejś grze - a grają jedynie dla niej samej (a nie dla jakichś wyższych celów, na przykład samorozwoju) - to z tej perspektywy największą korzyścią jej jej wygranie. Jeśli wygrana stanowi suma pieniężna, to powinni dążyć do jej uzyskania - do maksymalizowania zysków. Wtedy są racjonalni.

Paradoks Newcomba roznosi w pył ten tok rozumowania.

Cytuję za wikipedią: http://pl.wikipedia.org/wiki/Paradoks_Newcomba

Wyobraź sobie dwóch graczy, Przewidującego i Wybierającego, którzy biorą udział w następującej grze:

1. W ma do wyboru dwa pudełka – otwarte pudełko I z 1000 zł oraz zamknięte pudełko II z 1 000 000 zł lub bez – W tego nie wie
2. W wybiera, czy chce dostać oba pudełka czy chce tylko pudełko II,
3. P dzień wcześniej przewidział, co wybierze W. Jeżeli W weźmie oba pudełka to pudełko II P pozostawi puste, jeżeli W wybierze tylko pudełko II to P włoży do niego 1 000 000 zł
4. W zdaje sobie sprawę, ze sposobu działania P opisanego powyżej, ale nie wie jaki jego ruch przewidział P w danej rozgrywce.

Pytanie:

Czy W ma wybrać oba pudełka, czy jedno?

Rozwiązanie pierwsze. Jeżeli P przewiduje bezbłędnie, to W powinien wybrać tylko pudełko II i wygra wtedy 1 000 000 zł. Jeżeli W weźmie oba pudełka, pudełko II będzie puste i W wygra tylko 1 000 zł. Nawet, jeżeli P jest tylko w przybliżeniu pewny swoich przewidywań, W nie chce ryzykować, że dostanie tylko tysiąc. Zgodne z takim rozumowaniem W powinien zawsze wybierać zamknięte pudełko II.

Rozwiązanie drugie. Jednakże w momencie, kiedy W przystępuje do wyboru, zawartość pudełek jest już ustalona. Zamknięte pudełko II może być albo puste albo pełne. Na oczach W zawartość pudełek nie może ulec zmianie. Niezależnie od tego czy pudełko II jest puste czy pełne wybierając oba W zwiększa swoją szansę wygranej, bo może zabrać dla siebie zawartość obu z nich. Kierując się taką logiką W powinien zawsze wybierać oba pudełka.

Istnienie dwóch rozwiązań wybieranych przez różne osoby w roku 1969 tak podsumował Nozick:
Dla prawie wszystkich jest całkowicie jasne i oczywiste jak należy wybrać. Problem tkwi w tym, że pytani o rozwiązanie dzielą się na dwie prawie równe grupy mające przeciwne zdanie na ten temat, a duża liczba pytanych osób sądzi, że ci wybierający drugie rozwiązanie są po prostu głupi.


Spróbujmy rozplątać ten paradoks.

1. Należy zadać pytanie czy W może w ogóle dokonać wyboru skoro P przewidział jego ruch. Innymi słowy, czy W ma wolną wolę? Niektórzy twierdzą, iż teza o wolnej woli usuwa paradoks Newcomba, gdyż jest sprzeczna z założeniem o istnieniu P, który przewiduje nasze decyzje. Tak twierdzi na przykład K. Binmore [Por. W. Z. Załuski, Problem wolnej woli, racjonalność decyzji a paradoks Newcomba, s. 3]. Rzeczywiście. A więc W nie ma wolnej woli. Jednakże on nie musi o tym wiedzieć. Dalej może się zastanawiać co zrobić. Paradoks nie został rozwiązany.

2. Aby rozwiązać paradoks, trzeba określić czy teraźniejszość ma wpływ na przeszłość (a nie odwrotnie). O przeszłości należy pomyśleć jak o przyszłości. Czy to co zrobi teraz W, będzie mieć znaczenie, dla tego, co zrobi (zrobił) P? Można zadać to pytanie inaczej. Czy P potrafi cofnąć się w przeszłość? Jeśli tak, w momencie, gdy W wybiera pudełko 2 lub oba, P natychmiast powraca do przeszłości i dokonuje odpowiedniego podstawienia bądź usunięcia kwoty w pudełku 2. Jeśli W wie o takich możliwościach P, oczywiście wybierze drugie pudełko. Nie ma tutaj żadnych wątpliwości co do wyboru.

Problem rodzi się dopiero w sytuacji rzeczywistej, czyli gdy...

3. P nie może się cofnąć w czasie. Czy może mimo to przewidywać ruch W, jeśli W nie ma wolnej woli? Tutaj musimy znów rozbić sytuację na dwie części. To jak się zachowa W, zależy od tego co P wie na temat W oraz czy W wie, co P o nim wie. Wiemy już natomiast, że P musi wiedzieć o W wszystko co jest potrzebne, do określenia, jaki ruch W wykona. P jest bowiem przewidującym graczem, a W nie ma wolnej woli. Chodzi tu mianowicie o to czy W jest racjonalny czy nie jest racjonalny.

a) Jeśli W jest racjonalny, to powracamy do drugiego rozwiązania. Zawartość pudełek nie może się już zmienić, więc W będzie maksymalizował zysk, jeśli wybierze oba pudełka. W wie o tym, że nie dostanie w takim razie miliona, ale to nie ma znaczenia, bo musi się zachować racjonalnie. Nie ma przecież wolnej woli. P o tym wszystkim wie i dlatego nie musi posiadać wehikułu czasu: może przewidzieć zachowanie W dzięki takiemu rozumowaniu.

b) Jeśli W nie jest racjonalny, to musimy znów rozbić problem na dwie części.

- W może zachowywać się przeciwnie do zachowania racjonalnego. Takie zachowanie nazwiemy irracjonalnym. Jeśli W jest irracjonalny, to wybierze drugie pudełko, w którym zobaczy milion. P bowiem wie, że W jest irracjonalny, a więc z łatwością potrafi przewidzieć ruch W.

- W może się zachowywać w sposób całkowicie losowy, tak że z prawdopodobieństwem 0,5 zachowa się racjonalnie lub irracjonalnie. Jednak losowość oznacza indeterminizm, a więc niemożliwość przewidywania. Losowe zachowanie jest równoznaczne z zachowaniem istnienia wolnej woli, a to wykluczyliśmy. Gdyby faktycznie ruchy W były losowe, P nie mógłby przewidywać.

Jeśli zakładamy istnienie P, to W może się zachowywać albo racjonalnie, albo irracjonalnie.
............................................................................
Zauważmy więc, że zachowanie irracjonalne przynosi suma sumarum większe korzyści materialne od racjonalnego. Mówiąc inaczej, racjonalnie działający W mógłby poprawić swoją sytuację, dokonując wyboru nieracjonalnego.

Jeżeli nie da się poprawić sytuacji żadnej ze stron bez pogorszenia sytuacji którejś strony, to taką sytuację nazywamy alokacją efektywną w rozumieniu Pareta. Zazwyczaj efektywność Pareta łączy się z racjonalnością stron, a jednak występują sytuacje, gdzie racjonalność i efektywność zachowań stoją ze sobą w sprzeczności. Zarówno P jak i racjonalny W osiągnęli najwyższą użyteczność - P przewidział ruch W, W dostał oba pudełka. Jednak sytuacja W mogłaby się poprawić bez pogorszenia sytuacji P, a więc alokacja nie jest efektywna.
............................................................................

No dobrze, ale ktoś powie, że to tylko abstrakcyjne ćwiczenie, bo nikt nie jest w stanie przewidywać zachowań innych ludzi ze 100% pewnością. Implikuje to, że ludzie mają wolną wolę. Okazuje się jednak, że nawet, jeśli P będzie przewidywał zachowanie W z ponad 50%-procentowym prawdopodobieństwem, paradoks istnieje nadal. Oznacza to, że paradoks istnieje w rzeczywistych sytuacjach decyzyjnych, z jakimi się często spotykamy.

Czy wolna wola coś zmienia w naszej sytuacji? Nie, W - jeśli jest racjonalny - powinien wybrać oba pudełka. Wybranie obydwu pudełek w takiej sytuacji wydaje się nawet "jeszcze bardziej" racjonalne niż w poprzedniej. Działania W i P są raczej niezależne. Ten problem przypomina oczywiście dylemat więźnia znany z teorii gier, kiedy to więźniowie nie mogą się porozumiewać ze sobą, ich działania nie są skoordynowane, co oznacza, że każdy z nich musi podjąć taką decyzję, aby niezależnie od ruchu drugiego więźnia, była ona najlepsza z możliwych. Dylemat więźnia jest przede wszystkim znany z tego, że również w nim występuje swego rodzaju paradoks: obaj więźniowie mogliby znaleźć się w lepszej sytuacji, gdyby zachowali się irracjonalnie. Jest to więc także sytuacja nieefektywna w rozumieniu Pareta.

W klasycznej formie dylemat więźnia, jest przedstawiany następująco (Źródło: wikipedia: http://pl.wikipedia.org/wiki/Dylemat_wi%C4%99%C5%BAnia):

Dwóch podejrzanych zostało zatrzymanych przez policję. Policja, nie mając wystarczających dowodów do postawienia zarzutów, rozdziela więźniów i przedstawia każdemu z nich tę samą ofertę: jeśli będzie zeznawać przeciwko drugiemu, a drugi będzie milczeć, to zeznający wyjdzie na wolność, a milczący dostanie dziesięcioletni wyrok. Jeśli obaj będą milczeć, obaj odsiedzą 6 miesięcy za inne przewinienia. Jeśli obaj będą zeznawać, obaj dostaną pięcioletnie wyroki. Każdy z nich musi podjąć decyzję niezależnie i żaden nie dowie się czy drugi milczy czy zeznaje aż do momentu wydania wyroku. Jak powinni postąpić?

Poniższa tabela przedstawia możliwe wyniki gry:



Strategia "zeznaje" okazuje się najlepsza niezależnie od tego co zrobi druga osoba. Rozwiązanie oparte na strategii dominującej polega na tym, że na przykład wybieramy opcję "zeznawać", której towarzyszy pewna "wypłata" i porównujemy tę "wypłatę" z wypłatą opcji "milczeć". Weźmy więźnia A. Zauważmy, że wolność (czyli gdy zeznaje) jest lepsza od 6 miesięcy odsiadki (gdy milczy). Pamiętajmy, że chodzi o porównanie. Jeśli B wybiera "milczeć", to A porównuje obie opcje: zeznawanie daje większą wypłatę (0 a nie -0,5 roku). Jeśli B wybiera zeznawać, A znowu porównuje: zeznawanie daje większą wypłatę (-5 a nie -10 lat). Nieważne co zrobi B, opcja zeznawać daje zawsze lepszą wypłatę niż opcja milczeć. Dla B wnioski są identyczne. Obaj będą zeznawać. Dostaną 5 lat więzienia. Gdyby jednak obaj poszli w zaparte i irracjonalnie milczeli, wyszliby na tym lepiej, gdyż dostaliby jedynie 6 miesięcy więzienia.

Można byłoby inaczej rozwiązać ten dylemat - po prostu w kategoriach wartości oczekiwanej. Ponieważ nie wiemy, z jakim prawdopodobieństwem drugi więzień dokonuje któregoś ruchu, uznajemy, że szansa jest 50:50.

Milczy:

(0,5+10)/2 = 5,25.

Zeznaje:

(0+5)/2 = 2,5.

Znowu lepiej zeznawać. Oczywiście można mieć wątpliwości co do takiej metody - po pierwsze określanie prawdopodobieństw jest kłopotliwe, po drugie dla gracza ważniejsze od prawdopodobieństwa zdarzenia będzie raczej możliwa strata i zysk. Dlatego kryterium strategii dominującej wydaje się lepsze od kryterium wartości oczekiwanej. To znaczy to drugie kryterium może być również poprawne, ale z pewnymi modyfikacjami - użycie zamiast samych wartości zdarzeń, użyteczności tych zdarzeń oraz zamiast prawdopodobieństw - użyteczności prawdopodobieństw. Kwestia ta jednak leży poza tematem - obiektywnie nie potrafilibyśmy określić który wybór jest lepszy.


Wróćmy zatem do paradoksu Newcomba. Możemy stworzyć następującą macierz wypłat:



Jaka jest strategia dominująca? Łatwo zauważyć, że nie istnieje. W takim razie użyjmy metody wartości oczekiwanej. Przyjmijmy, że P przewiduje z prawdopodobieństwem p. Wtedy wartość oczekiwana będzie następująca:

W bierze oba pudełka: p*1000 + (1-p)*1001000 = 1001000 - p*1000000
W bierze pudełko 2 : p*1000000 + (1-p)*0 = p*1000000

Niech p = 0,99.
W bierze oba pudełka: 1001000 - 0,99*1000000 = 11000
W bierze pudełko 2 : 0,99*1000000 = 990000.

Wynika z tego, że lepiej jest wziąć pudełko 2.

Czy nie ma jednak w tej konstrukcji jakiegoś fałszu? Moim zdaniem jest. W sposób podstępny zakłada się tu, że działania W i P są skorelowane (a nawet powiązane łańcuchem przyczynowo-skutkowym). To co zrobi W za chwilę, P właśnie już przewidział. Nie tyle przewidział, co po prostu wyprognozował, a więc ta czynność prognozowania już się zakończyła. Nie można jednak określać tej prognozy w kategoriach poprawności. P nie może ani przewidzieć poprawnie, ani niepoprawnie w trakcie dokonywania wyboru przez W, bo ten akt przewidywania dopiero zależy od wyboru W, który zależy od tej macierzy. (Jak W może dokonać wyboru skoro P już przewidział to dobrze lub źle?).

Zachowania obydwu graczy stają się zbyt uwikłane ze sobą. Musimy zbudować tak macierz, aby zachowania te były niezależne. Oto ta macierz:



Teraz strategia dominująca istnieje, gdyż niezależnie od wyboru P, dla W bardziej opłacalne będzie wzięcie obydwu pudełek. Łatwo porównać: 1000 (oba pudełka) > 0 (pudełko 2) oraz 1001000 (oba pudełka) > 1000000 (pudełko 2).

Strategia oparta na wartości oczekiwanej:

W bierze oba pudełka: p*1000 + (1-p)*1001000 = 1001000 - p*1000000
W bierze pudełko 2 : p*0 + (1-p)*1000000 = 1000000 - p*1000000.

Wybór obu pudełek jest korzystniejszy niezależnie od prawdopodobieństwa. W zasadzie przedstawiono tu rozwiązanie oparte po prostu na spostrzeżeniu z drugiego rozwiązania - nie można już zmienić zawartości pudełek. Rozwiązanie to nieco doprecyzowaliśmy.
....................................................................

Zmodyfikowany paradoks Newcomba i dylemat więźnia w jednym występuje na efektywnym rynku kapitałowym. Opiszę go w następnym poście.