niedziela, 13 czerwca 2010

Uogólnione centralne twierdzenie graniczne

Statystycy już dawno temu zauważyli, że indeksy giełdowe nie zachowują się zgodnie z rozkładem normalnym. Jedną z własności tego rozkładu jest to, że jest prawie niemożliwe, aby zmienna powędrowała na odległość trzech odchyleń standardowych od wartości oczekiwanej. Okazało się, że tzw. zdarzenia rzadkie występują dużo częściej niż wynikałoby to z rozkładu normalnego. Z praktycznego punktu widzenia chodzi tu najczęściej o występowanie krachów, jak np. w USA w 1929, 1987, 2008 czy nawet ostatnio 6 maja 2010. Zdarzają się jednak także sytuacje odwrotne, gdy na skutek bardzo pozytywnych informacji, kursy akcji szybują.

Empiryczne własności nie były czymś przypadkowym, czymś, co za chwilę zaniknie. Były i są własnościami immanentnymi rynków finansowych. Teraz to wydaje się niby oczywiste. Jest panika, są emocje, a w każdym razie reakcje nie są liniowe (oznacza to: przychodzi informacja i jest natychmiastowa reakcja na nią). W rzeczywistości to nie jest takie oczywiste, co zaraz zobaczymy.

Swego czasu to był szok w środowisku akademickim. Cała nauka finansów została postawiona na głowie. Bez rozkładu normalnego nie można w bezgranicznie ufny sposób stosować teorii portfela Markowitza, CAPM ani Blacka-Scholesa modelu wyceny opcji.

Za chwilę zauważymy, że empiryczne odchylenia od rozkładu Gaussa nie tylko nie są czymś dziwnym, ale wręcz oczywistym. Przypomnijmy, że przyjęcie w modelu rozkładu normalnego nie było pomysłem wyciągniętym z kapelusza. Jeśli ludzie są racjonalni, to powinni szybko wykorzystywać okazje, takie jak zależność czasowa stóp zwrotu. Rynek dąży do efektywności. Na efektywnym rynku stopy zwrotu powinny być więc niezależne od siebie. Ale to nie wystarcza do wprowadzenia rozkładu Gaussa.

Co zakłada klasyczna teoria finansów? Wprowadza analogię ruchów cenowych do ruchów cząsteczki Browna. Cząsteczka ta porusza się w pojemniku bez zewnętrznego dopływu energii. Oznacza to, że warunki w czasie i przestrzeni są zawsze takie same. I tu jest klucz. Bo teraz rozkład normalny ma już rację bytu. Przytoczę fragment wpisu "Teoria portfela. Model Markowitza - Wprowadzenie":

Po pierwsze stopy zwrotu stają się całkowicie losowe i niezależne od siebie - na ich ruch nie wpływa nic z zewnątrz, a jedynie przypadkowe wewnętrzne "uderzenia" graczy. Po drugie ze względu na identyczne warunki w przestrzeni i czasie rozkład prawdopodobieństwa stopy zwrotu jest zawsze taki sam. Po trzecie ze względu na niezależność stóp zwrotu oraz stałą ilość kapitału wariancja stopy zwrotu jest skończona (dąży do pewnej średniej).


Te trzy wnioski stają się przesłankami do zastosowania Centralnego Twierdzenia Granicznego. Właśnie te trzy założenia umożliwiają stwierdzić, że stopa zwrotu w uśrednieniu dąży do rozkładu normalnego.


CENTRALNE TWIERDZENIE GRANICZNE:

Centralne twierdzenie graniczne to twierdzenie matematyczne mówiące, że jeśli Xi są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, takiej samej wartości oczekiwanej μ i skończonej wariancji σ^2, to zmienna losowa o postaci



zbiega według rozkładu do standardowego rozkładu normalnego gdy n rośnie do nieskończoności.

Zapiszmy to inaczej:





Należy podkreślić fakt, że zmienne losowe mogą posiadać rozkład skokowy. Nie ma tu mowy o koniecznej ciągłości. Dlatego też, to że reakcje nie są liniowe, wcale nie nie dezakualizuje CTG. Fałszem jest stałość i skończoność wariancji. A ten fałsz wynika z fałszywego założenia, że kapitał jest stały w czasie.

Myślę jednak, że jeśli nawet nieliniowość reakcji na informacje nie musi mieć znaczenia, to jednak same informacje już tak. Niektóre informacje są bardzo jaskrawe, co powoduje silne i nagłe ruchy kapitału. Można powiedzieć, że w pewnym sensie informacja stanowi zewnętrzne źródło energii dla kapitału. Tak czy inaczej ekonomiczne warunki przestrzenne i czasowe zmieniają się, a zatem zmienia się ilość kapitału.

Wiadomo, że jeśli zdarzenia są rzadkie, to ich prawdopodobieństwo jest niskie. Częstość rzadkich zdarzeń gaussowskich szybko zbiega do zera, zaś częstość rzadkich zdarzeń giełdowych... Powstaje pytanie: czy w dużej próbie zbiega w końcu do zera?

Mandelbrot analizując ceny akcji bawełny doszedł do wniosku, że empiryczne rozkłady dużo lepiej niż gaussowskimi opisuje się stabilnymi rozkładami Levy'ego. Rozkłady Levy'ego dobrze sobie radziły z dużą częstością rzadkich zdarzeń - ich "ogony" są pogrubione.

Rozkład Levy'ego zawiera różne parametry: c - czynnik skalujący, wykładnik α, dryf (wartość oczekiwaną) µ i parametr skośności β. I tak dla α = 2 i β = 0 dostajemy rozkład normalny.



Ale z matematycznego punktu widzenia, jeśli α < 2, wariancja staje się nieskończona, co oznacza, że częstości rzadkich zdarzeń nie zbiegają do zera. Powstaje znowu pytanie czy rozkład Levy'ego jedynie przypadkowo poprawnie opisuje fluktuacje rynkowe, zaś wariancja wcale nie jest nieskończona?

Okazuje się, że nie jest to żaden przypadek. Istnieje bowiem uogólnione centralne twierdzenie graniczne.

UOGÓLNIONE CENTRALNE TWIERDZENIE GRANICZNE

Jeśli Xi są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, a(n) > 0 i b(n) są to pewne stałe, wówczas zmienna losowa Z posiada rozkład Levy'ego:



czyli rozkład prawdopodobieństwa sumy Xi zbiega rozkładu Levy'ego.

W tym przypadku a(n) i b(n) mają inną postać niż dla klasycznego CTG, przy czym wzory te nie są nam niezbędne (krótko mówiąc tam gdzie wcześniej był pierwiastek z n, czyli potęga 1/2 tutaj zostaje zastąpiona 1/α oraz nie ma parametru odchylenia standardowego).


Możemy się jednak spotkać z badaniami (Np. zobacz R. Rak, Ilościowe charakterystyki fluktuacji i korelacji na polskim rynku akcji), z których wynika, że rozkład Levy'ego nie jest odpowiednim rozkładem dla giełd. W powyżej sformułowanym twierdzeniu widać, że zmienne muszą być niezależne od siebie. Dziś wiemy, że jest to nie do końca prawda. Korelacje mogą być nawet nie do wykorzystania, gdy uwzględni się koszty prowizji, jednak sam ich wpływ na rozkłady będzie się kumulował. Faktycznie nawet po odjęciu prowizji występowanie pamięci długoterminowej (a także krótkoterminowej) wpływa na postać rozkładów.

W ostatnich latach udało się uogólnić rozkład Levy'ego na rozkład q-Gaussa. Są to rzeczywiście bardzo ogólne rozkłady, które potrafią uwzględnić uogólnione skończone wariancje oraz zmienne skorelowane. Powstały już nawet prace naukowe, w których dowodzi się istnienia uogólnionego centralnego twierdzenia granicznego, zgodnie z którym zmienne dążą do rozkładu q-Gaussa.

Ale rzeczywistość jak zwykle nie przestaje zadziwiać. Wyprowadzono bowiem grupę procesów stochastycznych, które mają rozkład Levy'ego, a jednocześnie zawierają długą pamięć. Podobnie jak ułamkowe ruchy Browna mają rozkład Gaussa, tak ułamkowe ruchy Levy'ego mają rozkład Levy'ego. Możliwe, że ułamkowe ruchy Levy'ego ściśle wiążą się z rozkładem q-Gaussa, choć na razie nic mi o tym nie wiadomo.

Źródło:

1. R. Rak, Ilościowe charakterystyki fluktuacji i korelacji na polskim rynku akcji, 2008
2. J. P. Nolan, Stable Distributions. Models for Heavy Tailed Data, 2009

sobota, 29 maja 2010

Jak rozumieć długą pamięć?

Musimy wreszcie lepiej się przyjrzeć pojęciu pamięci długoterminowej. Wiemy, że jej istnienie wiąże się z trendem. Wspomniałem już jednak wcześniej, że czasu trwania długiej pamięci nie można utożsamiać z długością trendu. Na czym więc polega jej zjawisko?

Można podejść do tego problemu od czysto matematycznego punktu widzenia. Podejście to pozwala zauważyć ścisłą zależność pomiędzy fraktalnością procesu a długą pamięcią. Zrozumielibyśmy wówczas, że długa pamięć nierozerwalnie wiąże się z fraktalami. Doskonale zaczęlibyśmy czuć różnicę pomiędzy trendem (jako dryfem) a długą pamięcią.

Na początek jednak lepiej zacząć od intuicji i przykładów graficznych.

1. Funkcja liniowa



Oto wykres analizy R/S:



Tutaj H = 0.994. Nie może być nic innego - każda kolejna zmiana wartości ma ten sam znak co poprzednia.

2. Funkcja sinus





Dla sinus dostałem H = 0.936 dla całego okresu. A więc zauważmy co się dzieje. Funkcja wydaje się przecież antypersystentna. Dlaczego więc analiza R/S wychwytuje długą pamięć? Żeby to zrozumieć powinniśmy wrócić do wzoru na wariancję i odchylenie standardowe ułamkowego ruchu Browna:



Odchylenie standardowe jest po prostu średnią drogą, jaką pokonuje jakaś cecha zmiennej. Wynika z tego, że im większe H, tym dłuższa jest ta droga. Wiemy, że dla błądzenia przypadkowego H = 0,5. Dla naszego przypadku H = 0,93 oznacza, że średnio zmienna pokonuje dłuższą drogę niż błądzenie losowe. Jeśli zaczniemy powiększać wykres funkcji sinus, zobaczymy, że rzeczywiście tak jest. W dowolnie małym otoczeniu dowolnego punktu kolejna wartość funkcji przyjmie ten sam znak co poprzednia wartość - z bardzo dużym prawdopodobieństwem. To prawdopodobieństwo równałoby się jeden, gdyby nie występujące minima i maksima. Ile wynosi to prawdopodobieństwo? Można powiedzieć, że właśnie H = 0,936. Nie jest to jednak taka oczywista odpowiedź, nie wynika bowiem z definicji prawdopodobieństwa, lecz następujących spostrzeżeń.

Na H powinniśmy patrzeć jak na miarę zmienności. Jeśli w danym czasie ma być pokonana dłuższa droga, to wykres po prostu musi być mniej postrzępiony, a więc mniej zmienny. Jeżeli jednak ma być mniej zmienny, to znaczy, że kolejna zmiana wartości zmiennej z większą szansą będzie miała ten sam znak co poprzednia.

Na przedstawionym wykresie log(R/S) zauważamy, że następuje w pewnym momencie załamanie się linii. Od tego miejsca pamięć długoterminowa szybko zanika, tak że proces staje się wręcz antypersystentny. Dlaczego jednak tak się dzieje, skoro przed chwilą powiedzieliśmy, że w dowolnie małym otoczeniu punktu proces jest prawie zawsze persystentny? Poprzedni wzór na wariancję - również to widzieliśmy - można przedstawić jako:



t > 0, t > s.

Możemy więc analizować różne przedziały drogi od s do t, w której s jest jakimś opóźnieniem. Na wykresie log(R/S) przedziały te są zaznaczone są literką n. I tak dla n = 758 długa pamięć się załamuje. Co to oznacza? Oznacza to, że w takim przedziale proces pokonuje dłuższą drogę niż błądzenie przypadkowe, a w dłuższym przedziale już nie.

Popatrzmy na wykres sinus. Zauważmy, że cykl pamięci kończy się nie w momencie gdy następuje załamanie kierunku - zmiana trendu - ale w momencie, gdy funkcja "przechodzi" cały cykl wzrostów i spadków (n=758). W rzeczywistości nie ma znaczenia od którego punktu startujemy: dopiero gdy sinus pokona nieco ponad cały cykl, wówczas proces staje się antyuporczywy.

Uporczywość istnieje pomimo zmiany trendu, ponieważ błądzenie przypadkowe "nie nadąża" za sinusem, co wynika z większej wariancji, czyli większego H dla sinus. Dopiero kiedy analiza R/S wykrywa, że sinus znowu zaczyna zmieniać kierunek, co u nas wychodzi po punkcie 758, zaczyna "chwytać" powroty do średniej częstsze niż powroty występujące w błądzeniu przypadkowym, co sygnalizuje antyuporczywością.

3. Dla porównania, weźmy bardzo antypersystentną funkcję złożoną jedynie z punktów 1 i 3 (połączonych linią prostą):





Dostajemy H = 0,06. Tutaj jest odwrotnie, ponieważ kolejne zmiany są przeciwnego znaku, dlatego też prawdopodobieństwo warunkowe kontynuacji danego znaku jest bliskie zera.

4. Weźmy przekształcenie sinus:





H = 0,98

Długa pamięć tutaj zanika bardzo wolno z powodu "silnej" gładkości funkcji. Dopiero po 4788 obserwacjach wykres staje się słabo persystentny.

5. Inne przekształcenie sinus





H = 0,665 dla całego okresu. Jednak do punktu załamania H = 1,026. Czas pamięci wynosi n = 158.

Przyjrzyjmy się bliżej temu punktowi:



Przykład ten jest interesujący ponieważ dowodzi, że długa pamięć nie wiąże się z samą cyklicznością funkcji. Przedstawiona wyżej funkcja jest idealnie cykliczna, jednak analiza R/S wychwytuje krótszy okres tej pamięci niż wynosi cykl funkcji.

Jednakże jest to całkowicie poprawny wynik, bowiem funkcja zaczyna powracać do średniej średnio po 158 obserwacjach.

6. Funkcja quasiperiodyczna. Wreszcie najciekawsze, bowiem taka funkcja jest już bardzo bliska chaosowi deterministycznemu.





H = 0,783, E(H) = 0,55, sqrt(1/N) = 0,018, H - E(H) = 0,229 > 0,018

W tym przypadku H jest już na poziomie H dla kursów giełdowych (miesięcznych stóp zwrotu).

Powiększmy ten fragment gdzie przedział n = 199 zawiera długą pamięć, a po nim zaczyna ona zanikać.



Pamiętajmy, że n jest jedynie przedziałem, w którym zmienna pokonuje drogę. Możemy więc punkt startu tego przedziału dowolnie przesuwać, ale sam zakres n musi pozostać stały. I właśnie W TYM ZAKRESIE długa pamięć zostaje wykryta. Przy zwiększeniu n następuje powrót do średniej, tak że proces staje się antyuporczywy.

Ale zwróćmy uwagę, że okres tej pamięci jest jedynie przeciętny. Nigdy nie odgadniemy czy to początek, środek czy koniec okresu spadków lub wzrostów. Jeśli to pojmiemy, to pojmiemy też, że giełda nawet podczas trwania trendu i wykrycia w tym okresie długoterminowej pamięci, jest nieprzewidywalna w tym okresie.

Jedynie co można przewidzieć, to to, że ten sam znak kolejnych zmian obserwacji jest bardziej prawdopodobny niż przeciwny. Jest tak dlatego, że zmienna musi pokonać dłuższą drogę niż błądzenie przypadkowe.

Jeszcze inaczej. Pomimo że trend jest nieprzypadkowy, to tak naprawdę jest... losowy. Innymi słowy długość trendu jest losowa. Każdy kolejny ząbek może być tym ostatnim tylko dlatego, że bierzemy pod uwagę średnią. Może być tak, iż dany trend właśnie osiąga maksimum lub minimum, choć w całym zakresie równym n - a więc w uśrednieniu - kolejny wzrost lub kolejny spadek jest bardziej prawdopodobny.

Ponieważ jednak kolejna obserwacja jest zależna od poprzedniej w tym sensie, że droga staje się dłuższa niż droga błądzenia losowego, to ta obserwacja jest również zależna od wcześniejszych obserwacji, a zatem droga staje się dłuższa od błądzenia losowego w całym przedziale n dopóki analiza R/S wyczuwa długą pamięć.

Nawet więc jeśli następuje silne załamanie, to ponieważ wcześniej droga była dłuższa niż błądzenia przypadkowego, to ma ona jeszcze "zapas" i dopóki nie będzie intensywniejszych powrotów do średniej, proces będzie uznawany za persystentny.

7. Wykres giełdowy S&P500: obserwacje miesięczne od 1933 (odfiltrowana inflacja)





Do momentu utraty pamięci H = 0,787; E(H) = 0,604. Pamięć średnio kończy się po 42 miesiącach. Oznacza to tyle, że hossa lub bessa była tak silna, że nawet gdy następuje odwrócenie trendu, kurs nadal w danym przedziale pokonuje więcej drogi niż błądzenie przypadkowe. I w tym sensie prawdopodobieństwo (uśrednione), że wzrost lub spadek będzie kontynuowany wynosi ok 0,69. Nie możemy uznać, że wynosi 0,79, gdyż wartość oczekiwana wynosi 0,6, a nie 0,5, więc zmniejszam H o 0,1. Natomiast powrót do średniej i zmiana trendu w końcu powoduje, że proces zostaje uznany za błądzenie przypadkowe. Następuje to przeciętnie po 42 miesiącach.

Stopniowo zaczynamy dostrzegać, że nie ma tu żadnych czarów. Wiemy czym jest średnia. Dokładnie tak jak w tym żarcie o psie i trzech nogach. Chaos na giełdzie po prostu skłania nas do przyjęcia koncepcji ułamkowej efektywności rynku.