środa, 7 września 2011

Bombowa giełda (i trochę o pochodnej ułamkowej)

Kilka tygodni temu światowym giełdom, w tym oczywiście naszej, przydarzyła się "mała" katastrofa, która zmiotła z powierzchni ziemi ostatni rok hossy:



Małe spółki zostały natomiast kompletnie zmiażdżone, bo sierpniowa hekatomba zniosła niemal cały dwuletni rynek byka:



I co najlepsze, wczoraj znowu giełda panicznie spadała.

Najważniejsze na dziś pytanie brzmi czy to co się stało i dzieje nadal to jedynie mocny:

TEST BOMBY

Niezależnie od tego czy mamy do czynienia jedynie z testem czy faktyczną bessą, dopóki giełda będzie podlegała długozasięgowym, nieliniowym autokorelacjom, krach będzie miał daleki wpływ na przyszłość. Ale czy rzeczywiście nasza giełda podlega takim prawom pamięci? Znanym wskaźnikiem występowania pamięci długoterminowej jest wykładnik Hursta. W rzeczywistości metoda jego obliczania powinna być odpowiednio zmodyfikowana dla rozkładu Levy'ego lub przynajmniej t-Studenta. Możemy przecież sobie wyobrazić co się dzieje, gdy następuje potężna fala spadkowa niemożliwa do uzasadnienia dla rozkładu Gaussa. Nawet jeśli fala ta była całkowicie przypadkowa, a po niej kolejne zmiany będą także całkowicie przypadkowe, to całkowity ruch (fala spadkowa + dalsze zmiany) będzie większy niż dla r. Gaussa.

Zamiast obliczać wykładnik Hursta można obliczyć pochodną ułamkową związaną z modelem ARFIMA. ARFIMA(p,d,q) jest uogólnieniem ARIMA(p,d,q). W przypadku ARIMA rząd różnicowania d jest liczbą całkowitą, natomiast w ARFIMA jest liczbą rzeczywistą. Jeśli pochodna ułamkowa d zawiera się w przedziale (0,1/2), mamy do czynienia z pamięcią długoterminową dla procesów stacjonarnych. Jeśli d jest w przedziale (-1/2,0), proces jest antypersystentny. Pochodna ułamkowa jest ściśle związana z wykładnikiem Hursta o czym już tutaj kiedyś dokładnie pisałem.

Drugi problem jest taki, że w danych może jeszcze siedzieć wariancja o pamięci długoterminowej (lub anty-długiej). Proces taki w połączeniu z GARCH nazywa się FIGARCH. Jeśli pochodna ułamkowa znajdzie się w przedziale (0,1/2), pamięć jest "długa" dla stacjonarnych procesów. Jeśli w procesie pojawiła się duża wariancja, to będzie ona "zapamiętana", tak że w przyszłości także będzie się pojawiać. Jeśli w przedziale (-1/2,0) - pamięć jest "anty-długa". Należy wtedy się spodziewać, że po dużej wariancji przyjdzie mniejsza.

Dwa opisane procesy można połączyć w jeden. Nazywa się wtedy ARFIMA-FIGARCH.

Pochodna ułamkowa jest narzędziem matematycznym używanym w różnych dziedzinach, np. do opisu własności mechaniki kwantowej. Z wikipedii:

Stan splątany — rodzaj skorelowanego stanu kwantowego dwóch lub więcej cząstek lub innych układów kwantowych. Posiada on niemożliwą w fizyce klasycznej cechę polegającą na tym, że stan całego układu jest lepiej określony niż stan jego części.


I tak np. dwie cząstki znajdujące się w dowolnie odległych od siebie miejscach we wszechświecie mogą być od siebie zależne, stanowić jeden układ. Jest to typowa dla mechaniki kwantowej nielokalność, z którą w żaden sposób nie mógł się pogodzić Einstein, i którą nazywał on „tajemniczym działaniem na odległość”.

Przykład ten dobrze ilustruje na czym polega "długa" pamięć. Czas nie jest ograniczeniem, podobnie jak dla tych cząstek ograniczeniem nie jest przestrzeń. Dane stanowią w pewnym sensie jeden układ. Oczywiście jest to tylko pewna ilustracja, gdyż procesy które omawiamy są stochastyczne.

Dane objęły lata połowa 1994-połowa 2011. Badanie sprawdzało hipotezę istnienia ARFIMA-FIGARCH dla rozkładu t-Studenta w indeksach WIG i sWIG80.
Okazuje się, że to czy w naszych danych znajdziemy długą pamięć w stopach zwrotu zależy od tego który WIG badamy.

Dla indeksu szerokiego rynku, w dziennych stopach zwrotu nie znajdziemy długiej pamięci zarówno dla nich samych jak i ich wariancji. Jednak tygodniowe stopy zwrotu, choć same nie zawierają długiej pamięci, to ich wariancje już tak - wynosi ona 0,72. Ponieważ jest to więcej niż 0,5, to znaczy, że wariancje te są niestacjonarnym procesem.

Dla indeksu małych spółek (sWIG80) sytuacja przedstawia się interesująco. Dzienne stopy zwrotu posiadają istotną długą pamięć, gdzie d = 0,113. Zwrócę tylko uwagę, że wartość d jest niezależna od zwykłego AR (AR1 równa się tu 0,06, jest istotny). AR to autoregresja liniowa. Długa pamięć nie jest liniowa i nie jest wyrażona w parametrach regresji. Długa pamięć występuje również w wariancjach i wynosi 0,17.
Jeszcze ciekawsze wyniki dostajemy dla tygodniowych danych. W stopach zwrotu długa pamięć równa się ok. 0,174, zaś w wariancjach 0,196.

Armageddon jaki mieliśmy okazję oglądać będzie miał istotne negatywne konsekwencje dla małych spółek w bliższej i dalszej przyszłości, zarówno pomiędzy dziennymi jak i tygodniowymi obserwacjami. Oczywiście sWIG80 będzie się zachowywał podobnie jak WIG, lecz długość ruchu może mieć "własną". Z drugiej strony należy jednak pamiętać, że każdy dodatni impuls będzie również się kumulował i po jakimś czasie ujemny może zostać całkowicie zniwelowany.

Długa pamięć stóp zwrotu może być również znakiem dla analityków technicznych, mianowicie po przebiciu linii trendu (wsparcia/oporu) kurs z większym prawdopodobieństwem będzie poruszać się przez jakiś czas w nowym kierunku. Można postawić hipotezę, że AT wsparć i oporów lepiej nadaje się do wykresów akcji małych spółek. Należy jednak przy tym pamiętać, że indeks nie odzwierciedla pojedynczych akcji.

czwartek, 1 września 2011

Korelacja nieparametryczna jako narzędzie wykrywania trudnych korelacji

Spójrzmy na poniższy wykres rozrzutu obrazujący relację pomiędzy rocznymi procentowymi zmianami nominalnego zysku SP 500 (tj. zysku firm ważonego proporcjonalnie do ich kapitalizacji w indeksie SP 500) - pionowo, a rocznymi procentowymi zmianami nominalnego PKB USA - poziomo, w okresie od 1q 1989 do 4q 2010, z krokiem równym 1 kwartał (tj. odległość pomiędzy dwiema obserwacjami wynosi 1 kwartał):



(Ponieważ zastosowano tutaj kwartalny krok obserwacji, zależność przedstawia się trochę inaczej niż dla kroku rocznego, jaką można było obserwować w poprzednich dwóch postach. Grafika wskazuje bowiem większą zależność dodatnią.)

Pomimo, że korelacja nie odznacza się dużą siłą, niemniej intuicyjnie wydaje się, iż ona istnieje. Okazuje się jednak, że współczynnik korelacji Pearsona wynosi jedynie 0,15 i jest nieistotny statystycznie. Podobnie regresja liniowa jest nieistotna.

Powstaje pytanie czy graficzna korelacja stanowi złudzenie czy też współczynnik korelacji Pearsona zawodzi? Pytanie to jest trochę filozoficzne, bo w statystyce/ekonometrii podobnie jak w naukach mniej ścisłych dużą rolę odgrywa interpretacja. Wiele punktów leży na linii poziomej i za nachylenie dużą odpowiedzialność biorą obserwacje odstające. Z drugiej strony nawet jeśli w umyśle usuniemy te odstające, nadal widzimy, że lekka dodatnia korelacja występuje. Dlaczego więc współczynnik korelacji Pearsona zawodzi? Dzieje się tak prawdopodobnie z powodu występowania kilku obserwacji odstających (druga możliwość to zbyt niskie nachylenie). Przypomnijmy, że korelacja Pearsona jest liniowa, a więc zbyt odległe obserwacje lub nadmiar obserwacji odstających psuje średni rozkład obserwacji wokół linii prostej (tj. wokół wartości oczekiwanej), tak że następuje sztuczne zaniżenie korelacji.

Problem obserwacji odstających w analizie korelacji został już dawno temu zauważony przez badaczy, m.in. Charlesa Spearmana, który zaproponował, aby w trudnych przypadkach (korelacji niskiej jakości) wykonać najpierw tzw. rangowanie, czyli zastąpienie każdej zaobserwowanej wartości przez jej numer w zbiorze posortowanym rosnąco, a następnie obliczyć zwykły współczynnik korelacji liniowej Pearsona z tych rang. W ten sposób powstał współczynnik korelacji rang Spearmana, który przekształca monotoniczną zależność nieliniową w liniową. W wikipedii zostało to zilustrowane filmikiem:

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana zawiera się oczywiście w przedziale <-1,1>, bo jest to po prostu współczynnik korelacji Pearsona dla rang zmiennych.

Warto zauważyć, że korelacja rang Spearmana może być użyta także do obliczania korelacji pomiędzy zmiennymi jakościowymi, których obserwacje można porangować. Np. mamy dwie zmienne - pierwsza to jakość usług danej firmy, druga to rentowność netto (zysk netto podzielony przez przychód, czyli mówiąc krótko mierzy ile przychód generuje zysku). Firm mamy tyle co obserwacji. Rangujemy dane pierwszej zmiennej:

*niska jakość usług (firmy A) - 1,
*wyższa jakość (firmy B) - 2,
*wysoka jakość (firmy C) - 3,
*bardzo wysoka jakość (firmy D) - 4

Mamy ustawienie rang:
1,2,3,4

Rangujemy dane drugiej zmiennej - rentowność netto wyrażoną w procencie:
*do x1% - 1,
* do x2% - 2,
* do x3% - 3
* do x4% - 4

Obserwacja wskazała, że firmie o niskiej jakości (1) odpowiadała niska marża (1). Firmie o wyższej jakości (2) odpowiadała marża (3) (a nie 2). Wysokiej jakości (3) odpowiadała marża (2). Bardzo wysokiej jakości (4) towarzyszyła marża (4). Wynika z tego, że ustawienie rang dla drugiej zmiennej jest następujące:

1,3,2,4

Porównujemy ustawienia rang:

1,2,3,4
1,3,2,4

Rzecz się sprowadza do odejmowania rang: 1-1 = 0, 2-3 = -1, 3-2 = 1, 4-4 = 0. Każdą różnicę podnosimy do kwadratu, stąd otrzymujemy:

0, 1, 1, 0

Sumujemy je, czyli suma = 2.

Wzór na korelację Spearmana (najczęściej stosowany) sprowadza się do postaci:



gdzie d - to różnica pomiędzy odpowiednimi rangami, n - liczba obserwacji

Czyli

R = 1 - 6*2/60 = 0,8.

Sprawdzamy więc jak rangi obydwu zmiennych do siebie pasują. Jeśli rangi jakości usług będzie odpowiadać proporcjonalnie rangom marży, czyli 1-1, 2-2 itd. wówczas wykres rang będzie nachylony pod kątem 45 stopni, co oznacza korelację równą 1. Jeśli rangi będą ustawiać się odwrotnie proporcjonalnie, wówczas korelacja wyniesie -1. Stopień dopasowania rang to właśnie korelacja rang Spearmana.

W naszym przypadku (stopa wzrostu zysku SP 500 vs. stopa wzrostu PKB USA) korelacja Spearmana wynosi 0,358 i jest istotna statystycznie.

Należy zauważyć, że, jak sama nazwa wskazuje, jest to korelacja rang a nie samych zmiennych. Rangi są pewną ideą, przekształceniem wartości zmiennych. Jest to więc koncepcja intuicyjna, ale nie jedyna możliwa.

Drugą znaną miarą korelacji rangowej (czyli zastępującą bezpośrednią korelację zmiennych) jest mniej intuicyjna tzw. Tau Kendalla. Miara opiera się na ustawieniach rang. Weźmy poprzedni przykład ze zmienną "jakość usług" oraz "marża netto". Mamy następujące rangi dla pierwszej zmiennej:

*niska jakość usług (firmy A) - 1,
*wyższa jakość (firmy B) - 2,
*wysoka jakość (firmy C) - 3,
*bardzo wysoka jakość (firmy D) - 4

Jest więc ustawienie rang:
1,2,3,4

Możemy to ustawienie rang zdekomponować w pary w następującej kolejności:

P1 = {[1,2], [1,3], [1,4], [2,3], [2,4], [3,4]}

Ustawienie to nazywamy ustawieniem par rang.

Rangi dla drugiej zmiennej:
*do x1% - 1,
* do x2% - 2,
* do x3% - 3
* do x4% - 4

Analiza wskazała, że firmie o niskiej jakości (1) odpowiadała niska marża (1). Firmie o wyższej jakości (2) odpowiadała marża (3) (a nie 2). Wysokiej jakości (3) odpowiadała marża (2). Bardzo wysokiej jakości (4) towarzyszyła marża (4). Wynika z tego, że ustawienie rang dla drugiej zmiennej jest następujące:

1,3,2,4

Możemy to ustawienie zdekomponować w pary, czyli w ustawienie par, w następującej kolejności:

P2 = {[1,3], [1,2], [1,4], [3,2], [3,4], [2,4]}

Porównajmy obydwa ustawienia par:

P1 = {[1,2], [1,3], [1,4], [2,3], [2,4], [3,4]}
P2 = {[1,3], [1,2], [1,4], [3,2], [3,4], [2,4]}

Odejmujemy od siebie te pary, które są identyczne. Jak widać są tylko dwie pary które nie są identyczne. Są to:

[2,3],[3,2]

Różnica to 2 pary. Ponieważ wzór na Tau Kendalla jest następujący:



gdzie P1 to po prostu ustawienia par dla zmiennej 1, podobnie P2, d to ich różnica oraz N to liczba obserwacji, więc tau Kendalla wynosi:



Jest więc niższy niż R Spearmana.

Im więcej różnic pomiędzy ustawieniami par, tym mniejsza korelacja. Warto zauważyć, że w metodzie tej tworzymy kombinacje ustawień par, a więc tau Kendalla może być rozpatrywane w kategoriach prawdopodobieństwa. Wiemy, że entropia układu jest tym większa im więcej istnieje możliwości ustawień zmiennych. Dokładniej ujmując, współczynnik tau Kendalla opiera się na różnicy między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym porządku w obrębie obserwowanych danych a prawdopodobieństwem, że ich uporządkowanie się różni.

W naszym przypadku korelacja tau Kendalla pomiędzy zmianami zysku SP 500 a zmianami PKB wynosi 0.238 i jest istotna statystycznie. Jednakże znów jest niższy niż R Spearmana. Prawdopodobieństwo, że zmienne będą leżeć w tym samym porządku nie jest zbyt wielkie.

Inną jeszcze miarą korelacji rangowej jest tzw. gamma. Pod względem interpretacji i obliczania jest bardziej podobna do współczynnika tau Kendalla. Krótko mówiąc, współczynnik gamma opiera się również na prawdopodobieństwie, tyle że jest zalecany w przypadkach, gdy dane zawierają wiele powiązanych obserwacji (tzn. obserwacji o takich samych wartościach).

W rozpatrywanym przykładzie korelacji zmian zysków SP 500 i zmian PKB gamma wynosi 0,256 jest również istotna.


Ponieważ koncepcja korelacji rangowej sama w sobie nie zakłada znajomości rozkładu i parametrów rozkładu analizowanych zmiennych, dlatego też metody korelacji rangowych nazywane są nieparametrycznymi. W przypadku korelacji Pearsona wariancja i wartość oczekiwana muszą być znane. Stąd należy do korelacji parametrycznych. Jak dobrze wiemy samo określenie wariancji może być zgubne dla rozkładów rynków finansowych. Tak więc korelacji nieparametrycznych można używać w wielu przypadkach: gdy mamy do czynienia z obserwacjami silnie odstającymi, gdy rozkład posiada nieskończoną wariancję (brak rozkładu normalnego) oraz dla zmiennych jakościowych.

Literatura:

1. Hervé Abdi, The Kendall Rank Correlation Coefficient, 2007
2. http://www.statistica.pl
3. http://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_rang_Spearmana

P.S. Bieżąca analiza niezbicie dowodzi, że zyski firm z indeksu i PKB są skorelowane, zatem fakt, iż giełda silnie reaguje na dane makroekonomiczne można uznać za racjonalne. Pytanie czy reakcja nie jest zbyt gwałtowna pozostaje na razie otwarte.