Spójrzmy na poniższy wykres rozrzutu obrazujący relację pomiędzy rocznymi procentowymi zmianami nominalnego zysku SP 500 (tj. zysku firm ważonego proporcjonalnie do ich kapitalizacji w indeksie SP 500) - pionowo, a rocznymi procentowymi zmianami nominalnego PKB USA - poziomo, w okresie od 1q 1989 do 4q 2010, z krokiem równym 1 kwartał (tj. odległość pomiędzy dwiema obserwacjami wynosi 1 kwartał):
(Ponieważ zastosowano tutaj kwartalny krok obserwacji, zależność przedstawia się trochę inaczej niż dla kroku rocznego, jaką można było obserwować w poprzednich dwóch postach. Grafika wskazuje bowiem większą zależność dodatnią.)
Pomimo, że korelacja nie odznacza się dużą siłą, niemniej intuicyjnie wydaje się, iż ona istnieje. Okazuje się jednak, że współczynnik korelacji Pearsona wynosi jedynie 0,15 i jest nieistotny statystycznie. Podobnie regresja liniowa jest nieistotna.
Powstaje pytanie czy graficzna korelacja stanowi złudzenie czy też współczynnik korelacji Pearsona zawodzi? Pytanie to jest trochę filozoficzne, bo w statystyce/ekonometrii podobnie jak w naukach mniej ścisłych dużą rolę odgrywa interpretacja. Wiele punktów leży na linii poziomej i za nachylenie dużą odpowiedzialność biorą obserwacje odstające. Z drugiej strony nawet jeśli w umyśle usuniemy te odstające, nadal widzimy, że lekka dodatnia korelacja występuje. Dlaczego więc współczynnik korelacji Pearsona zawodzi? Dzieje się tak prawdopodobnie z powodu występowania kilku obserwacji odstających (druga możliwość to zbyt niskie nachylenie). Przypomnijmy, że korelacja Pearsona jest liniowa, a więc zbyt odległe obserwacje lub nadmiar obserwacji odstających psuje średni rozkład obserwacji wokół linii prostej (tj. wokół wartości oczekiwanej), tak że następuje sztuczne zaniżenie korelacji.
Problem obserwacji odstających w analizie korelacji został już dawno temu zauważony przez badaczy, m.in. Charlesa Spearmana, który zaproponował, aby w trudnych przypadkach (korelacji niskiej jakości) wykonać najpierw tzw. rangowanie, czyli zastąpienie każdej zaobserwowanej wartości przez jej numer w zbiorze posortowanym rosnąco, a następnie obliczyć zwykły współczynnik korelacji liniowej Pearsona z tych rang. W ten sposób powstał współczynnik korelacji rang Spearmana, który przekształca monotoniczną zależność nieliniową w liniową. W wikipedii zostało to zilustrowane filmikiem:
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Spearmana zawiera się oczywiście w przedziale <-1,1>, bo jest to po prostu współczynnik korelacji Pearsona dla rang zmiennych.
Warto zauważyć, że korelacja rang Spearmana może być użyta także do obliczania korelacji pomiędzy zmiennymi jakościowymi, których obserwacje można porangować. Np. mamy dwie zmienne - pierwsza to jakość usług danej firmy, druga to rentowność netto (zysk netto podzielony przez przychód, czyli mówiąc krótko mierzy ile przychód generuje zysku). Firm mamy tyle co obserwacji. Rangujemy dane pierwszej zmiennej:
*niska jakość usług (firmy A) - 1,
*wyższa jakość (firmy B) - 2,
*wysoka jakość (firmy C) - 3,
*bardzo wysoka jakość (firmy D) - 4
Mamy ustawienie rang:
1,2,3,4
Rangujemy dane drugiej zmiennej - rentowność netto wyrażoną w procencie:
*do x1% - 1,
* do x2% - 2,
* do x3% - 3
* do x4% - 4
Obserwacja wskazała, że firmie o niskiej jakości (1) odpowiadała niska marża (1). Firmie o wyższej jakości (2) odpowiadała marża (3) (a nie 2). Wysokiej jakości (3) odpowiadała marża (2). Bardzo wysokiej jakości (4) towarzyszyła marża (4). Wynika z tego, że ustawienie rang dla drugiej zmiennej jest następujące:
1,3,2,4
Porównujemy ustawienia rang:
1,2,3,4
1,3,2,4
Rzecz się sprowadza do odejmowania rang: 1-1 = 0, 2-3 = -1, 3-2 = 1, 4-4 = 0. Każdą różnicę podnosimy do kwadratu, stąd otrzymujemy:
0, 1, 1, 0
Sumujemy je, czyli suma = 2.
Wzór na korelację Spearmana (najczęściej stosowany) sprowadza się do postaci:
gdzie d - to różnica pomiędzy odpowiednimi rangami, n - liczba obserwacji
Czyli
R = 1 - 6*2/60 = 0,8.
Sprawdzamy więc jak rangi obydwu zmiennych do siebie pasują. Jeśli rangi jakości usług będzie odpowiadać proporcjonalnie rangom marży, czyli 1-1, 2-2 itd. wówczas wykres rang będzie nachylony pod kątem 45 stopni, co oznacza korelację równą 1. Jeśli rangi będą ustawiać się odwrotnie proporcjonalnie, wówczas korelacja wyniesie -1. Stopień dopasowania rang to właśnie korelacja rang Spearmana.
W naszym przypadku (stopa wzrostu zysku SP 500 vs. stopa wzrostu PKB USA) korelacja Spearmana wynosi 0,358 i jest istotna statystycznie.
Należy zauważyć, że, jak sama nazwa wskazuje, jest to korelacja rang a nie samych zmiennych. Rangi są pewną ideą, przekształceniem wartości zmiennych. Jest to więc koncepcja intuicyjna, ale nie jedyna możliwa.
Drugą znaną miarą korelacji rangowej (czyli zastępującą bezpośrednią korelację zmiennych) jest mniej intuicyjna tzw. Tau Kendalla. Miara opiera się na ustawieniach rang. Weźmy poprzedni przykład ze zmienną "jakość usług" oraz "marża netto". Mamy następujące rangi dla pierwszej zmiennej:
*niska jakość usług (firmy A) - 1,
*wyższa jakość (firmy B) - 2,
*wysoka jakość (firmy C) - 3,
*bardzo wysoka jakość (firmy D) - 4
Jest więc ustawienie rang:
1,2,3,4
Możemy to ustawienie rang zdekomponować w pary w następującej kolejności:
P1 = {[1,2], [1,3], [1,4], [2,3], [2,4], [3,4]}
Ustawienie to nazywamy ustawieniem par rang.
Rangi dla drugiej zmiennej:
*do x1% - 1,
* do x2% - 2,
* do x3% - 3
* do x4% - 4
Analiza wskazała, że firmie o niskiej jakości (1) odpowiadała niska marża (1). Firmie o wyższej jakości (2) odpowiadała marża (3) (a nie 2). Wysokiej jakości (3) odpowiadała marża (2). Bardzo wysokiej jakości (4) towarzyszyła marża (4). Wynika z tego, że ustawienie rang dla drugiej zmiennej jest następujące:
1,3,2,4
Możemy to ustawienie zdekomponować w pary, czyli w ustawienie par, w następującej kolejności:
P2 = {[1,3], [1,2], [1,4], [3,2], [3,4], [2,4]}
Porównajmy obydwa ustawienia par:
P1 = {[1,2], [1,3], [1,4], [2,3], [2,4], [3,4]}
P2 = {[1,3], [1,2], [1,4], [3,2], [3,4], [2,4]}
Odejmujemy od siebie te pary, które są identyczne. Jak widać są tylko dwie pary które nie są identyczne. Są to:
[2,3],[3,2]
Różnica to 2 pary. Ponieważ wzór na Tau Kendalla jest następujący:
gdzie P1 to po prostu ustawienia par dla zmiennej 1, podobnie P2, d to ich różnica oraz N to liczba obserwacji, więc tau Kendalla wynosi:
Jest więc niższy niż R Spearmana.
Im więcej różnic pomiędzy ustawieniami par, tym mniejsza korelacja. Warto zauważyć, że w metodzie tej tworzymy kombinacje ustawień par, a więc tau Kendalla może być rozpatrywane w kategoriach prawdopodobieństwa. Wiemy, że entropia układu jest tym większa im więcej istnieje możliwości ustawień zmiennych. Dokładniej ujmując, współczynnik tau Kendalla opiera się na różnicy między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym porządku w obrębie obserwowanych danych a prawdopodobieństwem, że ich uporządkowanie się różni.
W naszym przypadku korelacja tau Kendalla pomiędzy zmianami zysku SP 500 a zmianami PKB wynosi 0.238 i jest istotna statystycznie. Jednakże znów jest niższy niż R Spearmana. Prawdopodobieństwo, że zmienne będą leżeć w tym samym porządku nie jest zbyt wielkie.
Inną jeszcze miarą korelacji rangowej jest tzw. gamma. Pod względem interpretacji i obliczania jest bardziej podobna do współczynnika tau Kendalla. Krótko mówiąc, współczynnik gamma opiera się również na prawdopodobieństwie, tyle że jest zalecany w przypadkach, gdy dane zawierają wiele powiązanych obserwacji (tzn. obserwacji o takich samych wartościach).
W rozpatrywanym przykładzie korelacji zmian zysków SP 500 i zmian PKB gamma wynosi 0,256 jest również istotna.
Ponieważ koncepcja korelacji rangowej sama w sobie nie zakłada znajomości rozkładu i parametrów rozkładu analizowanych zmiennych, dlatego też metody korelacji rangowych nazywane są nieparametrycznymi. W przypadku korelacji Pearsona wariancja i wartość oczekiwana muszą być znane. Stąd należy do korelacji parametrycznych. Jak dobrze wiemy samo określenie wariancji może być zgubne dla rozkładów rynków finansowych. Tak więc korelacji nieparametrycznych można używać w wielu przypadkach: gdy mamy do czynienia z obserwacjami silnie odstającymi, gdy rozkład posiada nieskończoną wariancję (brak rozkładu normalnego) oraz dla zmiennych jakościowych.
Literatura:
1. Hervé Abdi, The Kendall Rank Correlation Coefficient, 2007
2. http://www.statistica.pl
3. http://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_rang_Spearmana
P.S. Bieżąca analiza niezbicie dowodzi, że zyski firm z indeksu i PKB są skorelowane, zatem fakt, iż giełda silnie reaguje na dane makroekonomiczne można uznać za racjonalne. Pytanie czy reakcja nie jest zbyt gwałtowna pozostaje na razie otwarte.
czwartek, 1 września 2011
poniedziałek, 22 sierpnia 2011
Przeklęta statystyka... zyski a PKB
Liczbom nie wolno ufać. A testom statyst. to już w ogóle. Test korelacji stopa zmian zysku SP 500 a stopa zmian PKB USA najpierw wskazywał, że dla lat 1929-2009 korelacja liniowa wynosi 0,24 i jest istotna. Potem jednak zrobiłem jeszcze raz ten test i się okazało, że wynosi tylko 0,09 i nieistotna. Ale jak to możliwe, że taka różnica powstała? Gdzie błąd zrobiłem? ... No i już wiem. Pierwszy raz test obejmował o jedną obserwację mniej - bez roku 2009. Za drugim razem starałem się dokładniej przeprowadzić test i uwzględniłem 2009. Okazało się, że jedna obserwacja wszystko zmieniła. Dlaczego? To był jeszcze kryzys. W styczniu 2009 roczny zysk wyniósł 13,06. W styczniu 2010 skoczył już do 56,6. To oznaczało stopę wzrostu 333%. Zresztą widać było na załączonym rysunku ostatnie potężne odchylenie (czerwone - stopy zmian zysku, zielone - stopy zmian PKB):
Ta jedna obserwacja zaburzyła cały obraz i zaciemniła korelację. Bez niej macierz korelacji wygląda następująco:
I teraz korelacja wynosi faktycznie 0,24 (i jest istotna). Zresztą nawet wykres stóp obu zmiennych pokazuje pewną zależność, której chyba nie chciałem wcześniej widzieć (tak uwierzyłem liczbom). Regresja liniowa przedstawia się następująco:
-----------------------------------------------------------------------------
Standard T
Parameter / Estimate / Error / Statistic / P-Value
-----------------------------------------------------------------------------
Constant / -0,00353177 / 0,0268156 / -0,131706 / 0,8956
Zmiana% GDP / 0,887495 / 0,405884 / 2,18657 / 0,0318
-----------------------------------------------------------------------------
Bardziej prawidłowy jest jednak model GARCH (dla t-Studenta):
Variable / Coefficient / St. Error / t-statistic / Sign.
1 Constant / 0.0083799675 / 0.021785467 / 0.3846586124 / [0.7016]
2 Zmiana% GDP /0.7179373154 / 0.3551595659 / 2.0214500309 / [0.0468]
3 %arch_const / 0.0017132208 / 0.0011404797 / 1.5021932245 / [0.1373]
4 %garch1 / 0.8917281024 / 0.0581302536 / 15.340172237 / [0.0000]
Wynika z tego, że
E(Stopa zmian zysku SP 500) = 0.72*stopa zmian PKB
Parametr = 0,72 dowodzi, że powyższy model kiepsko wyjaśnia zmienność zysku SP500. W końcu gdy popatrzymy na wykres, to zysk silniej zmienia się niż PKB. Rzeczywiście - współczynnik determinacji to zaledwie 5,47%. Na zysk wpływają więc inne zmienne, których warto byłoby poszukać.
Ponieważ teraz zmienne są od siebie zależne, to nie można konstruować regresji wielorakiej tak jak w poprzednim wpisie ze zmienną objaśnianą jako stopa zwrotu SP 500 i zmiennymi objaśniającymi jako zmiany zysku i PKB (i wygląda na to, że tamta była nieprawdziwa). Oczywiście da się to rozwiązać, ale teraz nie jest to najważniejsze.
Z drugiej strony tym wynikom też nie należy zbyt ufać. Od roku 1933 do 2008 korelacja staje się znów nieistotna.
Podsumowując, trzeba zachować dystans do statystyki. Wygląda na to, że jednak giełda nie jest aż tak nieracjonalna jak sądziłem. Wprawdzie korelacja pomiędzy zmianą PKB a zmianą zysku SP 500 nie jest wielka, ale jednak istnieje, jeśli tylko odjąć dane odstające (co jednak ciągle jest moim zdaniem kontrowersyjne). Wynikałoby z tego, że jeśli rok 2011 upłynie pod znakiem niskiego wzrostu PKB możemy liczyć także w tym roku na niższe wzrosty zysków giełdowych firm. Oby nie był to spadek PKB.
Ale nowy problem się pojawił: gdyby korelację zacząć od 1933 r. to znów staje się nieistotna. Statystyka nie daje więc jednoznacznej odpowiedzi czy istnieje korelacja liniowa. Wygląda na to, że trzeba będzie poszukać bardziej złożonych związków lub faktycznie takowego nie ma.
Ta jedna obserwacja zaburzyła cały obraz i zaciemniła korelację. Bez niej macierz korelacji wygląda następująco:
I teraz korelacja wynosi faktycznie 0,24 (i jest istotna). Zresztą nawet wykres stóp obu zmiennych pokazuje pewną zależność, której chyba nie chciałem wcześniej widzieć (tak uwierzyłem liczbom). Regresja liniowa przedstawia się następująco:
-----------------------------------------------------------------------------
Standard T
Parameter / Estimate / Error / Statistic / P-Value
-----------------------------------------------------------------------------
Constant / -0,00353177 / 0,0268156 / -0,131706 / 0,8956
Zmiana% GDP / 0,887495 / 0,405884 / 2,18657 / 0,0318
-----------------------------------------------------------------------------
Bardziej prawidłowy jest jednak model GARCH (dla t-Studenta):
Variable / Coefficient / St. Error / t-statistic / Sign.
1 Constant / 0.0083799675 / 0.021785467 / 0.3846586124 / [0.7016]
2 Zmiana% GDP /0.7179373154 / 0.3551595659 / 2.0214500309 / [0.0468]
3 %arch_const / 0.0017132208 / 0.0011404797 / 1.5021932245 / [0.1373]
4 %garch1 / 0.8917281024 / 0.0581302536 / 15.340172237 / [0.0000]
Wynika z tego, że
E(Stopa zmian zysku SP 500) = 0.72*stopa zmian PKB
Parametr = 0,72 dowodzi, że powyższy model kiepsko wyjaśnia zmienność zysku SP500. W końcu gdy popatrzymy na wykres, to zysk silniej zmienia się niż PKB. Rzeczywiście - współczynnik determinacji to zaledwie 5,47%. Na zysk wpływają więc inne zmienne, których warto byłoby poszukać.
Ponieważ teraz zmienne są od siebie zależne, to nie można konstruować regresji wielorakiej tak jak w poprzednim wpisie ze zmienną objaśnianą jako stopa zwrotu SP 500 i zmiennymi objaśniającymi jako zmiany zysku i PKB (i wygląda na to, że tamta była nieprawdziwa). Oczywiście da się to rozwiązać, ale teraz nie jest to najważniejsze.
Z drugiej strony tym wynikom też nie należy zbyt ufać. Od roku 1933 do 2008 korelacja staje się znów nieistotna.
Podsumowując, trzeba zachować dystans do statystyki. Wygląda na to, że jednak giełda nie jest aż tak nieracjonalna jak sądziłem. Wprawdzie korelacja pomiędzy zmianą PKB a zmianą zysku SP 500 nie jest wielka, ale jednak istnieje, jeśli tylko odjąć dane odstające (co jednak ciągle jest moim zdaniem kontrowersyjne). Wynikałoby z tego, że jeśli rok 2011 upłynie pod znakiem niskiego wzrostu PKB możemy liczyć także w tym roku na niższe wzrosty zysków giełdowych firm. Oby nie był to spadek PKB.
Ale nowy problem się pojawił: gdyby korelację zacząć od 1933 r. to znów staje się nieistotna. Statystyka nie daje więc jednoznacznej odpowiedzi czy istnieje korelacja liniowa. Wygląda na to, że trzeba będzie poszukać bardziej złożonych związków lub faktycznie takowego nie ma.
Subskrybuj:
Posty (Atom)