Liczbom nie wolno ufać. A testom statyst. to już w ogóle. Test korelacji stopa zmian zysku SP 500 a stopa zmian PKB USA najpierw wskazywał, że dla lat 1929-2009 korelacja liniowa wynosi 0,24 i jest istotna. Potem jednak zrobiłem jeszcze raz ten test i się okazało, że wynosi tylko 0,09 i nieistotna. Ale jak to możliwe, że taka różnica powstała? Gdzie błąd zrobiłem? ... No i już wiem. Pierwszy raz test obejmował o jedną obserwację mniej - bez roku 2009. Za drugim razem starałem się dokładniej przeprowadzić test i uwzględniłem 2009. Okazało się, że jedna obserwacja wszystko zmieniła. Dlaczego? To był jeszcze kryzys. W styczniu 2009 roczny zysk wyniósł 13,06. W styczniu 2010 skoczył już do 56,6. To oznaczało stopę wzrostu 333%. Zresztą widać było na załączonym rysunku ostatnie potężne odchylenie (czerwone - stopy zmian zysku, zielone - stopy zmian PKB):
Ta jedna obserwacja zaburzyła cały obraz i zaciemniła korelację. Bez niej macierz korelacji wygląda następująco:
I teraz korelacja wynosi faktycznie 0,24 (i jest istotna). Zresztą nawet wykres stóp obu zmiennych pokazuje pewną zależność, której chyba nie chciałem wcześniej widzieć (tak uwierzyłem liczbom). Regresja liniowa przedstawia się następująco:
-----------------------------------------------------------------------------
Standard T
Parameter / Estimate / Error / Statistic / P-Value
-----------------------------------------------------------------------------
Constant / -0,00353177 / 0,0268156 / -0,131706 / 0,8956
Zmiana% GDP / 0,887495 / 0,405884 / 2,18657 / 0,0318
-----------------------------------------------------------------------------
Bardziej prawidłowy jest jednak model GARCH (dla t-Studenta):
Variable / Coefficient / St. Error / t-statistic / Sign.
1 Constant / 0.0083799675 / 0.021785467 / 0.3846586124 / [0.7016]
2 Zmiana% GDP /0.7179373154 / 0.3551595659 / 2.0214500309 / [0.0468]
3 %arch_const / 0.0017132208 / 0.0011404797 / 1.5021932245 / [0.1373]
4 %garch1 / 0.8917281024 / 0.0581302536 / 15.340172237 / [0.0000]
Wynika z tego, że
E(Stopa zmian zysku SP 500) = 0.72*stopa zmian PKB
Parametr = 0,72 dowodzi, że powyższy model kiepsko wyjaśnia zmienność zysku SP500. W końcu gdy popatrzymy na wykres, to zysk silniej zmienia się niż PKB. Rzeczywiście - współczynnik determinacji to zaledwie 5,47%. Na zysk wpływają więc inne zmienne, których warto byłoby poszukać.
Ponieważ teraz zmienne są od siebie zależne, to nie można konstruować regresji wielorakiej tak jak w poprzednim wpisie ze zmienną objaśnianą jako stopa zwrotu SP 500 i zmiennymi objaśniającymi jako zmiany zysku i PKB (i wygląda na to, że tamta była nieprawdziwa). Oczywiście da się to rozwiązać, ale teraz nie jest to najważniejsze.
Z drugiej strony tym wynikom też nie należy zbyt ufać. Od roku 1933 do 2008 korelacja staje się znów nieistotna.
Podsumowując, trzeba zachować dystans do statystyki. Wygląda na to, że jednak giełda nie jest aż tak nieracjonalna jak sądziłem. Wprawdzie korelacja pomiędzy zmianą PKB a zmianą zysku SP 500 nie jest wielka, ale jednak istnieje, jeśli tylko odjąć dane odstające (co jednak ciągle jest moim zdaniem kontrowersyjne). Wynikałoby z tego, że jeśli rok 2011 upłynie pod znakiem niskiego wzrostu PKB możemy liczyć także w tym roku na niższe wzrosty zysków giełdowych firm. Oby nie był to spadek PKB.
Ale nowy problem się pojawił: gdyby korelację zacząć od 1933 r. to znów staje się nieistotna. Statystyka nie daje więc jednoznacznej odpowiedzi czy istnieje korelacja liniowa. Wygląda na to, że trzeba będzie poszukać bardziej złożonych związków lub faktycznie takowego nie ma.
40 bad ideas (and a few good ones)
10 godzin temu