czwartek, 1 września 2011

Korelacja nieparametryczna jako narzędzie wykrywania trudnych korelacji

Spójrzmy na poniższy wykres rozrzutu obrazujący relację pomiędzy rocznymi procentowymi zmianami nominalnego zysku SP 500 (tj. zysku firm ważonego proporcjonalnie do ich kapitalizacji w indeksie SP 500) - pionowo, a rocznymi procentowymi zmianami nominalnego PKB USA - poziomo, w okresie od 1q 1989 do 4q 2010, z krokiem równym 1 kwartał (tj. odległość pomiędzy dwiema obserwacjami wynosi 1 kwartał):



(Ponieważ zastosowano tutaj kwartalny krok obserwacji, zależność przedstawia się trochę inaczej niż dla kroku rocznego, jaką można było obserwować w poprzednich dwóch postach. Grafika wskazuje bowiem większą zależność dodatnią.)

Pomimo, że korelacja nie odznacza się dużą siłą, niemniej intuicyjnie wydaje się, iż ona istnieje. Okazuje się jednak, że współczynnik korelacji Pearsona wynosi jedynie 0,15 i jest nieistotny statystycznie. Podobnie regresja liniowa jest nieistotna.

Powstaje pytanie czy graficzna korelacja stanowi złudzenie czy też współczynnik korelacji Pearsona zawodzi? Pytanie to jest trochę filozoficzne, bo w statystyce/ekonometrii podobnie jak w naukach mniej ścisłych dużą rolę odgrywa interpretacja. Wiele punktów leży na linii poziomej i za nachylenie dużą odpowiedzialność biorą obserwacje odstające. Z drugiej strony nawet jeśli w umyśle usuniemy te odstające, nadal widzimy, że lekka dodatnia korelacja występuje. Dlaczego więc współczynnik korelacji Pearsona zawodzi? Dzieje się tak prawdopodobnie z powodu występowania kilku obserwacji odstających (druga możliwość to zbyt niskie nachylenie). Przypomnijmy, że korelacja Pearsona jest liniowa, a więc zbyt odległe obserwacje lub nadmiar obserwacji odstających psuje średni rozkład obserwacji wokół linii prostej (tj. wokół wartości oczekiwanej), tak że następuje sztuczne zaniżenie korelacji.

Problem obserwacji odstających w analizie korelacji został już dawno temu zauważony przez badaczy, m.in. Charlesa Spearmana, który zaproponował, aby w trudnych przypadkach (korelacji niskiej jakości) wykonać najpierw tzw. rangowanie, czyli zastąpienie każdej zaobserwowanej wartości przez jej numer w zbiorze posortowanym rosnąco, a następnie obliczyć zwykły współczynnik korelacji liniowej Pearsona z tych rang. W ten sposób powstał współczynnik korelacji rang Spearmana, który przekształca monotoniczną zależność nieliniową w liniową. W wikipedii zostało to zilustrowane filmikiem:

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana zawiera się oczywiście w przedziale <-1,1>, bo jest to po prostu współczynnik korelacji Pearsona dla rang zmiennych.

Warto zauważyć, że korelacja rang Spearmana może być użyta także do obliczania korelacji pomiędzy zmiennymi jakościowymi, których obserwacje można porangować. Np. mamy dwie zmienne - pierwsza to jakość usług danej firmy, druga to rentowność netto (zysk netto podzielony przez przychód, czyli mówiąc krótko mierzy ile przychód generuje zysku). Firm mamy tyle co obserwacji. Rangujemy dane pierwszej zmiennej:

*niska jakość usług (firmy A) - 1,
*wyższa jakość (firmy B) - 2,
*wysoka jakość (firmy C) - 3,
*bardzo wysoka jakość (firmy D) - 4

Mamy ustawienie rang:
1,2,3,4

Rangujemy dane drugiej zmiennej - rentowność netto wyrażoną w procencie:
*do x1% - 1,
* do x2% - 2,
* do x3% - 3
* do x4% - 4

Obserwacja wskazała, że firmie o niskiej jakości (1) odpowiadała niska marża (1). Firmie o wyższej jakości (2) odpowiadała marża (3) (a nie 2). Wysokiej jakości (3) odpowiadała marża (2). Bardzo wysokiej jakości (4) towarzyszyła marża (4). Wynika z tego, że ustawienie rang dla drugiej zmiennej jest następujące:

1,3,2,4

Porównujemy ustawienia rang:

1,2,3,4
1,3,2,4

Rzecz się sprowadza do odejmowania rang: 1-1 = 0, 2-3 = -1, 3-2 = 1, 4-4 = 0. Każdą różnicę podnosimy do kwadratu, stąd otrzymujemy:

0, 1, 1, 0

Sumujemy je, czyli suma = 2.

Wzór na korelację Spearmana (najczęściej stosowany) sprowadza się do postaci:



gdzie d - to różnica pomiędzy odpowiednimi rangami, n - liczba obserwacji

Czyli

R = 1 - 6*2/60 = 0,8.

Sprawdzamy więc jak rangi obydwu zmiennych do siebie pasują. Jeśli rangi jakości usług będzie odpowiadać proporcjonalnie rangom marży, czyli 1-1, 2-2 itd. wówczas wykres rang będzie nachylony pod kątem 45 stopni, co oznacza korelację równą 1. Jeśli rangi będą ustawiać się odwrotnie proporcjonalnie, wówczas korelacja wyniesie -1. Stopień dopasowania rang to właśnie korelacja rang Spearmana.

W naszym przypadku (stopa wzrostu zysku SP 500 vs. stopa wzrostu PKB USA) korelacja Spearmana wynosi 0,358 i jest istotna statystycznie.

Należy zauważyć, że, jak sama nazwa wskazuje, jest to korelacja rang a nie samych zmiennych. Rangi są pewną ideą, przekształceniem wartości zmiennych. Jest to więc koncepcja intuicyjna, ale nie jedyna możliwa.

Drugą znaną miarą korelacji rangowej (czyli zastępującą bezpośrednią korelację zmiennych) jest mniej intuicyjna tzw. Tau Kendalla. Miara opiera się na ustawieniach rang. Weźmy poprzedni przykład ze zmienną "jakość usług" oraz "marża netto". Mamy następujące rangi dla pierwszej zmiennej:

*niska jakość usług (firmy A) - 1,
*wyższa jakość (firmy B) - 2,
*wysoka jakość (firmy C) - 3,
*bardzo wysoka jakość (firmy D) - 4

Jest więc ustawienie rang:
1,2,3,4

Możemy to ustawienie rang zdekomponować w pary w następującej kolejności:

P1 = {[1,2], [1,3], [1,4], [2,3], [2,4], [3,4]}

Ustawienie to nazywamy ustawieniem par rang.

Rangi dla drugiej zmiennej:
*do x1% - 1,
* do x2% - 2,
* do x3% - 3
* do x4% - 4

Analiza wskazała, że firmie o niskiej jakości (1) odpowiadała niska marża (1). Firmie o wyższej jakości (2) odpowiadała marża (3) (a nie 2). Wysokiej jakości (3) odpowiadała marża (2). Bardzo wysokiej jakości (4) towarzyszyła marża (4). Wynika z tego, że ustawienie rang dla drugiej zmiennej jest następujące:

1,3,2,4

Możemy to ustawienie zdekomponować w pary, czyli w ustawienie par, w następującej kolejności:

P2 = {[1,3], [1,2], [1,4], [3,2], [3,4], [2,4]}

Porównajmy obydwa ustawienia par:

P1 = {[1,2], [1,3], [1,4], [2,3], [2,4], [3,4]}
P2 = {[1,3], [1,2], [1,4], [3,2], [3,4], [2,4]}

Odejmujemy od siebie te pary, które są identyczne. Jak widać są tylko dwie pary które nie są identyczne. Są to:

[2,3],[3,2]

Różnica to 2 pary. Ponieważ wzór na Tau Kendalla jest następujący:



gdzie P1 to po prostu ustawienia par dla zmiennej 1, podobnie P2, d to ich różnica oraz N to liczba obserwacji, więc tau Kendalla wynosi:



Jest więc niższy niż R Spearmana.

Im więcej różnic pomiędzy ustawieniami par, tym mniejsza korelacja. Warto zauważyć, że w metodzie tej tworzymy kombinacje ustawień par, a więc tau Kendalla może być rozpatrywane w kategoriach prawdopodobieństwa. Wiemy, że entropia układu jest tym większa im więcej istnieje możliwości ustawień zmiennych. Dokładniej ujmując, współczynnik tau Kendalla opiera się na różnicy między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym porządku w obrębie obserwowanych danych a prawdopodobieństwem, że ich uporządkowanie się różni.

W naszym przypadku korelacja tau Kendalla pomiędzy zmianami zysku SP 500 a zmianami PKB wynosi 0.238 i jest istotna statystycznie. Jednakże znów jest niższy niż R Spearmana. Prawdopodobieństwo, że zmienne będą leżeć w tym samym porządku nie jest zbyt wielkie.

Inną jeszcze miarą korelacji rangowej jest tzw. gamma. Pod względem interpretacji i obliczania jest bardziej podobna do współczynnika tau Kendalla. Krótko mówiąc, współczynnik gamma opiera się również na prawdopodobieństwie, tyle że jest zalecany w przypadkach, gdy dane zawierają wiele powiązanych obserwacji (tzn. obserwacji o takich samych wartościach).

W rozpatrywanym przykładzie korelacji zmian zysków SP 500 i zmian PKB gamma wynosi 0,256 jest również istotna.


Ponieważ koncepcja korelacji rangowej sama w sobie nie zakłada znajomości rozkładu i parametrów rozkładu analizowanych zmiennych, dlatego też metody korelacji rangowych nazywane są nieparametrycznymi. W przypadku korelacji Pearsona wariancja i wartość oczekiwana muszą być znane. Stąd należy do korelacji parametrycznych. Jak dobrze wiemy samo określenie wariancji może być zgubne dla rozkładów rynków finansowych. Tak więc korelacji nieparametrycznych można używać w wielu przypadkach: gdy mamy do czynienia z obserwacjami silnie odstającymi, gdy rozkład posiada nieskończoną wariancję (brak rozkładu normalnego) oraz dla zmiennych jakościowych.

Literatura:

1. Hervé Abdi, The Kendall Rank Correlation Coefficient, 2007
2. http://www.statistica.pl
3. http://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_rang_Spearmana

P.S. Bieżąca analiza niezbicie dowodzi, że zyski firm z indeksu i PKB są skorelowane, zatem fakt, iż giełda silnie reaguje na dane makroekonomiczne można uznać za racjonalne. Pytanie czy reakcja nie jest zbyt gwałtowna pozostaje na razie otwarte.

Brak komentarzy:

Prześlij komentarz