wtorek, 16 sierpnia 2016

Czy mediana jest lepsza od średniej?

Chociaż standardowo oczekiwana stopa zwrotu utożsamiana jest z wartością oczekiwaną w sensie matematycznym, to jest to tylko pewne założenie. Już sama wartość oczekiwana nie jest pojęciem absolutnym, bo w zależności od okresu inwestycyjnego jaki przyjmujemy może ona przyjąć postać albo średniej arytmetycznej, albo geometrycznej (wprowadzenie do tematu - patrz Krótkoterminowa vs. długoterminowa średnia stopa zwrotu), albo kombinację tych obydwu (pełna analiza - patrz W poszukiwaniu nieznanej wartości oczekiwanej - część 1W poszukiwaniu nieznanej wartości oczekiwanej - część 2 ). Jeżeli skupiamy się na krótkich okresach, to wartość oczekiwana będzie bliska średniej arytmetycznej. Niestety ze względu na występowanie wielu wartości odstających w szeregach giełdowych stóp zwrotu, średnia ta nie jest dobrym estymatorem wartości oczekiwanej. Stąd często poleca się użycie mediany, która - jako wartość środkowa - oczywiście zmienia się bardzo powoli, a przez to ma niską wariancję. Temat ten rozpocząłem kiedyś w artykule Istota i znaczenie logarytmicznej stopy zwrotu, a teraz go rozszerzę.

Powstaje pytanie czy mediana jest to ten estymator, który ma najmniejszą możliwą wariancję, tzn. czy jest estymatorem najefektywniejszym? Mimo że w zagadnieniach czysto inwestycyjnych, raczej rzadko się używa pojęć efektywność estymatora (pojęcie "efektywność" jest inne w ekonomii), to trzeba zauważyć, że dla inwestora ma to duże znaczenie: dobrze jest posiadać estymator oczekiwanej stopy zwrotu, który prawie nie zmienia się w czasie.

Jak jednak sprawdzić czy mediana jest tak dobra? Najpierw załóżmy dla uproszczenia, że cena akcji jest procesem geometrycznego ruchu Browna. Poniżej przykład tego procesu, którego model zbudowałem w Excelu:



Jak widać proces ten całkiem odpowiada giełdzie. Moglibyśmy go zapisać w ten sposób:

(1)


 Następnie przekształcamy:



 Ponieważ parametr a jest całkowicie wolny, to można oznaczyć a = ln(P(0)) i stąd dostajemy:



Zatem współczynnik nachylenia b stanowi wartość oczekiwaną średniej arytmetycznej z logarytmicznych stóp zwrotu. W ten sposób doszliśmy do logarytmicznych stóp zwrotu.

Stopy zwrotu geometrycznego procesu ruchu Browna mają rozkład lognormalny. Logarytmy geometrycznego procesu ruchu Browna mają z kolei rozkład normalny (logarytm normalizuje zmiany). Zatem parametr b stanowi wartość oczekiwaną w rozkładzie normalnym. Wiadomo jednocześnie, że w rozkładzie normalnym mediana jest równa wartości oczekiwanej, a więc prawidłowa estymacja b automatycznie dostarczy nam medianę.

Model, który skonstruowaliśmy to E(lnP) = a + bt, który spełnia wszystkie warunki potrzebne do zastosowania metody najmniejszych kwadratów (MNK). Zgodnie z twierdzeniem Gaussa-Markowa estymator MNK jest estymatorem nieobciążonym (tzn. jest równy E(b)) i najefektywniejszym spośród innych liniowych estymatorów. Z tego jednak nie wynika, by mediana miała być "lepsza" od wartości oczekiwanej.

Jednakże musimy powrócić do pierwotnego modelu geometrycznego, a więc potrzebna jest detransformacja. Tylko zauważmy, że  powrót do oryginału jest mylący: 




A więc nie dostajemy wartości oczekiwanej ceny. Możemy jednak łatwo wykonać odpowiednią korektę. Zaczynamy od pierwotnego modelu (1):




Składnik losowy z początkowego założenia ma rozkład normalny, wobec czego exp(składnik losowy) ma rozkład lognormalny. A rozkład ten ma znane własności, tak że dostajemy:



Wariancja jest tutaj funkcją rosnącą z każdym okresem. Wiadomo, że wariancja ma własność addytywności, wobec czego całkowita wariancja może zostać podzielona na t okresów. Dlatego wariancja średniej arytmetycznej jest równa wariancji sumarycznego procesu podzielonej przez t okresów. Z tego wynika, że wariancja sumarycznego procesu jest to średnia wariancja razy t okresów. Stąd dla t:

(2)

dla t+1

(3)



Łączymy (2) i (3) dostając średnią stopę zwrotu

(4)


Pamiętamy, że wariancja składnika losowego jest równa wariancji samej stopy zwrotu (por. ostatni wzór w Odchylenie od nieznanej wartości oczekiwanej), w tym przypadku log-stopy zwrotu.

Oczywiście zadamy teraz pytanie jaka w takim razie jest mediana stopy w oryginalnym modelu? Aby ją uzyskać możemy wykorzystać twierdzenie że dla dowolnej funkcji monotonicznej każde przekształcenie mediany z oryginalnego rozkładu staje się medianą przekształconego rozkładu [1]. Wobec tego jeśli me to mediana rozkładu normalnego, to Me = e^me stanowi medianę w rozkładzie lognormalnym. U nas, jak wcześniej zauważyliśmy, me = b, to znaczy, że exp(b) stanowi medianę w rozkładzie lognormalnym. Jeśli nadal mamy wątpliwości, to łatwo znajdziemy, np. na Wikipedii, że mediana w rozkładzie lognormalnym równa się exp(b), dlatego że b - jak wykazałem wyżej - jest wartością oczekiwaną w rozkładzie normalnym.

Wiadomo, że wartość oczekiwana w rozkładzie lognormalnym wyraża się wzorem exp(b + var/2), zatem jest to dokładnie to co uzyskaliśmy w (4). Szerzej możemy oznaczyć średnią arytmetyczną jako wartość oczekiwaną. Jeśli A to średnia arytmetyczna w rozkładzie lognormalnym, a Me - mediana w rozkładzie lognormalnym, to:

(5)

To że log-normalna średnia arytmetyczna jest większa od log-normalnej mediany, staje się oczywiste. Ale dodatkowo można dojść do wniosku, że log-normalna średnia zawsze będzie bardziej zmienna od log-normalnej mediany, ponieważ zawiera dodatkową zmienną - wariancję składnika losowego (albo logarytmicznej stopy zwrotu), która implikuje dodatkową losowość (zmienność). Jeśli uznamy, że wariancja we wzorze (5) zmienia się w czasie, to A także będzie się zmieniać, podczas gdy Me może pozostać stałe.

Gdy zauważamy, że mediana może się wolniej zmieniać od średniej, to twierdzenie Gaussa-Markowa przestaje mieć dla nas znaczenie. Statystycy rozwinęli wiele innych metod, np. metodę najmniejszych wartości bezwzględnych (MNB). Od dawna wiadomo, że rozwiązaniem zadania minimalizacji sumy wartości absolutnych jest właśnie mediana (są różne sposoby na dowód - zob. np. [2, 3]). Basset i Koenker pokazali, że MNB jest bardziej efektywna od MNK w modelach liniowych, w których mediana jest bardziej efektywna (tzn. ma mniejszą wariancję) od średniej. Oznacza to, że dla większości modeli liniowych, pomijając gaussowskie, MNB jest efektywniejsza [4]. Również Dielman [5] empirycznie zademonstrował, że dla rozkładów z długimi ogonami MNB jest efektywniejsza, natomiast dla rozkładów normalnych lepsze rezultaty daje MNK.


Literatura:
[1]. Miller, D. M., Reducing Transformation Bias in Curve Fitting, May, 1984,
[2] Schwertman, N. C., Gilks, A. J., Cameron, J., A Simple Noncalculus Proof That the Median Minimizes the Sum of the Absolute Deviations, Feb 1990,
[3] Lee, Y-S, Graphical Demonstration of an Optimality Property of the Median, Nov 1995,
[4] Bassett, Jr., G., Koenker R., Asymptotic Theory of Least Absolute Error Regression, Sep 1978,
[5] Dielman, T. E., Least Absolute Value vs. Least Squares Estimation and Inference Procedures in Regression Models with Asymmetric Error Distributions, 2009.

piątek, 29 lipca 2016

Głębsze wprowadzenie do ekonometrii - publikacje Uriela

Jak wiadomo Internet stanowi ogromną, ale chaotyczną masę informacji, w tym publikacji naukowych. Znalezienie tego, co nas w danej chwili chwili interesuje to jak znalezienie igły w stogu siana. Czasami igieł jest bardzo dużo, ale większość w nich jest pozakrzywiana, skręcona i trudna do uchwycenia dla kogoś, kto nie jest zawodowcem w danej dziedzinie. Na przykład jest jakaś książka, w której niemal wszystko się znajduje, ale napisana przez matematyka dla matematyków albo przez specjalistę dla specjalistów. Weźmy choćby ekonometrię i analizę regresji. W angielskiej Wikipedii jest taki temat, ale liczba odniesień, które dokładniej wyjaśniają dane metody, jest przytłaczająca i ciężko znaleźć odpowiedź.

Dlaczego podczas regresji najczęściej stosowana jest Metoda Najmniejszych Kwadratów (MNK) i na czym ona polega? Kiedy i dlaczego MNK i Metoda Największej Wiarygodności dają te same wyniki?  Jak można dokonać dekompozycji wariancji zmiennej objaśnianej (analiza wariancji - ANOVA)? Jak obliczyć wariancję składnika losowego? Następnie, chociaż parametry regresji są z założenia stałe, to ich precyzja zależy od wielkości próbki, a przez to wartość współczynników podlega zmianom (wraz z wielkością próby). Jak więc obliczyć wariancję tych parametrów? Dlaczego kwadrat współczynnika korelacji jest równy współczynnikowi determinacji? Jak ocenić dopasowanie modelu regresji? Jak testować różne hipotezy statystyczne (statystyka t, F i ich relacja)? Na te i wiele innych pytań, znajdziemy przejrzystą odpowiedź na stronie internetowej E. Uriela:
http://www.uv.es/uriel/libroin.htm

Uriel opublikował tam 6 rozdziałów/tomów podręcznika wprowadzającego do ekonometrii wraz z ćwiczeniami. Wydaje mi się, że jest to jedna z najlepszych darmowych pozycji w Internecie dla kogoś, kto chciałby sam przestudiować podstawy ekonometrii. Z jednej strony opis nie jest okraszony skomplikowanym nazewnictwem, a nawet wzory wyglądają przyjaźnie. Z drugiej strony nie mamy tutaj ogólników w stylu "wzór jest taki a taki, bo tak", które zniechęcają czytelnika, skoro nie wiadomo co się skąd wzięło. Znajdziemy tu nawet dowód twierdzenia Gaussa-Markova. W porównaniu do Wikipedii, w której pokazany jest dowód na macierzach, tutaj łatwiej jest go zrozumieć, bo został przeprowadzony najpierw na skalarach, a potem macierzach.

Został też poświęcony rozdział przekształceniom regresji z funkcji nieliniowej do liniowej za pomocą logarytmów. Jest to ważne zagadnienie w ekonomii, dlatego można mieć zastrzeżenie co do jednej rzeczy. Autor wskazuje na możliwość przybliżenia stopy zwrotu za pomocą logarytmicznej stopy zwrotu, wykorzystując twierdzenie Taylora. Niestety to przybliżenie jest nie do końca przekonujące. Dużo lepiej i prościej byłoby gdyby Uriel pokazał następujący prosty dowód, że dla małych zmian logarytmiczna stopa będzie równa zwykłej stopie:


Bo jak wiadomo (1+r/n)^n dąży do exp(r).*
Autor mógł też pokazać podobne rozumowanie, które nakreśliłem w art. Istota i znaczenie logarytmicznej stopy zwrotu

Mimo iż Uriel zawarł też tom poświęcony bardziej zaawansowanym kwestiom jak opuszczanie klasycznych założeń MNK, to trzeba pamiętać o tym, co napisałem wcześniej - jest to tylko wprowadzenie do ekonometrii. I to bardzo dobre.


*