poniedziałek, 5 września 2016

Szybkie porównywanie statystyk w Wolphram Alpha

Jeśli nie mamy za bardzo czasu na głębsze analizy makroekonomiczne, ale chcielibyśmy uzyskać szybko wskaźniki porównawcze, możemy posłużyć się narzędziem Wolphram Alpha (WA). WA służy głównie do rozwiązywania różnych, często skomplikowanych problemów matematycznych, ale jego użyteczność na tym się nie kończy. Powiedzmy, że najpierw chcę sprawdzić jak się zachowuje wzrost PKB w Polsce. Wpisuję np. "gdp growth poland" i wciskam Enter:



Dalej, np. chcę porównać wzrost PKB w Polsce ze wzrostem PKB w USA. Wpisuję w wyszukiwarce WA np. "poland gdp growth vs usa gdp growth":




Wpiszmy "Poland unempoyment rate vs GDP growth rate":



Jeśli chodzi o dane ekonomiczne, WA nie jest jakimś wybitnym narzędziem, bo wielu bardziej szczegółowych rzeczy nie znajdziemy (np. gdy chciałem znaleźć porównanie danych kwartalnych, to nie dostałem tego co chciałem). Najlepsze statystyki dostaniemy, gdy porównamy pewne ogólne cechy, np. wpiszemy "Poland vs Germany":






Niektóre statystyki pominąłem.
Nawiasem mówiąc, biorąc pod uwagę tzw. Kryzys Migracyjny , tj. ciągły napływ uchodźców np. do Niemiec, dość interesujące, że w Niemczech aż 91% populacji to ciągle Niemcy, a więc niewiele mniej niż Polaków w Polsce (96%) - dane są z 2014 r. Dalej, patrząc na religię, o ile Polska to niemal w 100% kraj katolicki, o tyle Niemcy są w dużej mierze ateistami, stąd tylko 76% uważa się za chrześcijan, natomiast islam stanowi tylko 4,5%. Język natomiast już w ogóle tak jak w Polsce jest niemal w 100% "rdzenny".

WA można także wykorzystać do wielu analiz statystycznych. Np. wpisanie "z-test for population mean", dostarczy szczegółowej analizy statystyki z. Wybieramy dane do testu, np.


I otrzymujemy takie informacje:



co oznacza, że (zakładając rozkład normalny) jeśli liczba obserwacji = 100, a średnia z próbki wynosi 0,2 i odchylenie standardowe = 1, to hipoteza sprawdzająca czy średnia z populacji wynosi 0, zostanie odrzucona na poziomie istotności 5%, ponieważ p-value = 4,55% < 5%.

Następnie, łatwo sprawdzić regresję liniową, którą można prosto ułożyć stosując np zapis: linear fit {34, 20},{40, 23},{48, 22},{52, 29},{57, 27.5}, {62, 31}



WA podaje wiele innych przykładów funkcji statystycznych (np. przedział ufności dla średniej i odchylenia standardowego) i ekonometrycznych (np. "exponential fit" czy "log fit").

Na koniec, jako ciekawostkę, dodam, że jest też możliwość użycia CAPM:

niedziela, 28 sierpnia 2016

Mediana, średnia arytmetyczna, geometryczna i skośność

Warto sobie uświadomić, kiedy mediana (Me) przyjmuje wartość średniej arytmetycznej (A), a kiedy geometrycznej (G). Jak wiadomo w rozkładzie normalnym Me = A. Nieco mniej znany jest fakt, że w rozkładzie log-normalnym Me jest równa G. W artykule Czy mediana jest lepsza od średniej? twierdziłem, że dla rozkładu nie-normalnego Me jest lepszym estymatorem niż A dla krótkoterminowej stopy zwrotu. To prowadzi jednak do paradoksu: jeżeli miałoby to dotyczyć rozkładu log-normalnego, to znaczyłoby to, że Me, która jest wtedy równa G, powinna zastąpić A, a przecież właśnie A dostarcza informacji krótkoterminowych. Ten paradoks wynika po prostu ze ścierania się ze sobą dwóch różnych koncepcji: nieobciążoności i efektywności estymatora. Jeżeli bardziej zależy nam na wartości oczekiwanej, to wybieramy nieobciążoność, jeżeli bardziej zależy nam na jak najmniejszym ryzyku, wybieramy efektywność. Dla krótkoterminowej stopy wartość oczekiwana = A, dla długoterminowej stopy wartość oczekiwana = G  (por. art. z W poszukiwaniu nieznanej wartości oczekiwanej - część 2).
Załóżmy, że A i G pozostają stałe, a Me będzie zmienną. Wtedy w zależności od rozkładu Me będzie skakała z poziomu A w rozkładzie normalnym do G w rozkładzie log-normalnym. Wiemy, że dla zmiennej losowej zawsze A > G. Oczywiste więc, że przechodząc od rozkładu normalnego do log-normalnego mediana będzie się zmniejszać.

Możemy znaleźć ogólną przybliżoną  relację pomiędzy tymi 3-ma miarami i sprawdzić jak zachowuje się Me. Przypomnę wzór na G, który wyprowadziłem w art. O relacji między arytmetyczną a geometryczną stopą zwrotu:



gdzie:
V - wariancja
Sk - skośność, czyli 3-moment centralny podzielony przez wariancję do 3/2
K - kurtoza, czyli 4-moment centralny podzielony przez wariancję do kwadratu.

Jednocześnie wiadomo, że współczynnik skośności Sk jest często wyrażany za pomocą wzoru* [np. 1, 2]:


Wobec czego G1 przyjmuje postać:




Załóżmy teraz, że A jest stała, a Me i G są zmienne. Gdy rozkład jest normalny, to Me = A. Gdy pojawia się skośność dodatnia, Me zaczyna spadać, aby skośność mogła rosnąć. Ale jednocześnie rośnie wtedy G1 (bo licznik rośnie). Skoro wiemy, że G1< A, to wnioskujemy, że w pewnym punkcie G1 zrówna się z Me. W tym punkcie rozkład staje się log-normalny.
Filozoficznie możemy rozumować, że skoro z jednej strony mediana jest odporna na wstrząsy, z drugiej długokresowe tempo zmian staje się medianą, to inwestycja długoterminowa jest bardziej odporna na wstrząsy.


* Inny często używany wzór to (zob. np. [3]):









Literatura:
[1] MacGillivray, H. L., Skewness and Asymmetry: Measures and Orderings, Sep. 1986,
[2] Arnold B. C. A., Groeneveld, R. A., Measuring Skewness with Respect to the Mode, Feb. 1995,
[3] Eisenhauer, J. G., Symmetric or Skewed?, Jan. 2002.

wtorek, 16 sierpnia 2016

Czy mediana jest lepsza od średniej?

Chociaż standardowo oczekiwana stopa zwrotu utożsamiana jest z wartością oczekiwaną w sensie matematycznym, to jest to tylko pewne założenie. Już sama wartość oczekiwana nie jest pojęciem absolutnym, bo w zależności od okresu inwestycyjnego jaki przyjmujemy może ona przyjąć postać albo średniej arytmetycznej, albo geometrycznej (wprowadzenie do tematu - patrz Krótkoterminowa vs. długoterminowa średnia stopa zwrotu), albo kombinację tych obydwu (pełna analiza - patrz W poszukiwaniu nieznanej wartości oczekiwanej - część 1W poszukiwaniu nieznanej wartości oczekiwanej - część 2 ). Jeżeli skupiamy się na krótkich okresach, to wartość oczekiwana będzie bliska średniej arytmetycznej. Niestety ze względu na występowanie wielu wartości odstających w szeregach giełdowych stóp zwrotu, średnia ta nie jest dobrym estymatorem wartości oczekiwanej. Stąd często poleca się użycie mediany, która - jako wartość środkowa - oczywiście zmienia się bardzo powoli, a przez to ma niską wariancję. Temat ten rozpocząłem kiedyś w artykule Istota i znaczenie logarytmicznej stopy zwrotu, a teraz go rozszerzę.

Powstaje pytanie czy mediana jest to ten estymator, który ma najmniejszą możliwą wariancję, tzn. czy jest estymatorem najefektywniejszym? Mimo że w zagadnieniach czysto inwestycyjnych, raczej rzadko się używa pojęć efektywność estymatora (pojęcie "efektywność" jest inne w ekonomii), to trzeba zauważyć, że dla inwestora ma to duże znaczenie: dobrze jest posiadać estymator oczekiwanej stopy zwrotu, który prawie nie zmienia się w czasie.

Jak jednak sprawdzić czy mediana jest tak dobra? Najpierw załóżmy dla uproszczenia, że cena akcji jest procesem geometrycznego ruchu Browna. Poniżej przykład tego procesu, którego model zbudowałem w Excelu:



Jak widać proces ten całkiem odpowiada giełdzie. Moglibyśmy go zapisać w ten sposób:

(1)


 Następnie przekształcamy:



 Ponieważ parametr a jest całkowicie wolny, to można oznaczyć a = ln(P(0)) i stąd dostajemy:



Zatem współczynnik nachylenia b stanowi wartość oczekiwaną średniej arytmetycznej z logarytmicznych stóp zwrotu. W ten sposób doszliśmy do logarytmicznych stóp zwrotu.

Stopy zwrotu geometrycznego procesu ruchu Browna mają rozkład lognormalny. Logarytmy geometrycznego procesu ruchu Browna mają z kolei rozkład normalny (logarytm normalizuje zmiany). Zatem parametr b stanowi wartość oczekiwaną w rozkładzie normalnym. Wiadomo jednocześnie, że w rozkładzie normalnym mediana jest równa wartości oczekiwanej, a więc prawidłowa estymacja b automatycznie dostarczy nam medianę.

Model, który skonstruowaliśmy to E(lnP) = a + bt, który spełnia wszystkie warunki potrzebne do zastosowania metody najmniejszych kwadratów (MNK). Zgodnie z twierdzeniem Gaussa-Markowa estymator MNK jest estymatorem nieobciążonym (tzn. jest równy E(b)) i najefektywniejszym spośród innych liniowych estymatorów. Z tego jednak nie wynika, by mediana miała być "lepsza" od wartości oczekiwanej.

Jednakże musimy powrócić do pierwotnego modelu geometrycznego, a więc potrzebna jest detransformacja. Tylko zauważmy, że  powrót do oryginału jest mylący: 




A więc nie dostajemy wartości oczekiwanej ceny. Możemy jednak łatwo wykonać odpowiednią korektę. Zaczynamy od pierwotnego modelu (1):




Składnik losowy z początkowego założenia ma rozkład normalny, wobec czego exp(składnik losowy) ma rozkład lognormalny. A rozkład ten ma znane własności, tak że dostajemy:



Wariancja jest tutaj funkcją rosnącą z każdym okresem. Wiadomo, że wariancja ma własność addytywności, wobec czego całkowita wariancja może zostać podzielona na t okresów. Dlatego wariancja średniej arytmetycznej jest równa wariancji sumarycznego procesu podzielonej przez t okresów. Z tego wynika, że wariancja sumarycznego procesu jest to średnia wariancja razy t okresów. Stąd dla t:

(2)

dla t+1

(3)



Łączymy (2) i (3) dostając średnią stopę zwrotu

(4)


Pamiętamy, że wariancja składnika losowego jest równa wariancji samej stopy zwrotu (por. ostatni wzór w Odchylenie od nieznanej wartości oczekiwanej), w tym przypadku log-stopy zwrotu.

Oczywiście zadamy teraz pytanie jaka w takim razie jest mediana stopy w oryginalnym modelu? Aby ją uzyskać możemy wykorzystać twierdzenie że dla dowolnej funkcji monotonicznej każde przekształcenie mediany z oryginalnego rozkładu staje się medianą przekształconego rozkładu [1]. Wobec tego jeśli me to mediana rozkładu normalnego, to Me = e^me stanowi medianę w rozkładzie lognormalnym. U nas, jak wcześniej zauważyliśmy, me = b, to znaczy, że exp(b) stanowi medianę w rozkładzie lognormalnym. Jeśli nadal mamy wątpliwości, to łatwo znajdziemy, np. na Wikipedii, że mediana w rozkładzie lognormalnym równa się exp(b), dlatego że b - jak wykazałem wyżej - jest wartością oczekiwaną w rozkładzie normalnym.

Wiadomo, że wartość oczekiwana w rozkładzie lognormalnym wyraża się wzorem exp(b + var/2), zatem jest to dokładnie to co uzyskaliśmy w (4). Szerzej możemy oznaczyć średnią arytmetyczną jako wartość oczekiwaną. Jeśli A to średnia arytmetyczna w rozkładzie lognormalnym, a Me - mediana w rozkładzie lognormalnym, to:

(5)

To że log-normalna średnia arytmetyczna jest większa od log-normalnej mediany, staje się oczywiste. Ale dodatkowo można dojść do wniosku, że log-normalna średnia zawsze będzie bardziej zmienna od log-normalnej mediany, ponieważ zawiera dodatkową zmienną - wariancję składnika losowego (albo logarytmicznej stopy zwrotu), która implikuje dodatkową losowość (zmienność). Jeśli uznamy, że wariancja we wzorze (5) zmienia się w czasie, to A także będzie się zmieniać, podczas gdy Me może pozostać stałe.

Gdy zauważamy, że mediana może się wolniej zmieniać od średniej, to twierdzenie Gaussa-Markowa przestaje mieć dla nas znaczenie. Statystycy rozwinęli wiele innych metod, np. metodę najmniejszych wartości bezwzględnych (MNB). Od dawna wiadomo, że rozwiązaniem zadania minimalizacji sumy wartości absolutnych jest właśnie mediana (są różne sposoby na dowód - zob. np. [2, 3]). Basset i Koenker pokazali, że MNB jest bardziej efektywna od MNK w modelach liniowych, w których mediana jest bardziej efektywna (tzn. ma mniejszą wariancję) od średniej. Oznacza to, że dla większości modeli liniowych, pomijając gaussowskie, MNB jest efektywniejsza [4]. Również Dielman [5] empirycznie zademonstrował, że dla rozkładów z długimi ogonami MNB jest efektywniejsza, natomiast dla rozkładów normalnych lepsze rezultaty daje MNK.


Literatura:
[1]. Miller, D. M., Reducing Transformation Bias in Curve Fitting, May, 1984,
[2] Schwertman, N. C., Gilks, A. J., Cameron, J., A Simple Noncalculus Proof That the Median Minimizes the Sum of the Absolute Deviations, Feb 1990,
[3] Lee, Y-S, Graphical Demonstration of an Optimality Property of the Median, Nov 1995,
[4] Bassett, Jr., G., Koenker R., Asymptotic Theory of Least Absolute Error Regression, Sep 1978,
[5] Dielman, T. E., Least Absolute Value vs. Least Squares Estimation and Inference Procedures in Regression Models with Asymmetric Error Distributions, 2009.

piątek, 29 lipca 2016

Głębsze wprowadzenie do ekonometrii - publikacje Uriela

Jak wiadomo Internet stanowi ogromną, ale chaotyczną masę informacji, w tym publikacji naukowych. Znalezienie tego, co nas w danej chwili chwili interesuje to jak znalezienie igły w stogu siana. Czasami igieł jest bardzo dużo, ale większość w nich jest pozakrzywiana, skręcona i trudna do uchwycenia dla kogoś, kto nie jest zawodowcem w danej dziedzinie. Na przykład jest jakaś książka, w której niemal wszystko się znajduje, ale napisana przez matematyka dla matematyków albo przez specjalistę dla specjalistów. Weźmy choćby ekonometrię i analizę regresji. W angielskiej Wikipedii jest taki temat, ale liczba odniesień, które dokładniej wyjaśniają dane metody, jest przytłaczająca i ciężko znaleźć odpowiedź.

Dlaczego podczas regresji najczęściej stosowana jest Metoda Najmniejszych Kwadratów (MNK) i na czym ona polega? Kiedy i dlaczego MNK i Metoda Największej Wiarygodności dają te same wyniki?  Jak można dokonać dekompozycji wariancji zmiennej objaśnianej (analiza wariancji - ANOVA)? Jak obliczyć wariancję składnika losowego? Następnie, chociaż parametry regresji są z założenia stałe, to ich precyzja zależy od wielkości próbki, a przez to wartość współczynników podlega zmianom (wraz z wielkością próby). Jak więc obliczyć wariancję tych parametrów? Dlaczego kwadrat współczynnika korelacji jest równy współczynnikowi determinacji? Jak ocenić dopasowanie modelu regresji? Jak testować różne hipotezy statystyczne (statystyka t, F i ich relacja)? Na te i wiele innych pytań, znajdziemy przejrzystą odpowiedź na stronie internetowej E. Uriela:
http://www.uv.es/uriel/libroin.htm

Uriel opublikował tam 6 rozdziałów/tomów podręcznika wprowadzającego do ekonometrii wraz z ćwiczeniami. Wydaje mi się, że jest to jedna z najlepszych darmowych pozycji w Internecie dla kogoś, kto chciałby sam przestudiować podstawy ekonometrii. Z jednej strony opis nie jest okraszony skomplikowanym nazewnictwem, a nawet wzory wyglądają przyjaźnie. Z drugiej strony nie mamy tutaj ogólników w stylu "wzór jest taki a taki, bo tak", które zniechęcają czytelnika, skoro nie wiadomo co się skąd wzięło. Znajdziemy tu nawet dowód twierdzenia Gaussa-Markova. W porównaniu do Wikipedii, w której pokazany jest dowód na macierzach, tutaj łatwiej jest go zrozumieć, bo został przeprowadzony najpierw na skalarach, a potem macierzach.

Został też poświęcony rozdział przekształceniom regresji z funkcji nieliniowej do liniowej za pomocą logarytmów. Jest to ważne zagadnienie w ekonomii, dlatego można mieć zastrzeżenie co do jednej rzeczy. Autor wskazuje na możliwość przybliżenia stopy zwrotu za pomocą logarytmicznej stopy zwrotu, wykorzystując twierdzenie Taylora. Niestety to przybliżenie jest nie do końca przekonujące. Dużo lepiej i prościej byłoby gdyby Uriel pokazał następujący prosty dowód, że dla małych zmian logarytmiczna stopa będzie równa zwykłej stopie:


Bo jak wiadomo (1+r/n)^n dąży do exp(r).*
Autor mógł też pokazać podobne rozumowanie, które nakreśliłem w art. Istota i znaczenie logarytmicznej stopy zwrotu

Mimo iż Uriel zawarł też tom poświęcony bardziej zaawansowanym kwestiom jak opuszczanie klasycznych założeń MNK, to trzeba pamiętać o tym, co napisałem wcześniej - jest to tylko wprowadzenie do ekonometrii. I to bardzo dobre.


*