czwartek, 3 listopada 2016

"Metody najmniejszych kwadratów i niektóre alternatywy" - książka Hartera

Chyba najlepszym sposobem na zwiększenie pokory wobec nauki jest zobaczenie jak ogromny postęp dokonał się w danej dziedzinie w określonym przedziale czasu. Na przykład w ekonometrii osobną poddziedziną można nazwać metodę najmniejszych kwadratów (MNK), której historia zaczyna się mniej więcej od XVIII w. (choć pre-historia od Galileusza, od 1632 r.). Harter opisał ją bardzo, bardzo szczegółowo w książce "The Method of Least Squares and Some Alternatives". Wersję z 1972 r. można pobrać w słabej jakości z poniższego linku:

www.dtic.mil/dtic/tr/fulltext/u2/752211.pdf

Dowiadujemy się, że przed narodzinami MNK narodziła się metoda najmniejszych błędów absolutnych opisana przez Boscovicha w 1757, a także metoda największej wiarygodności, którą zaproponował Bernoulli w 1778. Mimo iż MNK kojarzy się dziś tylko z funkcją regresji, a więc ze zmienną warunkową, jej historia zaczęła się od pytania o właściwe określenie średniej dla zmiennej niewarunkowej. Duży wkład w tym temacie miał Laplace, który w 1781 najpierw przedstawił 4 kryteria, którymi można się kierować przy wyborze miary centralnej tendencji:
1) można wymagać takiej średniej, aby suma dodatnich błędów równała się sumie ujemnych błędów (średnia arytmetyczna);
2) można wymagać, aby suma dodatnich błędów przemnożonych przez ich odpowiednie prawdopodobieństwa równała się sumie ujemnych błędów przemnożonych przez ich odpowiednie prawdopodobieństwa (średnia ważona);
3) można wymagać, aby średnia była najbardziej prawdopodobną prawdziwą wartością (kryterium największej wiarygodności Bernoulliego);
4) można wymagać, aby błąd był minimalny; tzn. aby suma iloczynów błędów i ich prawdopodobieństw była najmniejsza.

Laplace pokazał, że kryterium (4), które uważał za podstawowe, jest równoważne kryterium (2). Pokazał też, że (4) prowadzi do średniej arytmetycznej i w ten sposób zgadza się z (1) pod warunkiem, że:
1. rozkład prawdopodobieństwa jest taki sam dla wszystkich obserwacji;
2. rozkład jest symetryczny;
3. błąd może dążyć do nieskończoności, ale wtedy jego prawdopodobieństwo dąży do zera.

Później w 1805 r. Legendre jako pierwszy opublikował MNK. Gauss również jej używał, jeszcze przed swoimi publikacjami. W 1809 r. Gauss publikuje twierdzenie, że w symetrycznym i jednomodalnym (czyli z jedną dominantą) rozkładzie istnieje tylko jedno prawo - tzw. normalne prawo błędów - dla którego najbardziej prawdopodobną wartością jest średnia arytmetyczna. Prawdopodobieństwo odchylenia jest proporcjonalne do exp(-h x^2), gdzie h = 1/(2s^2), s - odch standardowe, x - zmienna losowa będąca odchyleniem (błędem) od wartości oczekiwanej. Zatem Gauss powiązał kryterium (1) z (3) Laplace'a (pamiętajmy, że mówimy tu ciągle jeszcze o zmiennej niewarunkowej). Jednocześnie dowiódł, że MNK, którą zaprezentował Legendre, stanowi konsekwencję prawa błędów. W 1810 Laplace dowiódł, że przy ogólnych warunkach rozkład średnich w próbie dąży do normalnego. W 1816 r. Gauss zauważył, że nie jest potrzebna precyzja h, aby zastosować MNK. Prawo błędów dostarcza informacji o prawdopodobieństwie odchylenia od średniej, natomiast MNK dostarcza średnią wartość estymatora. W 1818 Laplace porównał MNK z metodą najmniejszych błędów absolutnych zaproponowaną przez Boscovicha i doszedł wniosku, że pierwsza z nich prowadzi do średniej arytmetycznej, natomiast druga do mediany. W końcu w 1823 Gauss uzasadnił użycie MNK bez założenia normalności rozkładu odchyleń.

W 1830 r. Hauber rozszerzył  pracę Gaussa na estymację, gdy obserwacje pochodzą z (możliwie) różnych populacji - o różnych wariancjach, a więc zmienna x przestaje być IID.

W ten sposób rozpoczęła się era teoretycznych odkryć MNK wraz z jego alternatywami. Im dalej, tym modele coraz bardziej złożone, ale i dokładniejsze. Dziś Uogólniona MNK, nieliniowa MNK czy nawet nieparametryczne MNK stały się standardem w specjalistycznych programach do ekonometrii.

Darmowa wersja z 1972 r. kończy się na roku 1972. Harter napisał drugą wersję w 1974. Mimo iż różnica to tylko 2 lata, Autor dodał i opisał dodatkowo jeszcze 118 pozycji. Większość z nich ma zastosowanie do modeli ekonomicznych i finansowych. Myślę, że dzisiaj byłoby to dziesiątki tysięcy.

niedziela, 30 października 2016

Średnia warunkowa czy niewarunkowa?

Finansiści, stosując od czasu do czasu regresję liniową, np. model trendu, rzadko myślą o zmiennej losowej warunkowej. Ale to właśnie pojęcie warunkowości tworzy różnicę pomiędzy zwykłą średnią arytmetyczną a stopą w modelu trendu. Ostatnio pokazałem to za pomocą "Smarującego estymatora" (SE) Duana. SE posłużył mi jako oczekiwana stopa zwrotu w dwóch przypadkach:
1) gdy cena rośnie wykładniczo w czasie, tzn. prawdziwy jest model P(t) = e^(bt + składnik losowy), przy czym składnik losowy może pochodzić z dowolnego rozkładu;
2) gdy cena nie zależy od czasu, tzn. średnio znajduje się ciągle na tym samym poziomie. Np. WIG od końca 10.2006 do końca 10.2016 to praktycznie linia płaska:



Okazało się, że w tym drugim przypadku SE sprowadza się do niewarunkowej średniej arytmetycznej stopy zwrotu. Natomiast gdy istnieje wykładnicza zależność od czasu, to SE jest warunkową średnią równą e^b*D, gdzie D to korekta Duana liczona jako średnia arytmetyczna z wykładniczych składników losowych e^(składnik losowy). Zatem, jeżeli czas staje się warunkiem dla zmian kapitału, to średnia niewarunkowa przekształca się w średnią warunkową.

Jednak inwestor przyzwyczajony do pojęcia stopy zwrotu zaczyna się zastanawiać: w jaki sposób czas miałby w ogóle wpływać na stopę zwrotu? Przecież po to właśnie jest pojęcie stopy, czyli procentu, aby uniezależnić zmiany kapitału od kolejnych okresów. Ale gdy spojrzymy na to zagadnienie tak jak na różnicę pomiędzy średnią arytmetyczną a geometryczną, odpowiedź staje się jaśniejsza: gdy obliczamy średnią geometryczną, uwzględniamy fakt, że wartość kapitału zależy od okresu poprzedniego, bo jest jakby oprocentowany. Natomiast gdy wyznaczamy średnią arytmetyczną, każdą zmianę kapitału traktujemy całkowicie niezależnie od poprzednich okresów. To stąd przecież powstaje różnica pomiędzy "długookresową średnią stopą zwrotu" a "krótkookresową średnią stopą zwrotu", wskazując w pierwszym przypadku na czasową zależność zmian kapitału oraz w drugim przypadku na ich niezależność.

A stąd już tylko krok do zrozumienia różnicy pomiędzy warunkową a niewarunkową średnią: ta pierwsza zawiera część stochastyczną D oraz część systematyczną e^b. Część systematyczna jest niczym innym jak średnią geometryczną brutto w rozkładzie ciągłym. Oczywiście jest różnica między rozkładem ciągłym a dyskretnym, ale w modelu ciągłym zakładamy, że pomiędzy dwoma oddalonymi punktami możemy wstawić pewną średnią z tych punktów, ponieważ czas jest ciągły. Nie będzie to średnia arytmetyczna, ale właśnie geometryczna. Jeżeli mamy okres pomiędzy 10 a 11, np. 10,5 i chcemy wyznaczyć teoretycznie ten punkt, to zauważmy, że średnia geometryczna brutto z wartości pomiędzy okresem 10 a 11 równa się (e^10*e^11)^0,5 = e^(21*0,5) = e^10,5. Trzeba jednak zaznaczyć, że przejście od rozkładu dyskretnego do ciągłego w rzeczywistości wszystko zmienia, bo o ile w dyskretnym stopy brutto wewnątrz okresu się redukują, tak że wpływ na średnią ma jedynie pierwsza i ostatnia wartość, o tyle w ciągłym już tego zrobić nie mogą i jest to poniekąd przyczyna, dla której średnia geometryczna brutto w rozkładzie ciągłym staje się równa medianie, co odpowiada temu co napisałem kiedyś w Istota i znaczenie logarytmicznej stopy zwrotu.

Oczywiście trzeba pamiętać, że średnia warunkowa jest znacznie szerszym pojęciem niż tylko w kontekście czasu. Częściej średnia warunkowa traktowana jest w powiązaniu z inną zmienną losową. Np. w dwuwymiarowym rozkładzie normalnym, w którym zmienne losowe X i Y są ze sobą skorelowane, wartość oczekiwana Y pod warunkiem, że X = x jest dana wzorem [2]:


Jeżeli współczynnik korelacji ρ jest równy zero, warunkowa wartość oczekiwana Y sprowadza się do niewarunkowej wartości oczekiwanej m(Y). W przeciwnym razie Y zależy od zachowania X. Na przykład Y może być stopą zwrotu z akcji, a X stopą zwrotu z indeksu giełdowego. Gdyby obie pochodziły z rozkładu normalnego, to przedstawiona relacja byłaby zawsze prawdziwa i zawsze liniowa. Widać więc, jak istotną rolę pełni warunkowość, którą można rozpatrywać zarówno w kontekście przestrzeni jak i czasu.

Literatura:
[1] N. Duan, Smearing Estimate: A Nonparametric Retransformation Method, Sep. 1983,
[2] Z. Hellwig, Elementy rachunku prawdopodobieństwa i statystyki matematycznej, PWN W-wa 1998.