czwartek, 3 listopada 2016

"Metody najmniejszych kwadratów i niektóre alternatywy" - książka Hartera

Chyba najlepszym sposobem na zwiększenie pokory wobec nauki jest zobaczenie jak ogromny postęp dokonał się w danej dziedzinie w określonym przedziale czasu. Na przykład w ekonometrii osobną poddziedziną można nazwać metodę najmniejszych kwadratów (MNK), której historia zaczyna się mniej więcej od XVIII w. (choć pre-historia od Galileusza, od 1632 r.). Harter opisał ją bardzo, bardzo szczegółowo w książce "The Method of Least Squares and Some Alternatives". Wersję z 1972 r. można pobrać w słabej jakości z poniższego linku:

www.dtic.mil/dtic/tr/fulltext/u2/752211.pdf

Dowiadujemy się, że przed narodzinami MNK narodziła się metoda najmniejszych błędów absolutnych opisana przez Boscovicha w 1757, a także metoda największej wiarygodności, którą zaproponował Bernoulli w 1778. Mimo iż MNK kojarzy się dziś tylko z funkcją regresji, a więc ze zmienną warunkową, jej historia zaczęła się od pytania o właściwe określenie średniej dla zmiennej niewarunkowej. Duży wkład w tym temacie miał Laplace, który w 1781 najpierw przedstawił 4 kryteria, którymi można się kierować przy wyborze miary centralnej tendencji:
1) można wymagać takiej średniej, aby suma dodatnich błędów równała się sumie ujemnych błędów (średnia arytmetyczna);
2) można wymagać, aby suma dodatnich błędów przemnożonych przez ich odpowiednie prawdopodobieństwa równała się sumie ujemnych błędów przemnożonych przez ich odpowiednie prawdopodobieństwa (średnia ważona);
3) można wymagać, aby średnia była najbardziej prawdopodobną prawdziwą wartością (kryterium największej wiarygodności Bernoulliego);
4) można wymagać, aby błąd był minimalny; tzn. aby suma iloczynów błędów i ich prawdopodobieństw była najmniejsza.

Laplace pokazał, że kryterium (4), które uważał za podstawowe, jest równoważne kryterium (2). Pokazał też, że (4) prowadzi do średniej arytmetycznej i w ten sposób zgadza się z (1) pod warunkiem, że:
1. rozkład prawdopodobieństwa jest taki sam dla wszystkich obserwacji;
2. rozkład jest symetryczny;
3. błąd może dążyć do nieskończoności, ale wtedy jego prawdopodobieństwo dąży do zera.

Później w 1805 r. Legendre jako pierwszy opublikował MNK. Gauss również jej używał, jeszcze przed swoimi publikacjami. W 1809 r. Gauss publikuje twierdzenie, że w symetrycznym i jednomodalnym (czyli z jedną dominantą) rozkładzie istnieje tylko jedno prawo - tzw. normalne prawo błędów - dla którego najbardziej prawdopodobną wartością jest średnia arytmetyczna. Prawdopodobieństwo odchylenia jest proporcjonalne do exp(-h x^2), gdzie h = 1/(2s^2), s - odch standardowe, x - zmienna losowa będąca odchyleniem (błędem) od wartości oczekiwanej. Zatem Gauss powiązał kryterium (1) z (3) Laplace'a (pamiętajmy, że mówimy tu ciągle jeszcze o zmiennej niewarunkowej). Jednocześnie dowiódł, że MNK, którą zaprezentował Legendre, stanowi konsekwencję prawa błędów. W 1810 Laplace dowiódł, że przy ogólnych warunkach rozkład średnich w próbie dąży do normalnego. W 1816 r. Gauss zauważył, że nie jest potrzebna precyzja h, aby zastosować MNK. Prawo błędów dostarcza informacji o prawdopodobieństwie odchylenia od średniej, natomiast MNK dostarcza średnią wartość estymatora. W 1818 Laplace porównał MNK z metodą najmniejszych błędów absolutnych zaproponowaną przez Boscovicha i doszedł wniosku, że pierwsza z nich prowadzi do średniej arytmetycznej, natomiast druga do mediany. W końcu w 1823 Gauss uzasadnił użycie MNK bez założenia normalności rozkładu odchyleń.

W 1830 r. Hauber rozszerzył  pracę Gaussa na estymację, gdy obserwacje pochodzą z (możliwie) różnych populacji - o różnych wariancjach, a więc zmienna x przestaje być IID.

W ten sposób rozpoczęła się era teoretycznych odkryć MNK wraz z jego alternatywami. Im dalej, tym modele coraz bardziej złożone, ale i dokładniejsze. Dziś Uogólniona MNK, nieliniowa MNK czy nawet nieparametryczne MNK stały się standardem w specjalistycznych programach do ekonometrii.

Darmowa wersja z 1972 r. kończy się na roku 1972. Harter napisał drugą wersję w 1974. Mimo iż różnica to tylko 2 lata, Autor dodał i opisał dodatkowo jeszcze 118 pozycji. Większość z nich ma zastosowanie do modeli ekonomicznych i finansowych. Myślę, że dzisiaj byłoby to dziesiątki tysięcy.

Brak komentarzy:

Prześlij komentarz