poniedziałek, 19 września 2016

Transformacja lognormalnego modelu z nieznanym parametrem

Problem estymacji parametrów nieliniowych funkcji losowych poprzez przekształcenia liniowe jest znany w statystyce od dawna i ma bogatą historię. Zajmowali się nią Barlett [1], Quenouille [2], Neyman i Scott [3], Box i Cox [4], Hoyle [5], Granger i Newbold [6], Duan et al. [7], Taylor [8] i wielu innych. W szczególności transformacjami rozkładów lognormalnych zajmowali się Finney [9],  Mostafa i Mahmoud [10], Meulenberg [11], Goldberger [12], Bradu i Mundlak [13] , Heien [14], Teekens oraz Koerts [15], Evans i Shaban [16], Duan [17].

Zacznijmy ponownie  od modelu, który opisałem w Czy mediana jest lepsza od średniej?, tj. proces geometrycznego ruchu Browna, jednak dla uproszczenia pomińmy stałą, która nie ma tutaj wpływu na analizę:

(1)

Logarytmując model (1) uzyskujemy funkcję liniową, co pozwala nam na użycie MNK:


Wiemy już, że prosta delogarytmizacja ostatniego równania nie prowadzi do otrzymania wartości oczekiwanej P(t). Aby ją uzyskać, musimy wykorzystać własności rozkładu lognormalnego. Składnik losowy z początkowego założenia ma rozkład normalny, wobec czego exp(składnik losowy) ma rozkład lognormalny. Ale co z parametrem b? Dotychczas dla uproszczenia zakładaliśmy, że b jest znane. W rzeczywistości nie znamy parametru b. Jeżeli nawet b jest nieznane, to ciągle pozostaje stałą, wobec czego wartość oczekiwana zmiennej lognormalnej pozostaje jak w poprzednich rozważaniach:

(2)

W rzeczywistości b jest nieznane, bo operujemy zawsze na pewnej próbie losowej, a więc szacowany parametr będzie się zachowywał jak zmienna losowa (dla danego okresu) o wartości oczekiwanej E(b) i pewnej wariancji. W tym  miejscu chcę jednak zrobić pewną dygresję. Trzeba zauważyć, że w ekonometrii mamy 2 rodzaje zupełnie niezależnych wartości oczekiwanych: dla stałej wartości (w populacji) oraz dla zmiennej losowej (w populacji i w próbie). W pierwszym przypadku mamy do czynienia po prostu z prawdziwym parametrem istniejącym de facto dla pełnej populacji. Jednak próbki z tej populacji będą losowe i będą kreować statystyki, jak średnia i wariancja. Dopiero przy bardzo dużej liczebności próbki, wariancja będzie spadać do zera, tak że pozostanie tylko średnia, która zbliży się do prawdziwego parametru i w ten sposób wartość oczekiwana zmiennego parametru z próby będzie się równać prawdziwemu parametrowi. W drugim przypadku wartość oczekiwana dotyczy zmiennej losowej, która posiada pewien rozkład w populacji. Wtedy próbki losowe będą kreować własne rozkłady, ale wraz z wielkością próby będą zbliżać się do rozkładu z populacji, podobnie jak w pierwszym przypadku. Jednakże wariancja nie będzie już spadać wraz z liczebnością próby. Niezależnie od tego czy mówimy o pierwszym czy o drugim przypadku, zawsze określenie "wartość oczekiwana" będzie się odnosić do średniej z populacji. Wartość oczekiwana parametru b będzie więc równać się prawdziwemu parametrowi.

Chociaż moglibyśmy przyjąć drugą możliwość - z parametrem jako zmienną losową - to czyniłoby to analizę znacznie bardziej skomplikowaną. Dlatego przyjmiemy standardowy punkt widzenia - czyli że istnieje tylko jeden prawdziwy parametr, ale dążymy do jego uzyskania na podstawie prób losowych. Oznacza to, że parametr b jest stały, więc model (2) jest nadal poprawny.

Uzyskany na podstawie prób losowych parametr oznaczamy b z daszkiem. Model (1) estymujemy za pomocą:

(3)

Co ważne, b (z daszkiem) staje się teraz zmienną losową. Ponieważ składnik losowy ma rozkład normalny, to zmienna b także. Wartość oczekiwana exp(b z daszkiem) równa się E(b z daszkiem) plus połowa wariancji b z daszkiem. Jednak zmienna jest przemnożona przez okres t, czyli zmienna jest odpowiednio skalowana. Zmienna bt jest ciągle zmienną losową o rozkładzie normalnym, zatem exp(bt) ma rozkład lognormalny. Pamiętać trzeba, że okres t jest tutaj wartością stałą. Z własności wartości oczekiwanej i wariancji wiemy, że


Wobec tego wartość oczekiwana exp(bt) równa się t*E(b z daszkiem) plus połowa wariancji b z daszkiem razy t^2. Całkowity model z wartością oczekiwaną to przekształcenie z (3)

(4)

Aby nie mylić jednostek czasowych ze zmienną, t zastąpimy ostatnim okresem T. Ponieważ wariancja składnika losowego sumuje się w czasie, zapiszemy ją jako średnią wariancję przemnożoną przez T:

(5)

(Wariancja b z daszkiem w przeciwieństwie do składnika losowego jest stałym parametrem, a nie funkcją czasu, bo dotyczy jednostki czasu - porównaj własności zmiennych losowych w (1) i (4)). Aby uprościć model (5), wykorzystamy dwa znane wzory: na ocenę parametru b z daszkiem oraz wariancję parametru b z daszkiem. (Oba można znaleźć np. w Uriel [18], wzory 2-37 + 2-64). Pierwszy to estymator MNK dla b w sytuacji gdy stała w modelu liniowym jest równa 0:

(6)

Jednak sumę kwadratów liczb naturalnych można wyrazić za pomocą (zob. np. http://www.trans4mind.com/personal_development/mathematics/series/sumNaturalSquares.htm):

(7)

Stąd:

(8)

Drugi wzór na wariancję współczynnika b pokażemy od razu wykorzystując wzór (7):

(9)

Teraz powrócimy do wzoru (5), do którego podstawiamy (9):

(10)

Uzyskaliśmy ocenę wartości oczekiwanej ceny. W końcu przypomnijmy, że (2) można zapisać:

(11)
 Co oznacza, że nasz model (10) będzie go przypominał wraz ze wzrostem liczebności próby T:

 Inaczej mówiąc:


I teraz rodzi się największa zagadka. Na początku stwierdziłem, że wartość oczekiwana z populacji zmiennej b z daszkiem będzie równa b, czyli:

(12)

Ale wtedy dla dowolnego T można będzie (11) zapisać:

(13)

Co oczywiście prowadzi do paradoksu, bo wtedy (10) = (11), co będzie tylko prawdą dla f = 1. Gdzie więc tkwi błąd? Otóż nie ma błędu, bo prawdziwa wartość oczekiwana dotyczy pełnej populacji, a więc gdy T jest bardzo duże, czyli gdy f = 1. Cały kłopot powstaje w momencie, gdy przechodzimy od modelu (3) do (4). W równaniu (4) pojawia się E(b z daszkiem), ale zazwyczaj w praktyce zastępujemy ją estymatorem obliczonym z MNK, tj. (6) lub (8). Ale to właśnie w tym podstawieniu leży pewien błąd, bo:

(14)

Wprawdzie twierdzenie Gaussa-Markowa mówi, że obliczony parametr MNK jest nieobciążony, a więc że jego wartość oczekiwana jest równa prawdziwemu parametrowi, ale to oznacza tylko równość (12). Tymczasem uzyskane b z falką w (6) i (8) jest po prostu oceną współczynnika z próby. Nie jest wartością oczekiwaną dla b z daszkiem, ale - jak już - oceną tej wartości:

(15)

Czyli formalnie rzecz biorąc nie można podstawić do (10) estymatora b z falką. Jeżeli robimy tak w praktyce, to musimy zdawać sobie sprawę, że taki model zawiera błąd.

Meulenberg [11] pokazał, jak można w przybliżony sposób ustalić ten błąd, a więc także jak go skorygować. Najpierw zaczynamy od modelu (3) i traktujemy parametr b z daszkiem jak stałą i po zlogarytmowaniu wyznaczamy b z falką (MNK), które podstawiamy za b z daszkiem. Oznacza to, że wartość oczekiwana z (3) stanie się prostym modelem:

 (16)


Zmienna b z daszkiem zawsze przyjmie pewną wartość, a tym samym staje się stałym parametrem (b z falką) w modelu oczekiwanej ceny. Zauważmy, że model (10) stanowi T-okresową wartość oczekiwaną ceny z daszkiem, ale ze względu na (15) model (16) jest pewną średnią T-okresową dla ceny z daszkiem. Możemy więc potraktować (16) jak estymator dla (10). Tym sposobem Meulenberg zrównuje (10) z (16):


Ale ze względu na (14):

przekształcając:

Co daje:

(17)

Ostatecznie widać jaki błąd wywołuje retransformacja z modelu liniowego do nieliniowego:


Błąd ten bierze się stąd, że ocena parametru b ulega zmianom w czasie, jest zmienną losową, natomiast prawdziwy parametr jest stały w czasie. Gdyby ocena była stałą liczbą, błąd ten nie wystąpiłby. Ponieważ dążymy do uzyskania E(P), z równania (17) wyznaczamy:

(18)

Lub w nieco prostszym ujęciu:

(19)

Podobnie jak to wcześniej analizowaliśmy, gdy k rośnie, błędy związane z przekształceniem funkcji liniowej w wykładniczą tracą coraz bardziej na znaczeniu, tak że w dużej próbie b z falką stanie się bliskie prawdziwemu parametrowi b.

Pozostaje jeszcze kwestia wariancji. Oczywiście nie znamy prawdziwej wariancji składnika losowego, ale możemy posłużyć się jej estymatorem. Np. użyjemy tzw. błędu standardowego reszt, będącego pierwiastkiem wariancji składnika resztowego. Takiej nazwy używa się w Gretlu.

Faktycznie, nie jest to prosty temat. Przyda się parę przykładów.

Przykład. DO DOKOŃCZENIA...



Literatura:
[1] M. S. Bartlett, The Use of Transformations, Mar 1947
[2] M. H. Quenouille, Notes on Bias in Estimation, Dec 1956
[3] J. Neyman, E. L. Scott, Correction for Bias Introduced by a Transformation of Variables, Sep 1960
[4] G. E. P. Box, D. R. Cox, An Analysis of Transformations, 1964
[5] M. H. Hoyle, Estimating Generating Functions, Nov 1975
[6] C. W. J. Granger, P. Newbold, Forecasting Transformed Series, 1976
[7] N. Duan, W. G. Manning, Jr., C. N. Morris, J. P. Newhouse, A Comparison of Alternative Models for the Demand for Medical Care, Apr 1983
[8] J. M. G. Taylor, The Retransformed Mean After a Fitted Power Transformation, Mar 1986
[9] D. J. Finney, On the Distribution of a Variate Whose Logarithm is Normally Distributed, 1941
[10] M. D. Mostafa, M. W. Mahmoud, On the Problem of Estimation for the Bivariate Lognormal Distribution, Dec 1964
[11] M. T. G. Meulenberg, On the Estimation of an Exponential Function, Oct 1965
[12] A. S. Goldberger, The Interpretation and Estimation of Cobb-Douglas Functions, 1968
[13] D. Bradu and Y. Mundlak, Estimation in Lognormal Linear Models, Mar 1970
[14] D. M. Heien, A Note on Log-Linear Regression, 1968
[15] R. Teekens, J. Koerts, Some Statistical Implications of the Log Transformation of Multiplicative Models, Sep 1972
[16] I. G. Evans, S. A. Shaban, A Note on Estimation in Lognormal Models, Sep 1974
[17] N. Duan, Smearing Estimate: A Nonparametric Retransformation Method, Sep. 1983
[18] E. Uriel, The simple regression model: estimation and properties, 09-2013

poniedziałek, 5 września 2016

Szybkie porównywanie statystyk w Wolphram Alpha

Jeśli nie mamy za bardzo czasu na głębsze analizy makroekonomiczne, ale chcielibyśmy uzyskać szybko wskaźniki porównawcze, możemy posłużyć się narzędziem Wolphram Alpha (WA). WA służy głównie do rozwiązywania różnych, często skomplikowanych problemów matematycznych, ale jego użyteczność na tym się nie kończy. Powiedzmy, że najpierw chcę sprawdzić jak się zachowuje wzrost PKB w Polsce. Wpisuję np. "gdp growth poland" i wciskam Enter:



Dalej, np. chcę porównać wzrost PKB w Polsce ze wzrostem PKB w USA. Wpisuję w wyszukiwarce WA np. "poland gdp growth vs usa gdp growth":




Wpiszmy "Poland unempoyment rate vs GDP growth rate":



Jeśli chodzi o dane ekonomiczne, WA nie jest jakimś wybitnym narzędziem, bo wielu bardziej szczegółowych rzeczy nie znajdziemy (np. gdy chciałem znaleźć porównanie danych kwartalnych, to nie dostałem tego co chciałem). Najlepsze statystyki dostaniemy, gdy porównamy pewne ogólne cechy, np. wpiszemy "Poland vs Germany":






Niektóre statystyki pominąłem.
Nawiasem mówiąc, biorąc pod uwagę tzw. Kryzys Migracyjny , tj. ciągły napływ uchodźców np. do Niemiec, dość interesujące, że w Niemczech aż 91% populacji to ciągle Niemcy, a więc niewiele mniej niż Polaków w Polsce (96%) - dane są z 2014 r. Dalej, patrząc na religię, o ile Polska to niemal w 100% kraj katolicki, o tyle Niemcy są w dużej mierze ateistami, stąd tylko 76% uważa się za chrześcijan, natomiast islam stanowi tylko 4,5%. Język natomiast już w ogóle tak jak w Polsce jest niemal w 100% "rdzenny".

WA można także wykorzystać do wielu analiz statystycznych. Np. wpisanie "z-test for population mean", dostarczy szczegółowej analizy statystyki z. Wybieramy dane do testu, np.


I otrzymujemy takie informacje:



co oznacza, że (zakładając rozkład normalny) jeśli liczba obserwacji = 100, a średnia z próbki wynosi 0,2 i odchylenie standardowe = 1, to hipoteza sprawdzająca czy średnia z populacji wynosi 0, zostanie odrzucona na poziomie istotności 5%, ponieważ p-value = 4,55% < 5%.

Następnie, łatwo sprawdzić regresję liniową, którą można prosto ułożyć stosując np zapis: linear fit {34, 20},{40, 23},{48, 22},{52, 29},{57, 27.5}, {62, 31}



WA podaje wiele innych przykładów funkcji statystycznych (np. przedział ufności dla średniej i odchylenia standardowego) i ekonometrycznych (np. "exponential fit" czy "log fit").

Na koniec, jako ciekawostkę, dodam, że jest też możliwość użycia CAPM:

niedziela, 28 sierpnia 2016

Mediana, średnia arytmetyczna, geometryczna i skośność

Warto sobie uświadomić, kiedy mediana (Me) przyjmuje wartość średniej arytmetycznej (A), a kiedy geometrycznej (G). Jak wiadomo w rozkładzie normalnym Me = A. Nieco mniej znany jest fakt, że w rozkładzie log-normalnym Me jest równa G. W artykule Czy mediana jest lepsza od średniej? twierdziłem, że dla rozkładu nie-normalnego Me jest lepszym estymatorem niż A dla krótkoterminowej stopy zwrotu. To prowadzi jednak do paradoksu: jeżeli miałoby to dotyczyć rozkładu log-normalnego, to znaczyłoby to, że Me, która jest wtedy równa G, powinna zastąpić A, a przecież właśnie A dostarcza informacji krótkoterminowych. Ten paradoks wynika po prostu ze ścierania się ze sobą dwóch różnych koncepcji: nieobciążoności i efektywności estymatora. Jeżeli bardziej zależy nam na wartości oczekiwanej, to wybieramy nieobciążoność, jeżeli bardziej zależy nam na jak najmniejszym ryzyku, wybieramy efektywność. Dla krótkoterminowej stopy wartość oczekiwana = A, dla długoterminowej stopy wartość oczekiwana = G  (por. art. z W poszukiwaniu nieznanej wartości oczekiwanej - część 2).
Widać, że mediana będzie skakała ze średniej arytmetycznej w rozkładzie normalnym do średniej geometrycznej w rozkładzie log-normalnym. Wiemy, że dla zmiennej losowej zawsze A > G. Oczywiste więc, że przechodząc od rozkładu normalnego do log-normalnego mediana będzie się zmniejszać.

Możemy znaleźć ogólną przybliżoną  relację pomiędzy tymi 3-ma miarami i sprawdzić jak zachowuje się Me. Przypomnę wzór na G, który wyprowadziłem w art. O relacji między arytmetyczną a geometryczną stopą zwrotu:



gdzie:
V - wariancja
Sk - skośność, czyli 3-moment centralny podzielony przez wariancję do 3/2
K - kurtoza, czyli 4-moment centralny podzielony przez wariancję do kwadratu.

Jednocześnie wiadomo, że współczynnik skośności Sk jest często wyrażany za pomocą wzoru* [np. 1, 2]:


Wobec czego G1 przyjmuje postać:




Gdy rozkład jest normalny, to Me = A. Gdy pojawia się skośność dodatnia, Me zaczyna spadać, aby skośność mogła rosnąć. Ale jednocześnie rośnie wtedy G1 (bo licznik rośnie). Skoro wiemy, że G1< A, to wnioskujemy, że w pewnym punkcie G1 zrówna się z Me. W tym punkcie rozkład staje się log-normalny.
Filozoficznie możemy rozumować, że skoro z jednej strony mediana jest odporna na wstrząsy, z drugiej długokresowe tempo zmian staje się medianą, to inwestycja długoterminowa jest bardziej odporna na wstrząsy.


* Inny często używany wzór to (zob. np. [3]):









Literatura:
[1] MacGillivray, H. L., Skewness and Asymmetry: Measures and Orderings, Sep. 1986,
[2] Arnold B. C. A., Groeneveld, R. A., Measuring Skewness with Respect to the Mode, Feb. 1995,
[3] Eisenhauer, J. G., Symmetric or Skewed?, Jan. 2002.

wtorek, 16 sierpnia 2016

Czy mediana jest lepsza od średniej?

Chociaż standardowo oczekiwana stopa zwrotu utożsamiana jest z wartością oczekiwaną w sensie matematycznym, to jest to tylko pewne założenie. Już sama wartość oczekiwana nie jest pojęciem absolutnym, bo w zależności od okresu inwestycyjnego jaki przyjmujemy może ona przyjąć postać albo średniej arytmetycznej, albo geometrycznej (wprowadzenie do tematu - patrz Krótkoterminowa vs. długoterminowa średnia stopa zwrotu), albo kombinację tych obydwu (pełna analiza - patrz W poszukiwaniu nieznanej wartości oczekiwanej - część 1W poszukiwaniu nieznanej wartości oczekiwanej - część 2 ). Jeżeli skupiamy się na krótkich okresach, to wartość oczekiwana będzie bliska średniej arytmetycznej. Niestety ze względu na występowanie wielu wartości odstających w szeregach giełdowych stóp zwrotu, średnia ta nie jest dobrym estymatorem wartości oczekiwanej. Stąd często poleca się użycie mediany, która - jako wartość środkowa - oczywiście zmienia się bardzo powoli, a przez to ma niską wariancję. Temat ten rozpocząłem kiedyś w artykule Istota i znaczenie logarytmicznej stopy zwrotu, a teraz go rozszerzę.

Powstaje pytanie czy mediana jest to ten estymator, który ma najmniejszą możliwą wariancję, tzn. czy jest estymatorem najefektywniejszym? Mimo że w zagadnieniach czysto inwestycyjnych, raczej rzadko się używa pojęć efektywność estymatora (pojęcie "efektywność" jest inne w ekonomii), to trzeba zauważyć, że dla inwestora ma to duże znaczenie: dobrze jest posiadać estymator oczekiwanej stopy zwrotu, który prawie nie zmienia się w czasie.

Jak jednak sprawdzić czy mediana jest tak dobra? Najpierw załóżmy dla uproszczenia, że cena akcji jest procesem geometrycznego ruchu Browna. Poniżej przykład tego procesu, którego model zbudowałem w Excelu:



Jak widać proces ten całkiem odpowiada giełdzie. Moglibyśmy go zapisać w ten sposób:

(1)


 Następnie przekształcamy:



 Ponieważ parametr a jest całkowicie wolny, to można oznaczyć a = ln(P(0)) i stąd dostajemy:



Zatem współczynnik nachylenia b stanowi wartość oczekiwaną średniej arytmetycznej z logarytmicznych stóp zwrotu. W ten sposób doszliśmy do logarytmicznych stóp zwrotu.

Stopy zwrotu geometrycznego procesu ruchu Browna mają rozkład lognormalny. Logarytmy geometrycznego procesu ruchu Browna mają z kolei rozkład normalny (logarytm normalizuje zmiany). Zatem parametr b stanowi wartość oczekiwaną w rozkładzie normalnym. Wiadomo jednocześnie, że w rozkładzie normalnym mediana jest równa wartości oczekiwanej, a więc prawidłowa estymacja b automatycznie dostarczy nam medianę.

Model, który skonstruowaliśmy to E(lnP) = a + bt, który spełnia wszystkie warunki potrzebne do zastosowania metody najmniejszych kwadratów (MNK). Zgodnie z twierdzeniem Gaussa-Markowa estymator MNK jest estymatorem nieobciążonym (tzn. jest równy E(b)) i najefektywniejszym spośród innych liniowych estymatorów. Z tego jednak nie wynika, by mediana miała być "lepsza" od wartości oczekiwanej.

Jednakże musimy powrócić do pierwotnego modelu geometrycznego, a więc potrzebna jest detransformacja. Tylko zauważmy, że  powrót do oryginału jest mylący: 




A więc nie dostajemy wartości oczekiwanej ceny. Możemy jednak łatwo wykonać odpowiednią korektę. Zaczynamy od pierwotnego modelu (1):




Składnik losowy z początkowego założenia ma rozkład normalny, wobec czego exp(składnik losowy) ma rozkład lognormalny. A rozkład ten ma znane własności, tak że dostajemy:



Wariancja jest tutaj funkcją rosnącą z każdym okresem. Wiadomo, że wariancja ma własność addytywności, wobec czego całkowita wariancja może zostać podzielona na t okresów. Dlatego wariancja średniej arytmetycznej jest równa wariancji sumarycznego procesu podzielonej przez t okresów. Z tego wynika, że wariancja sumarycznego procesu jest to średnia wariancja razy t okresów. Stąd dla t:

(2)

dla t+1

(3)



Łączymy (2) i (3) dostając średnią stopę zwrotu

(4)


Pamiętamy, że wariancja składnika losowego jest równa wariancji samej stopy zwrotu (por. ostatni wzór w Odchylenie od nieznanej wartości oczekiwanej), w tym przypadku log-stopy zwrotu.

Oczywiście zadamy teraz pytanie jaka w takim razie jest mediana stopy w oryginalnym modelu? Aby ją uzyskać możemy wykorzystać twierdzenie że dla dowolnej funkcji monotonicznej każde przekształcenie mediany z oryginalnego rozkładu staje się medianą przekształconego rozkładu [1]. Wobec tego jeśli me to mediana rozkładu normalnego, to Me = e^me stanowi medianę w rozkładzie lognormalnym. U nas, jak wcześniej zauważyliśmy, me = b, to znaczy, że exp(b) stanowi medianę w rozkładzie lognormalnym. Jeśli nadal mamy wątpliwości, to łatwo znajdziemy, np. na Wikipedii, że mediana w rozkładzie lognormalnym równa się exp(b), dlatego że b - jak wykazałem wyżej - jest wartością oczekiwaną w rozkładzie normalnym.

Wiadomo, że wartość oczekiwana w rozkładzie lognormalnym wyraża się wzorem exp(b + var/2), zatem jest to dokładnie to co uzyskaliśmy w (4). Szerzej możemy oznaczyć średnią arytmetyczną jako wartość oczekiwaną. Jeśli A to średnia arytmetyczna w rozkładzie lognormalnym, a Me - mediana w rozkładzie lognormalnym, to:

(5)

Można więc dojść do wniosku, że log-normalna średnia arytmetyczna zawsze będzie bardziej zmienna od log-normalnej mediany, ponieważ zawiera dodatkową zmienną - wariancję składnika losowego (albo logarytmicznej stopy zwrotu), która implikuje dodatkową losowość (zmienność).

Oczywiście gdyby zlogarytmowane stopy miały w rzeczywistości rozkład normalny, to nie byłoby problemu odstających obserwacji, które zapoczątkowały cały wywód. Jednakże po pierwsze twierdzenie Gaussa-Markowa nie wymaga normalności składnika losowego. Aby MNK móc powiązać z medianą, potrzebna jest symetryczność rozkładu po transformacji, tak by mediana zrównała się z wartością oczekiwaną. Dzięki twierdzeniu, że rozkład i mediana przekształcają się proporcjonalnie, możemy sobie wyobrazić, że przekształcamy nawet w skomplikowany sposób jakiś oryginalny model (rozkład), tak by uzyskać rozkład symetryczny. Przykładowo w wykładniku we wzorze (5) pojawiłby się jakiś dodatkowy czynnik, np. skośność.
Po drugie sam fakt, że nie interesuje nas sama wartość oczekiwana, ale jak największa efektywność estymatora sprawia, że twierdzenie Gaussa-Markowa przestaje mieć istotne znaczenie, a przez to traci je również MNK. Statystycy rozwinęli wiele innych metod, np. metodę najmniejszych wartości bezwzględnych (MNB). Od dawna wiadomo, że rozwiązaniem zadania minimalizacji sumy wartości absolutnych jest właśnie mediana (są różne sposoby na dowód - zob. np. [2, 3]). Basset i Koenker pokazali, że MNB jest bardziej efektywna od MNK w modelach liniowych, w których mediana jest bardziej efektywna (tzn. ma mniejszą wariancję) od średniej. Oznacza to, że dla większości modeli liniowych, pomijając gaussowskie, MNB jest efektywniejsza [4]. Również Dielman [5] empirycznie zademonstrował, że dla rozkładów z długimi ogonami MNB jest efektywniejsza, natomiast dla rozkładów normalnych lepsze rezultaty daje MNK.


[1]. Miller, D. M., Reducing Transformation Bias in Curve Fitting, May, 1984,
[2] Schwertman, N. C., Gilks, A. J., Cameron, J., A Simple Noncalculus Proof That the Median Minimizes the Sum of the Absolute Deviations, Feb 1990,
[3] Lee, Y-S, Graphical Demonstration of an Optimality Property of the Median, Nov 1995,
[4] Bassett, Jr., G., Koenker R., Asymptotic Theory of Least Absolute Error Regression, Sep 1978,
[5] Dielman, T. E., Least Absolute Value vs. Least Squares Estimation and Inference Procedures in Regression Models with Asymmetric Error Distributions, 2009.