niedziela, 16 października 2016

Smarujący estymator

Poprzednio pokazałem, że gdy przyjmiemy model geometrycznego procesu ruchu Browna (model ceny aktywa):

(1)


oraz wiedząc, że parametr b jest nieznany, tak że możemy jedynie oszacować jego wartość na podstawie próby losowej, to wartość oczekiwana stopy zwrotu (R) może być oszacowana za pomocą modelu:

(2)gdzie b z falką to estymator MNK z modelu ln(P) = b*T + składnik losowy.

Wyraz k wyraża błąd retransformacji z postaci liniowej do nieliniowej (pierwotna jest postać nieliniowa, która jest transformowana do liniowej przez logarytmowanie, aby zastosować MNK; następnie powracamy do postaci nieliniowej, czyli dokonujemy retransformacji). Jak widać przy nieco większym T, wyraz k ma bardzo mały wpływ.

Geometryczny ruch Browna zakłada jednak rozkład log-normalny. Z tym rozkładem jest ten problem, że jego lewy ogon bardzo szybko zbiega do zera:

W rzeczywistości dobrze wiemy, że na giełdach zdarzają się rzadkie, ale bardzo silne odchylenia, a także asymetria. Kwartalny sWIG80 od 01.1994 do 03.2016 (87 obserwacji) miał minimum na poziomie -40%, a maksimum prawie +54%. Poniżej jest wykres oszacowanego rozkładu sWIG80 (zrobiony w Gretlu za pomocą jądra Gaussa - metoda ta daje zniekształcony obraz, bo sugeruje, że wystąpiły wartości poniżej -40%, co jest nieprawdą):W tym wypadku lepszy okazuje się rozkład normalny, choć występuje tu pewna skośność.

Duan [1] przedstawił metodę retransformacji, która nie zakłada z góry żadnego rozkładu. Duan nazwał swój estymator "smarującym estymatorem" (smearing estimate). Pokazał, że jego estymator daje lepsze rezultaty, tzn. jest bardziej efektywny, gdy rozkład stopy zwrotu nie jest log-normalny, a więc gdy logarytmiczna stopa zwrotu nie posiada rozkładu Gaussa. 

Smarujący estymator (SE) dla oczekiwanej stopy zwrotu można zapisać następująco:

(3)


Wariancja składnika losowego jest tym razem stała w czasie, czyli występuje jednocześnie  homoskedastyczność i stacjonarność składnika losowego. Składnik losowy jest tutaj różnicą pomiędzy sąsiadującymi składnikami losowymi modelu logarytmicznej ceny, dlatego że pierwotny składnik losowy w modelu (1) jest niestacjonarny (porównaj zapis wariancji w obu przypadkach). Oczekiwana stopa zwrotu powstała po prostu przez zapis:co oznacza, że Duan dowiódł, że gdy rozkład log-stopy zwrotu nie jest normalny, aproksymacją będzie:

(4)

Korekta Duana to zwykła średnia arytmetyczna kolejnych stosunków reszt z regresji liniowej. 
Dla porównania, gdy rozkład log-stopy jest normalny i znamy pełną populację to:


oraz gdy jest normalny i nie znamy pełnej populacji:Model (3) pozwala też zrozumieć zależności pomiędzy średnią warunkową a niewarunkową. Jeżeli nie istnieje liniowa korelacja między okresem T a logarytmiczną ceną ln(P), czyli gdy ocena b = 0 w modelu (1), to oczekiwana stopa zwrotu w (3) sprowadza się do zwykłej średniej arytmetycznej:Przykład.
Aby porównać model (2) z (3), użyję tych samych danych co poprzednim razem, tj. dla mbanku - rocznie 1994-2015 (22 obserwacje). Nie będę się wgłębiał w to czy stopy mbanku są normalne, lognormalne czy jeszcze inne. Zaczynamy od zlogarytmowanego modelu (1):


Parametr b wyniósł 11,18%. Korzystając z Gretla uzyskałem reszty powyższej regresji liniowej, które podstawiłem do wzoru (4), czyli korekty SE. Korekta ta wyniosła 1,0699. Podstawmy to do (3):Dla porównania stosując model (2) uzyskałem wielkość 18.69%, natomiast dla standardowego wzoru na wartość oczekiwaną w rozkładzie lognormalnym (czyli dla k = 0) 18.73%. Dodatkowo przypomnę, że średnia arytmetyczna wyniosła 20,08%, a geometryczna 11,71%. Pamiętać trzeba, że geometryczna średnia dotyczy tylko inwestycji długoterminowej, dlatego SE staje się konkurencyjny głównie w stosunku do średniej arytmetycznej (która będzie poprawna w sytuacji, gdy logarytmiczna cena nie jest liniowo skorelowana z okresem czasu) oraz do estymatora z (2) (który jest poprawny dla próby w rozkładzie log-normalnym).Literatura:
[1] N. Duan, Smearing Estimate: A Nonparametric Retransformation Method, Sep. 1983

poniedziałek, 19 września 2016

Transformacja lognormalnego modelu z nieznanym parametrem

Problem estymacji parametrów nieliniowych funkcji losowych poprzez przekształcenia liniowe jest znany w statystyce od dawna i ma bogatą historię. Zajmowali się nią Barlett [1], Quenouille [2], Neyman i Scott [3], Box i Cox [4], Hoyle [5], Granger i Newbold [6], Duan et al. [7], Taylor [8] i wielu innych. W szczególności transformacjami rozkładów lognormalnych zajmowali się Finney [9],  Mostafa i Mahmoud [10], Meulenberg [11], Goldberger [12], Bradu i Mundlak [13] , Heien [14], Teekens oraz Koerts [15], Evans i Shaban [16], Duan [17].

Zacznijmy ponownie  od modelu, który opisałem w Czy mediana jest lepsza od średniej?, tj. proces geometrycznego ruchu Browna, jednak dla uproszczenia pomińmy stałą, która nie ma tutaj wpływu na analizę:

(1)

Logarytmując model (1) uzyskujemy funkcję liniową, co pozwala nam na użycie MNK:


Wiemy już, że prosta delogarytmizacja ostatniego równania nie prowadzi do otrzymania wartości oczekiwanej P(t). Aby ją uzyskać, musimy wykorzystać własności rozkładu lognormalnego. Składnik losowy z początkowego założenia ma rozkład normalny, wobec czego exp(składnik losowy) ma rozkład lognormalny. Ale co z parametrem b? Dotychczas dla uproszczenia zakładaliśmy, że b jest znane. W rzeczywistości nie znamy parametru b. Jeżeli nawet b jest nieznane, to ciągle pozostaje stałą, wobec czego wartość oczekiwana zmiennej lognormalnej pozostaje jak w poprzednich rozważaniach:

(2)

W rzeczywistości b jest nieznane, bo operujemy zawsze na pewnej próbie losowej, a więc szacowany parametr będzie się zachowywał jak zmienna losowa (dla danego okresu) o pewnej wartości oczekiwanej i wariancji. Trzeba zauważyć, że w ekonometrii mamy 2 rodzaje zupełnie niezależnych wartości oczekiwanych: dla stałej wartości (w populacji) oraz dla zmiennej losowej (w populacji i w próbie). W pierwszym przypadku mamy do czynienia po prostu z prawdziwym parametrem istniejącym de facto dla pełnej populacji. Jednak próbki z tej populacji będą losowe i będą kreować statystyki, jak średnia i wariancja. Dopiero przy bardzo dużej liczebności próbki, wariancja będzie spadać do zera, tak że pozostanie tylko średnia, która zbliży się do prawdziwego parametru i w ten sposób wartość oczekiwana zmiennego parametru z próby będzie się równać prawdziwemu parametrowi. W drugim przypadku wartość oczekiwana dotyczy zmiennej losowej, która posiada pewien rozkład w populacji. Wtedy próbki losowe będą kreować własne rozkłady, ale wraz z wielkością próby będą zbliżać się do rozkładu z populacji, podobnie jak w pierwszym przypadku. Jednakże wariancja nie będzie już spadać wraz z liczebnością próby. Niezależnie od tego czy mówimy o pierwszym czy o drugim przypadku, zawsze określenie "wartość oczekiwana" będzie się odnosić do średniej z populacji. Wartość oczekiwana parametru b będzie więc równać się prawdziwemu parametrowi.

Przyjmiemy pierwszy przypadek. Chociaż moglibyśmy przyjąć drugą możliwość - z parametrem jako zmienną losową - to czyniłoby to analizę znacznie bardziej skomplikowaną. Dlatego przyjmiemy standardowy punkt widzenia - czyli że istnieje tylko jeden prawdziwy parametr, ale dążymy do jego uzyskania na podstawie prób losowych. Oznacza to, że parametr b jest stały, więc model (2) jest nadal poprawny.

Uzyskany na podstawie prób losowych parametr oznaczamy b z daszkiem. Model (1) estymujemy za pomocą:

(3)

Co ważne, b z daszkiem staje się teraz zmienną losową (lecz jak zaznaczono wraz ze wzrostem liczby obserwacji zmienność ta spada do zera). Ponieważ składnik losowy ma rozkład normalny, to zmienna b także. Wartość oczekiwana exp(b z daszkiem) równa się E(b z daszkiem) plus połowa wariancji b z daszkiem. Jednak zmienna jest przemnożona przez okres t, czyli zmienna jest odpowiednio skalowana. Zmienna bt jest ciągle zmienną losową o rozkładzie normalnym, zatem exp(bt) ma rozkład lognormalny. Pamiętać trzeba, że okres t jest tutaj wartością stałą. Z własności wartości oczekiwanej i wariancji wiemy, że


Wobec tego wartość oczekiwana exp(bt) równa się t*E(b z daszkiem) plus połowa wariancji b z daszkiem razy t^2. Całkowity model z wartością oczekiwaną to przekształcenie z (3)

(4)

Aby nie mylić jednostek czasowych ze zmienną, t zastąpimy ostatnim okresem T. Ponieważ wariancja składnika losowego sumuje się w czasie, zapiszemy ją jako średnią wariancję przemnożoną przez T:

(5)

(Wariancja b z daszkiem w przeciwieństwie do składnika losowego jest stałym parametrem, a nie funkcją czasu, bo dotyczy jednostki czasu - porównaj własności zmiennych losowych w (1) i (4)). Aby uprościć model (5), wykorzystamy dwa znane wzory: na ocenę parametru b z daszkiem oraz wariancję parametru b z daszkiem. (Oba można znaleźć np. w Uriel [18], wzory 2-37 + 2-64). Pierwszy to estymator MNK dla b w sytuacji gdy stała w modelu liniowym jest równa 0:

(6)

Jednak sumę kwadratów liczb naturalnych można wyrazić za pomocą (zob. np. http://www.trans4mind.com/personal_development/mathematics/series/sumNaturalSquares.htm):

(7)

Stąd:

(8)

Drugi wzór na wariancję współczynnika b pokażemy od razu wykorzystując wzór (7):

(9)

Teraz powrócimy do wzoru (5), do którego podstawiamy (9):

(10)

Uzyskaliśmy ocenę wartości oczekiwanej ceny. W końcu przypomnijmy, że (2) można zapisać:

(11)
 Co oznacza, że nasz model (10) będzie go przypominał wraz ze wzrostem liczebności próby T:

 Inaczej mówiąc:


Trzeba w tym miejscu mocno uświadomić sobie co to oznacza. Model (10) jest wartością oczekiwaną prognozy ceny (prognoza ceny jest zmienną losową). Prognoza ceny jest pewną średnią opartą na obserwacjach historycznych. Tymczasem model (11) jest wartością oczekiwaną samej ceny. Dopiero w długim okresie model (10) zrówna się z modelem (11). Tak nakreślona sytuacja pozwala nam określić kryterium, za pomocą którego wybierzemy jedną z tych dwóch wartości oczekiwanych. Czy chcemy odnaleźć wartość oczekiwaną z próby losowej czy wartość oczekiwaną z populacji. Wcześniej jednak stwierdziłem, że mówiąc o wartości oczekiwanej mam na myśli zawsze średnią w populacji. Można powiedzieć, że model (10) konstruuje wartość oczekiwaną z "populacji cen danej próby", natomiast (11) - wartość oczekiwaną w populacji generalnej (cen wszystkich prób). Wynika z tego, że model (10) jest estymatorem obciążonym wartości oczekiwanej ceny. Nie jest wcale oczywiste, że obciążony estymator należy odrzucić. Ważniejsza jest efektywność estymatora. W tym przypadku mniejszą wariancję posiada jednak estymator nieobciążony. Dlatego interesuje nas bardziej model (11). Problem leży w wyłuskaniu jego empirycznej postaci, czyli właśnie stworzeniu estymatora nieobciążonego.

Problem ten rozwiązuje Meulenberg [11]. Zauważa on, że model (10) jest modelem empirycznym, a więc to on będzie punktem zaczepienia. Pomiędzy modelem (10) a (11) istnieje pewna relacja. Na początku przecież stwierdziłem, że wartość oczekiwana zmiennej b z daszkiem będzie równa b, czyli:

(12)

Ale wtedy dla dowolnego T można będzie (11) zapisać:

(13)

 A wtedy (13) można przekształcić:


 I w ten sposób dostajemy równanie na poszukiwaną E(P):

(14)

Co wstawić za E(P z daszkiem)? Meulenberg stwierdził, że (10), a więc także (13) jest modelem empirycznym, a więc już zawierającym parametry obliczone MNK. Zauważmy jednak do czego to prowadzi. Zaczynamy więc jeszcze raz od modelu (3), logarytmujemy i z liniowego modelu wyznaczamy b z falką (MNK), które podstawiamy za b z daszkiem. To podstawienie sprawia, że zmienna b z daszkiem staje się stałą b z falką. A to oznacza z kolei, że wartość oczekiwana z (3) stanie się prostym modelem:

 (15)

Pomysł Meulenberga polega na zrównaniu modelu (13) z modelem (15). Później przeanalizujemy czy jest on trafny.

(16)
Przekształcając:

Co daje:

(17)


Stąd:

(18)


Czyli:

(19)

Lub w nieco prostszym ujęciu:

(20)

Podobnie jak to wcześniej analizowaliśmy, gdy k rośnie, błędy związane z przekształceniem funkcji liniowej w wykładniczą tracą coraz bardziej na znaczeniu, tak że w dużej próbie b z falką stanie się bliskie prawdziwemu parametrowi b.

Teraz przeanalizujemy trochę dokładniej sposób Meulenberga, ponieważ wcale nie jest jasne utożsamienie (13) z (15). Wróćmy jeszcze raz do tej równowagi w (16) i przekształćmy inaczej:

(21)


Wzór ten przypomina wzór (2) w artykule W poszukiwaniu nieznanej wartości oczekiwanej - część 2

(22)

gdzie:
m - stopa kapitalizacji dla oczekiwanej ceny w okresie N
g - średnia geometryczna stopa kapitalizacji ciągłej w rozkładzie lognormalnym. Jednocześnie jest to średnia arytmetyczna logarytmów w rozkładzie normalnym. Wyznaczona z okresu od 1 do T',
σ^2 - wariancja logarytmicznej stopy dla rozkładu normalnego wyznaczona z okresu od 1 do T',
N - okres przyszłości, dla którego szukamy wartości oczekiwanej ceny

Bo dla rozkładu lognormalnego istotnie oczekiwana cena będzie zgodna ze wzorem:

(23)


Skoro g jest średnią arytmetyczną w rozkładzie normalnym, natomiast b z falką jest oceną wartości oczekiwanej b z daszkiem:


to b z falką jest porównywalne do g.

Należy tu odróżnić ocenę wartości oczekiwanej od tej wartości:


Zazwyczaj mniej lub bardziej świadomie popełnia się ten błąd. Formalnie rzecz biorąc nie można więc podstawić b z falką ani do modelu (2) ani (10). Podstawienie b z falką do (16) wynika tylko i wyłącznie ze stwierdzenia, że b z falką już zawiera w sobie zawyżoną kapitalizację wskazując tym samym na jej pochodzenie od zmiennej losowej. Zwróćmy uwagę na ostatnie równanie w (21): odejmuje się tu przecież pewną zawyżoną część wariancji, aby zrównać ocenę parametru z prawdziwym parametrem b. Zauważmy bowiem, że (21) można zapisać:


Bez tej korekty oczekiwana prognoza staje się wyższa, a wręcz zawyżona. Model (14) wskazuje jak bardzo jest zawyżona. Model (20) pozwala skorygować w praktyce ten błąd.

Ostatecznie widać jaki błąd wywołuje retransformacja z modelu liniowego do nieliniowego:
Błąd ten bierze się stąd, że ocena parametru b ulega procentowym zmianom w czasie, jest zmienną losową, natomiast prawdziwy parametr jest stały w czasie. Gdyby ocena była stałą liczbą, błąd ten nie wystąpiłby.

Pozostaje jeszcze kwestia wariancji. Oczywiście nie znamy prawdziwej wariancji składnika losowego, ale możemy posłużyć się jej estymatorem. Np. użyjemy tzw. błędu standardowego reszt, będącego pierwiastkiem wariancji składnika resztowego. Takiej nazwy używa się w Gretlu.

Faktycznie, nie jest to prosty temat. Przyda się przykład.


Przykład.
Na podstawie wzoru (20) nie trudno zauważyć, że duża liczebność obserwacji sprawia, że błędy retransformacji nie mają praktycznie żadnego znaczenia. Dlatego najlepszym sprawdzianem będzie niewielka próbka. Weźmy roczne dane mbanku od końca 1994 do końca 2015 r. i są to 22 obserwacje.

Statystyki stopy zwrotu:
średnia = 20,08%
mediana = 12%
średnia geometryczna = 11,71%
odch. standardowe = 45,5%

Tworzymy model (1):

Logarytmujemy:Uzyskujemy:Obliczamy parametr regresji b w KMNK. Uzyskałem 11,18%. Błąd standardowy reszt (tj. odchylenie standardowe składnika losowego) wyniósł 34,6%. Następnie stosujemy (20) dla oczekiwanej stopy zwrotu:
gdzie R to stopa zwrotu jako zmienna losowa.
Podstawiamy:Porównajmy wynik ze standardowym wzorem dla k = 0:Błąd retransformacji wynosi 0.04%.

Dwie uwagi. Po pierwsze warto zauważyć jak należy używać wariancji. Wariancja składnika losowego liczona jest jako suma kwadratów składnika losowego podzielona przez liczbę obserwacji (22) pomniejszoną o liczbę stopni swobody (2). Nie jest to więc zwykła wariancja, gdyż dotyczy modelu liniowego. Nie jest to też zwykła wariancja logarytmicznych stóp zwrotu.

Po drugie zwróćmy uwagę, że użyłem modelu ze stałą. Model empiryczny tego wymaga, gdyż bez stałej zakładamy, że jest ona równa zero, czyli, że P(0) = 1. To spowodowałoby błędne nachylenie linii regresji. Trzeba jednak pamiętać, że wzór (7) zakładał właśnie brak stałej.  Dlaczego więc można stosować ciągle wzór (20)? Jest prosty sposób na zobaczenie tego. Stała a w modelu wyniosła 3,63963. Teraz wystarczy odjąć od każdej zlogarytmowanej obserwacji tę wartość. Znów stosujemy KMNK dla nowych wartości. Tym razem stała a sama wyniesie zero, ale pozostałe parametry się nie zmienią.


Literatura:
[1] M. S. Bartlett, The Use of Transformations, Mar 1947
[2] M. H. Quenouille, Notes on Bias in Estimation, Dec 1956
[3] J. Neyman, E. L. Scott, Correction for Bias Introduced by a Transformation of Variables, Sep 1960
[4] G. E. P. Box, D. R. Cox, An Analysis of Transformations, 1964
[5] M. H. Hoyle, Estimating Generating Functions, Nov 1975
[6] C. W. J. Granger, P. Newbold, Forecasting Transformed Series, 1976
[7] N. Duan, W. G. Manning, Jr., C. N. Morris, J. P. Newhouse, A Comparison of Alternative Models for the Demand for Medical Care, Apr 1983
[8] J. M. G. Taylor, The Retransformed Mean After a Fitted Power Transformation, Mar 1986
[9] D. J. Finney, On the Distribution of a Variate Whose Logarithm is Normally Distributed, 1941
[10] M. D. Mostafa, M. W. Mahmoud, On the Problem of Estimation for the Bivariate Lognormal Distribution, Dec 1964
[11] M. T. G. Meulenberg, On the Estimation of an Exponential Function, Oct 1965
[12] A. S. Goldberger, The Interpretation and Estimation of Cobb-Douglas Functions, 1968
[13] D. Bradu and Y. Mundlak, Estimation in Lognormal Linear Models, Mar 1970
[14] D. M. Heien, A Note on Log-Linear Regression, 1968
[15] R. Teekens, J. Koerts, Some Statistical Implications of the Log Transformation of Multiplicative Models, Sep 1972
[16] I. G. Evans, S. A. Shaban, A Note on Estimation in Lognormal Models, Sep 1974
[17] N. Duan, Smearing Estimate: A Nonparametric Retransformation Method, Sep. 1983
[18] E. Uriel, The simple regression model: estimation and properties, 09-2013