niedziela, 1 maja 2016

Czy dotacje / zasiłki do opieki nad dzieckiem są efektywne?

Na moment zostawię giełdę i teorię finansów, po to by wypełnić lukę w rzetelnych informacjach na temat skuteczności programów polityki pro-rodzinnej. Jak wiadomo w Polsce temat jest na topie za sprawą programu Rodzina 500 plus, który PIS wprowadza w życie. Program ten wywołuje duże emocje nie tylko wśród polityków, ale i zwykłych obywateli. Wg danych CBOS aż 80% ludzi popiera ten program [3]. Co ciekawe, jest wiele osób w opozycji, które też go wspierają. Wielu jednak twierdzi, że to zwykłe marnowanie pieniędzy i nie przyniesie pozytywnych skutków albo gorzej: że doprowadzi do ruiny finanse publiczne i że staniemy się drugą Grecją. Ten negatywny scenariusz jest szczególnie eksponowany przez ekonomistów. Interesującą wypowiedź usłyszałem w wywiadzie od Balcerowicza: stwierdził on, że efekt tego programu będzie co najwyżej krótkoterminowy, a w długim terminie odwrotny od oczekiwanego, ponieważ koszty spowodują, że wpadniemy w potężne tarapaty zadłużenia państwa, co wymusi "odchudzanie" finansów, a przez to nowe obciążenia dla ludzi, którzy zaczną masowo uciekać z kraju.

Faktem jest, że 500+ będzie kosztował olbrzymie pieniądze, którego skutki mogą być groźne. Ale pytanie brzmi czy są podstawy by twierdzić, że przynajmniej spełni on swoją rolę, tzn. przyczyni się do wzrostu urodzeń (bez względu na konsekwencje w innych sferach)? Jest trochę artykułów naukowych (choć nie tak dużo) które zarówno negują, jak i aprobują skuteczność takiej polityki. Ta niejednoznaczność wynika zarówno ze różnorodności narzędzi tej polityki, jak i metod badawczych, ale możliwe, że także ze zwyczajnej zbyt krótkiej czasowej próbie. Nas interesuje tylko pomoc pieniężna, tj. dotacje, zasiłki, ulgi, zmniejszenie kosztów.

Gauthier [1] przeprowadziła przegląd literatury w tym zagadnieniu. Ogólny wpływ dotacji dla rodziny, zasiłków dla dzieci czy ulgi podatkowe mają pozytywny wpływ na zagregowany wskaźnik urodzeń, jednak wpływ ten zazwyczaj jest niski. Np. w pracy z 1997 r. Gauthier i Hatzius [2], badając oficialne statystyki w 22 krajach OECD w latach 1970-1996, oszacowali, że 25% wzrostu zasiłku w rodzinie, powoduje wzrost całkowitej stopy urodzeń o 4,24%, tj. 0,07 dziecka na kobietę.

Z kolei Kalwij [3] opracował model, w którym zbadał wpływ różnych czynników na urodzenia w 16 krajach Europy Zachodniej (Szwecja, Norwegia, Finlandia, Dania, Niemcy, Austria, Belgia, Holandia, Szwajcaria, Wielka Brytania, Irlandia, Francja, Portugalia, Hiszpania, Włochy, Grecja) w latach 1980-2003. Poniższa tabela przedstawia oszacowane prawdopodobieństwa urodzenia dziecka pod warunkiem określonych zmiennych:


Po pierwsze należy odróżnić część z kontrolą od części bez kontroli. Wyniki z kontrolą można porównać do wyników badań laboratoryjnych, w których są dwie grupy; jedna grupa jest leczona lekiem, a druga placebo. Druga grupa jest grupą kontrolną. W opisywanym przykładzie Autor nie zastosował kraju porównawczego, ale skorygował estymacje o niektóre czynniki, takie jak np. PKB per capita czy stopa bezrobocia (ze względu na cykliczność gospodarczą zaburzają obraz).

Po drugie Autor podzielił model na dwie części: wpływ na urodzenie pierwszego dziecka oraz na wpływ na kolejne urodzenia.

Po trzecie istotność statystyczną możemy ocenić na podstawie z Value - jeżeli statystyka z wynosi co najmniej +2 lub co najwyżej -2, wtedy mamy prawo sądzić, że wynik jest istotny statystycznie (dokładniej, dla -1,96 i +1,96 p value = 0,05).

Możemy zauważyć, że PKB per capita ma istotny wpływ tylko w grupie bez kontroli. Następnie zasiłek na dziecko (allowance per child) okazuje się również nie mieć istotnego wpływu na urodzenia w grupie z kontrolą. Dotacje na opiekę nad dziećmi są bardziej problematyczne. O ile nie dają efektu na urodzenie pierwszego dziecka, o tyle stają się istotne stat. dla kolejnych urodzeń (z = 3,85), zarówno w grupie kontrolnej jak i bezkontrolnej. Jednakże program 500+ nie jest dotacją (na konkretne cele), ale zasiłkiem. Gdyby natomiast uznać go za dotację, to wtedy statystyki potwierdzałyby, że program, który dotyczy głównie drugiego i następnego dziecka, jest sensowny, choć prawdopodobieństwo urodzenia dziecka (przez średnią matkę) każdego roku wynosi tu niecałe 0,17.

Kalwij przeanalizował jednak dokładniej 3 najważniejsze narzędzia polityki pro-rodzinnej. Stworzył symulację testującą nie tylko procentowy wpływ danego czynnika, ale także to czy ten czynnik rzeczywiście wpływa na dzietność danej rodziny. Może przecież być tak, że dotacja czy zasiłek zwiększa motywację do tego by mieć szybciej dzieci, ale może nie zwiększać liczby dzieci w całym okresie życia. Rezultaty zamieściłem poniżej:




Po pierwsze wzrost zasiłków nie wpływa istotnie na liczbę urodzeń w żadnej grupie wiekowej (statystyka z < 2). Jest to wynik sprzeczny ze wspomnianymi wynikami Gauthier.

Po drugie wzrost dotacji o 10% nie zwiększa szansy na ogólne posiadanie dzieci (ktoś kto ich nie chce i tak nie będzie miał). Po drugie wzrost dotacji o 10% zwiększa średnią liczbę urodzeń drugiego lub kolejnego dziecka tylko w przypadku kobiet pomiędzy 31 a 40 rokiem życia. Po trzecie wzrost dotacji o 10% zwiększa średnią liczbę urodzeń tylko w przypadku kobiet w wieku 36-40 lat.

Podsumowując statystyki, można powiedzieć, że zarówno sceptycy jak i optymiści mają po trochę racji (jednak biorąc pod uwagę, że na skutek polityki rozdawania pieniędzy wielu ludziom może to utrudnić życie poprzez wzrost inflacji, trudno mówić o efektywności takiej polityki, a co najwyżej o jej skuteczności). Program 500+ będzie miał raczej niewielki wpływ na liczbę urodzeń, a kosztować będzie słono. Powstaje więc pytanie czy nie można tych pieniędzy lepiej wykorzystać? Czy nie lepiej wydać je na walkę z nowotworami czy innymi chorobami, czy nie lepiej poprawić jakość publicznej opieki zdrowotnej, wspomagać prywatne przychodnie czy inne placówki medyczne? Czy nie lepiej byłoby zainwestować tych pieniędzy w badania naukowe i rozwój nowych technologii?


Literatura:
[1] Gauthier, A., The Impact of Family Policies on Fertility in Industrialized Countries: A Review of the Literature, Jun. 2007,
[2] Gauthier, A., Hatzius, J., Family Benefits and Fertility: An Econometric Analysis, Nov. 1997,
[2] Kalwij, A., The Impact Of Family Policy Expenditure On Fertility In Western Europe, May 2010.

Strony internetowe:
[3] http://www.money.pl/gospodarka/wiadomosci/artykul/pis-przekonal-polakow-do-swojego-programu,125,0,2031997.html

niedziela, 13 marca 2016

Odchylenie od nieznanej wartości oczekiwanej

Tworząc portfel długoterminowy, np. fundusz emerytalny, powinniśmy być zainteresowani zarówno oczekiwaną stopą zwrotu, jak i możliwym odchyleniem od niej. W sytuacji gdy wartość oczekiwana jest znana, obliczenie odchylenia standardowego na podstawie próbki nie stanowi problemu. Jednak w rzeczywistym świecie wartość oczekiwana jest nieznana i wówczas sprawa się komplikuje.

Skoro potrafimy już oszacować samą wartość oczekiwaną, nawet gdy nie posiadamy pełnej o niej informacji (dwa ostatnie artykuły), obliczenie odchylenia staje się łatwiejsze. Hasbrouck [1] pokazuje, że wariancja portfela N-podokresowej przyszłej stopy zwrotu określona jest wzorem:

 (1)


gdzie:
R - stopa zwrotu brutto (zwykła stopa zwrotu plus jeden)
N - ostatni okres inwestycji (liczba przyszłych okresów inwestycji)
M - oczekiwana stopa zwrotu (wartość oczekiwana stopy zwrotu), która dla rozkładu normalnego wynosi (W poszukiwaniu nieznanej wartości oczekiwanej - część 1):


A - średnia arytmetyczna z próby
G - średnia geometryczna z próby

natomiast dla rozkładu log-normalnego, mimo że nie jest wersja bezpośrednia, to można zastosować (W poszukiwaniu nieznanej wartości oczekiwanej - część 2):



σ^2 - wariancja 1-okresowej stopy zwrotu brutto (z próby), tzn. dla N = 1.


W Dodatku przedstawiłem dowód, bo jego wyprowadzenie nie jest trudne, a poza tym widać wtedy dokładnie których parametrów w praktyce należy użyć.


Przykład.
Kontynuując przykład spółki LPP w okresie 2004-2014, mamy 10 rocznych stóp wzrostu EBIT i korzystając z danych w bankier.pl dla rozkładu log-normalnego otrzymałem M = 1,34 przy N = 5, co oznacza, że 5-letnia oczekiwana stopa wzrostu brutto wynosi M^5 = 4,32 (tj. stopa netto = 332%). Wiedząc to, chcemy się dowiedzieć, jak całkowita przyszła stopa może się odchylić od tej wartości oczekiwanej. Aby znaleźć odpowiedź, zastosujemy wzór (1). Do jego użycia brakuje nam wariancji dla N = 1, którą normalnie obliczamy z próby. Chociaż chodzi tu o wariancję stopy brutto, to jest ona równoważna wariancji stopy netto. W tym przykładzie wyniosła ona 0,63, czyli mówiąc prosto roczna stopa zmian EBIT miała wariancję 0,63. Podstawiając






Odchylenie standardowe jako pierwiastek z tej wariancji wynosi 8,08. Ostatecznie uzyskaliśmy odpowiedź, że po 5 latach EBIT LPP wzrośnie średnio o 332% +/- 808%. Dopiero teraz jesteśmy w stanie właściwie ocenić ryzyko inwestycyjne.


Dodatek:
Zadaniem jest wyznaczenie wariancji przyszłej stopy zwrotu R(N), która składa się z mniejszych, kapitalizowanych stóp zwrotu od okresu 1 do N. Każdą taką mniejszą stopę zwrotu możemy zapisać jako oczekiwaną stopę zwrotu M plus składnik losowy e(t). Kapitalizowana stopa zwrotu powstanie poprzez iloczyn tych mniejszych stóp zwrotu:


Składnik losowy e jest zmienną losową IID o wartości oczekiwanej równej 0.
Stąd wariancję możemy odpowiednio przekształcić:

(2)

Wykorzystujemy twierdzenie mówiące, że wartość oczekiwana iloczynu zmiennej losowej IID równa się iloczynowi wartości oczekiwanych tej zmiennej (zob. np. [2]), tzn. ogólnie:


Dzięki temu dwa przedostatnie wyrażenia we wzorze (2) zastąpimy odpowiednio przez:


Czyli podstawiając obydwa wyrazy do (2):

(3)

Na koniec zauważamy, że wariancja 1-okresowej stopy zwrotu (która jest znana) równa się wariancji składnika losowego:


Podstawiając ten wyraz do (3) dostajemy wzór (1).


Literatura:
[1] J. Hasbrouck, On Estimates of Long-Run Rates of Return: A Note, Dec., 1983
[2] P. Cheng, M. K. Deets, Statistical Biases and Security Rates of Return, Jun., 1971

niedziela, 14 lutego 2016

W poszukiwaniu nieznanej wartości oczekiwanej - część 2

Rozkłady log-normalne (logarytmicznie normalne), podobnie jak rozkłady normalne, znajdowane są dość często w przyrodzie. Opisywane są nimi wielkości populacji niektórych bakterii (np. [1], [2]), szybkość podwajania się średnicy niektórych przerzutów nowotworowych [3], mikroflora w Marsylii [4] czy ciśnienie krwi dla danej grupy wiekowej [5]. Angielska wikipedia podaje jeszcze wiele innych przykładów [6].

Wyjaśnienie jak powstaje rozkład log-normalny zawiera artykuł Pokrzywiony dzwon - rozkład lognormalny .W sytuacji gdy interesuje nas bardziej stopa zmian niż bezpośrednia zmiana, rozkłady te mogą okazać się poprawniejsze od normalnego.

W pierwszej części artykułu przedstawiłem formułę Blume'a na oszacowanie nieznanej oczekiwanej stopy wzrostu przy założeniu, że rozkład stóp jest normalny [7]. Jacqiuer, Kane, Marcus (JKM) wyprowadzili również wzór na oczekiwaną stopę, ale przy założeniu lognormalności [8, 9]. Wówczas jeżeli r to stopa zwrotu, to ln(1+r) posiada rozkład normalny. Zapamiętać można to w taki intuicyjny sposób, że logarytmując, dokonujemy "normalizacji" stopy zwrotu (jeżeli stopy mają rozkład log-normalny, to cena podlega geometrycznemu ruchowi Browna [10], wzrost jest więc multiplikatywny, a po logarytmicznej transformacji staje się arytmetycznym ruchem Browna, stąd stopy stają się "normalne").

W sumie rozważymy ich 3 wzory, które są tak naprawdę jednym i tym samym. Podstawowy wzór JKM na wartość oczekiwaną ceny akcji (aktywa) w przyszłym okresie N jest następujący

 

 gdzie:
g - średnia geometryczna stopa kapitalizacji ciągłej w rozkładzie lognormalnym. Uwaga: jednocześnie jest to średnia arytmetyczna logarytmów w rozkładzie normalnym. Wyznaczona z okresu od 1 do T,
σ^2 - wariancja logarytmicznej stopy dla rozkładu normalnego wyznaczona z okresu od 1 do T,
T - ostatni okres przeszłości, na podstawie którego wyznaczane są parametry,
N - okres przyszłości, dla którego szukamy wartości oczekiwanej stopy zwrotu M,
P(t) - cena akcji, aktywa w okresie t. 

Inaczej:
 

Zatem wartość oczekiwana stopy zwrotu brutto w całym okresie od 1 do N jest to:

(1)

 Oznaczmy m(N) samą stopę kapitalizacji:

(2)
 

Wzór (2) można rozpisać następująco:

 


Podstawmy ten wynik do (1):
(3)

 

Przypomnijmy, że bieżąca wartość oczekiwana w rozkładzie log-normalnym (a więc w okresie 0), estymowana przez średnią arytmetyczną brutto (A), jest dana wzorem (zob. [6]):

 (4)


Czyli wtedy kapitalizacja:

Moglibyśmy więc zapisać:


Stopa kapitalizacji ciągłej m(N) może być więc wyrażona w postaci średniej ważonej geometryczną stopą kapitalizacji i arytmetyczną stopą kapitalizacji. Otrzymujemy więc wzór podobny do estymatora Blume'a.

Jednakże m(N) jako kapitalizacja ciągła mniej nas interesuje, gdyż chcemy doprowadzić do porównywalności z estymatorem Blume'a. Chcemy uzyskać średnią efektywną stopę procentową. Brakuje nam do tego jeszcze średniej geometrycznej stopy brutto (G). Zważmy, że ani a, ani g nie są tutaj tymi samymi stopami netto rozważanymi w poprzedniej części, tylko kapitalizacjami ciągłymi. Najłatwiej odróżnić to w ten sposób, że stopa netto stanowi efektywną stopę procentową, tj. powstaje po prostu przez odjęcie 1 od brutto.

Mimo że nie mamy nigdzie podanej stopy G, możemy użyć wprost definicji średniej geometrycznej brutto zadając pytanie jak średnio cena rosła z okresu 0 do T:


Czyli:

(5)
 

Jednocześnie wiemy, że w kapitalizacji ciągłej stopa G pod wpływem ciągłości zastępowana zostaje przez 1+g, stąd:


Czyli:

(6)

Na marginesie warto zaznaczyć, że wzór (6) można rozpisać jako średnią arytmetyczną logarytmów stóp zwrotu (pokazałem to w artykule O relacji między arytmetyczną a geometryczną stopą zwrotu  - wzór (6)), a ponieważ  ln(1+r) posiada rozkład normalny, to oznacza, że g musi stanowić średnią arytmetyczną dla rozkładu normalnego.
Zauważmy, że (5) = (6), zatem wnioskujemy, że:

(7)


W końcu podstawiamy wynik z (4) do (3) oraz (7) do (3):

(8)


Podsumowując część techniczną, mamy 3 wzory, które stanowią tę samą formułę: (1),  (3), (8). Kapitalizacja m(N) we wzorze (3) przypomina estymator Blume'a, bo jest to faktycznie jego analogia. Najlepiej widać to analizując wzór (8). Jeśli podstawimy N = 1, to dla dużego T otrzymamy w przybliżeniu średnią arytmetyczną (dla 0 jest idealnie arytmetyczna), a gdy N = T, średnią geometryczną, a więc bardzo podobnie jak u Blume'a.

W celach praktycznych będzie nas raczej interesować uśrednione M(N), tj. pierwiastek z M(N). Po pierwsze:

(9) średnia efektywna stopa brutto


Po drugie wzory (1) i (2) prowadzą do związku:

(10) stopa kapitalizacji ciągłej


Przykład.
Wykorzystajmy przykład spółki LPP, który posłużył do obliczenia oczekiwanej stopy wzrostu EBIT w części 1 za pomocą estymatora Blume'a. Estymator ten zakładał jednak normalność tempa wzrostu. Jeżeli okaże się, że tempo to nie jest gaussowskie, ale za to zlogarytmowane tempo (tj. ln(1+tempo)) już tak, wtedy należy użyć estymatora JKM. Dla przypomnienia zakres danych to 2004-2014, zatem 10 rocznych stóp zwrotu (pierwsza obserwacja jest z grudnia 2004), na podstawie bankier.pl, zaś testy wykonałem w Gretlu. Testy na normalność stopy EBIT dały następujące wyniki:




Wszystkie 4 testy jednoznacznie każą nam odrzucić normalność. Natomiast testy dla obserwacji zlogarytmowanych przestają być tak oczywiste:



Próbka jest za mała, by obiektywnie ocenić czy jest to rozkład normalny czy nie. Widać jednak, że tendencja zmieniła się na korzyść normalności (p ok. 0,1 w dwóch testach). Aby obiektywniej przetestować hipotezę, zwiększyłem częstość obserwacji do kwartałów, tj. do 40 obserwacji. Testy znów wykazały brak normalności surowych danych:


 

co graficznie ilustruje poniższy histogram tej zmiennej:


 Jednak po zlogarytmowaniu (pozostało 36 poprawnych obserwacji), kwartalne stopy zysku stały się "normalne" dla wszystkich testów (wszystkie dają p znacznie powyżej 0,1):


  

 Histogram zmienia się diametralnie:

 

Przyznaję, nie jest to idealny dzwon, delikatnie mówiąc, ale testy eliminują subiektywizm. Reasumując, rozkład tempa zmian EBIT możemy uznać za log-normalny.

Przypomnę, że A = 1,41, G = 1,28 oraz chcemy wyznaczyć roczną oczekiwaną stopę zwrotu w ciągu 5 lat, tj. N = 5, mając 10 obserwacji (T=10). Po podstawieniu danych do... no właśnie i teraz uwaga. Mamy tu dwie różne wielkości: średnią efektywną stopę zwrotu oraz stopę kapitalizacji. Obliczmy obydwie wykorzystując formuły (9) i (10). Po podstawieniu danych do (9) dostałem M(N)^(1/N) = 1,34, czyli tak wyznaczona stopa netto 34% (dokładnie 34,3%) jest o 1,5 pkt proc. niższa niż wynikająca ze wzoru Blume'a.
Z kolei stopa kapitalizacji ciągłej na podstawie (10) równa się ln(1,34) = 29,5%. Jej porównanie z estymatorem Blume'a nie ma jednak sensu, bo dotyczy ona wielkości ciągłych, podczas gdy estymator Blume'a nie opiera się na nich.

Jeżeli nie jesteśmy przekonani czy nasza estymacja nie jest za wysoka lub za niska, zawsze możemy zastosować pierwotną wersję z wariancją:

(11)

Trzeba pamiętać wtedy, że wariancja pochodzi z rozkładu normalnego, czyli jest to wariancja z ln(1+r). Po podstawieniu danych do (11) dostałem wartość netto bardzo zbliżoną do 34% (dokładnie 33,8%), co potwierdza poprawność wyliczeń.
Porównując estymatory JKM i Blume'a stwierdzamy, że stosując estymator Blume'a zawyżylibyśmy potencjał wzrostu dla LPP.


[1] S. S. Hirano, E. V. Nordheim, D. C. Arny, C. D. Upper, Lognormal Distribution of Epiphytic Bacterial Populations on Leaf Surfaces, 1982 Sep,
[2] J. E. Loper, T. V. Suslow, M. N. Schroth, Lognormal distribution of bacterial populations in the rhizosphere, 1984,
[3] J. S. Spratt Jr, T. L. Spratt, Rates of Growth of Pulmonary Metastases and Host Survival, 1964
[4] C. Di Giorgio, A. Krempff, H. Guiraud, P. Binder, C. Tiret, G. Dumenil, Atmospheric pollution by airborne microorganisms in the city of Marseilles, 1996,
[5] R. W. Makuch, D. H. Freeman Jr., M. F. Johnson, Justification for the lognormal distribution as a model for blood pressure, 1979,
[6] https://en.wikipedia.org/wiki/Log-normal_distribution,
[7] M. E. Blume, Unbiased Estimators of Long-Run Expected Rates of Return, Sep., 1974,
[8] E. Jacqiuer, A. Kane, A. Marcus, Optimal Forecasts of Long-Term Returns and Asset Allocation: Geometric, Arithmetic, or Other Means?, October 31, 2002,
[9] E. Jacqiuer, A. Kane, A. Marcus, Geometric or Arithmetic Mean: Reconsideration , October 31, 2002,
[10] R. R. Marathe, S. M. Ryan, On the validity of the geometric Brownian motion assumption, 2005.

niedziela, 10 stycznia 2016

W poszukiwaniu nieznanej wartości oczekiwanej - część 1

Czasami można spotkać się z zarzutami, że wyznaczenie wartości fundamentalnej akcji jest niemożliwe, bo prawdziwa wartość oczekiwana parametrów potrzebnych do obliczeń jest nieznana. Na ten problem można spojrzeć z dwóch różnych punktów widzenia. Z jednej strony dane statystyczne należą do jednej próbki, tj. ułamka populacji, w której niektóre dane należą do przyszłości. A przyszłość jest nieznana. Z drugiej strony można filozoficznie uznać, że przyszłość nie istnieje, a jedynie jest tworzona na bieżąco. To oznacza, że mamy wgląd do pełnej populacji statystycznej, a jedynie rozkład prawdopodobieństwa może się zmieniać w czasie, czyli proces jest niestacjonarny. W przypadku takich cech jak tempo zmian zysków firmy znaczenie może mieć cykliczność gospodarcza. Wiemy jednak, że cykle w ekonomii są nieokresowe, chaotyczne i bliżej im do losowości niż do niezmiennych reguł - tyle że potrzebny jest odpowiednio długi okres czasu.  Stąd szukanie wartości oczekiwanej zmian procentowych ma sens.

Te dwa punkty widzenia prowadzą do wspólnego mianownika: wyznaczając wartość oczekiwaną dla przyszłości na podstawie przeszłości, napotkamy barierę w postaci błędu statystycznego, którego wartość oczekiwana będzie różna od zera.

Ten artykuł jest swego rodzaju kontynuacją poprzedniego, który przygotowywał Czytelnika do zrozumienia pojęcia terminowej oczekiwanej stopy zwrotu. Wówczas operowałem jedynie pojęciem średniej terminowej, rozróżniając średnią arytmetyczną - jako krótkoterminową średnią oraz geometryczną stopę - jako długoterminową średnią. Następnie zwróciłem uwagę, że średnia może mieć zupełnie inną formę i być np. nachyleniem trendu liniowego.

Podział na okres krótki i długi jest umowny. Jeżeli nawet umówimy się, że średnia arytmetyczna to okres krótki, a geometryczna długi, to gdzie umieścić inne formy średniej? Np. jeżeli chcemy wyznaczyć prognozę dywidendy, to użyjemy regresji liniowej z logarytmiczną stopą zwrotu w roli nachylenia trendu (patrz Istota i znaczenie logarytmicznej stopy zwrotu), ale skoro wiemy, że to nachylenie wiąże średnią arytmetyczną  i geometryczną, to czy w takim razie jest ono swego rodzaju wartością oczekiwaną w średnim okresie?

Najpierw Blume [1] a później innym tropem Jacqiuer, Kane, Marcus (JKM) [2, 3] wyprowadzili różne optymalne nieobciążone estymatory wartości oczekiwanej długoterminowego tempa wzrostu. Oczywiście nasuwa się pytanie czym różnią się te estymatory pomiędzy sobą. Po pierwsze Blume stosuje przy dowodzeniu twierdzenie Taylora, a więc jego estymator daje przybliżoną wartość, podczas gdy JKM otrzymują dokładne wyniki. Po drugie Blume zakłada, że stopy zwrotu mają rozkład normalny, natomiast u JKM stopy mają rozkład logarytmiczno-normalny - wyjaśnienie tego założenia w artykule Pokrzywiony dzwon - rozkład lognormalny.

To tyle tematem wstępu. Obecnie zajmę się jedynie estymatorem Blume'a. W następnym artykule opiszę estymatory JKM.

Zanim przejdę do dalszej części, od razu zwrócę uwagę na rozróżnienie pomiędzy stopą brutto a netto. Stopa brutto to stopa o postaci R = 1+r, gdzie r to stopa netto. Aby wprowadzić jasny podział będę używał wielkich liter na zapisanie stóp brutto, a małych liter do stóp netto. Zauważmy też, że stopa brutto może być interpretowana jako wartość aktywa o początkowym kapitale 1 zł.

Blume dowodzi, że gdy wartość oczekiwana stopy brutto w przyszłości po N okresach jest nieznana, to prawidłowym estymatorem tej wartości jest średnia ważona średnią arytmetyczną i geometryczną o następującej postaci:

(1)


gdzie:
T - okres przeszłości
N - prognozowany okres przyszłości
A - średnia arytmetyczna stopa brutto (liczona dla danych z okresu T)
G - średnia geometryczna stopa brutto (liczona dla danych z okresu T)

Dowód wzoru (1) zamieściłem w dodatku.
Jeżeli N = 1, to estymator M sprowadza się do A. Jeżeli N = T, to estymator M sprawdza się do G. Precyzyjnie widać w jaki sposób kształtowana jest długoterminowa średnia, o której rozprawiałem w poprzednim artykule. Średnia arytmetyczna dotyczy prognozy 1 okresu wprzód, a geometryczna prognozy na T okresów wprzód (a więc dla geometrycznej okres przyszłości jest traktowany symetrycznie do okresu przeszłości). Estymator Blume'a uwzględnia także wspomnianą w poprzednim artykule względność krótkiego i długiego okresu czasu. Jeżeli bowiem T dąży do nieskończoności, to dla dowolnego stałego N wartość M sprowadza się do A, ponieważ zobaczmy, że możemy zapisać:



Tak więc nawet dla dużego N średnia arytmetyczna będzie prawidłowym estymatorem, bo w stosunku do jeszcze większego T będzie średnią krótkoterminową.


Przykład.
Obliczmy wartość oczekiwaną rocznej stopy wzrostu zysku operacyjnego spółki LPP przy założeniu, że prognozujemy 5 następnych lat, czyli N = 5. Dane pobrałem z bankier.pl, w którym dane finansowe spółki są dostępne od 2004 r., zatem w okresie 2004-2014 było 10 stóp zwrotu, co oznacza T = 10. Otrzymałem następujące parametry:
A = 1,405 (a = 40,5%)
G = 1,28 (g = 28%)

Po podstawieniu danych do (1) oraz wyciągnięciu pierwiastka 5-tego stopnia z M^5, uzyskałem
M = 1,355. Stąd m = 1-M = 35,5%.



Dodatek nr 1. Wyprowadzenie estymatora Blume'a.
M jest pewną nieznaną wartością oczekiwaną stopy brutto. W każdym okresie t (od 1 do T) stopa brutto odchyla się od M:

(2)

Pierwszą częścią wyprowadzenia (1) jest znalezienie przybliżonej wartości oczekiwanej średniej arytmetycznej. Wynika z tego, że średnią traktujemy jak zmienną losową. (Jednak szukana wartość oczekiwana nie dotyczy tylko okresu T, ale także abstrakcyjnej przyszłości).
Sumując wszystkie R(t) dostaniemy:

(3)


Dzieląc obie strony przez T uzyskamy średnią arytmetyczną:

(4)



Oznaczmy:

(5)

i podnieśmy (4) do N:





 Poszukujemy wartości oczekiwanej średniej arytmetycznej w okresie N:

(6)


 Funkcję (1+h/M)^N możemy przybliżyć za pomocą wzoru Taylora (Maclaurina). Wszystkie składniki tej funkcji są stałymi poza h. Zakładamy, że h jest zmienną losową o rozkładzie normalnym, której wartość oczekiwana jest równa 0. W takim razie uznamy, że ostatni wyraz we wzorze Taylora zatrzyma się na potędze 2, ponieważ h^3 będzie równe 0 (wiąże się ze skośnością), natomiast pozostałe będą wyrazy będą niewielkie (h^4 = 3 dla r. Gaussa, ale dzielone zostanie przez 24). Stąd przybliżeniem będzie:

(7)



Samo h jest średnią arytmetyczną składnika losowego, zmienną w czasie. Nie wiadomo jaka będzie jej wartość w prognozowanym okresie. Wiadomo tylko, że h jest zmienną losową z E(h) = 0. Teraz znajdziemy wariancję h. Jest ona powiązana z wariancją składnika losowego e. W przeciwieństwie do średniej z próby, wariancja z próby składnika losowego e jest znana, tzn. przyjmujemy, że jest równa wariancji z populacji i może być wyznaczona w oparciu o historyczne dane z okresu od 1 do T. Zapiszmy:


Pamiętając czym jest h ze wzoru (5) oraz ze względu na niezależność od siebie składników losowych e(t), wykorzystujemy własność wariancji polegającej na tym, że wariancja sumy niezależnych zmiennych jest równa sumie wariancji tych zmiennych (zob. np. https://en.wikipedia.org/wiki/Variance)


 


Nasze składniki losowe e(t) mają nie tylko znaną wariancję, ale ich wariancja pozostaje zawsze ta sama (tak zakładamy). Skoro T-krotnie sumowane są stałe, to znaczy, że możemy znak sumy zastąpić T, tak że uzyskujemy poszukiwaną wariancję h:

(8)


Wkładamy (7) do (6), wykorzystujemy możliwość rozbicia wartości oczekiwanej na części (pamiętamy, że E(h) = 0) i do tej formuły podstawiamy rozwiązanie z (8), dostając:


(9)



Zauważmy, że mimo iż zgodnie z prawem wielkich liczb średnia arytmetyczna dąży do swojej wartości oczekiwanej, to twierdzenie to nie dotyczy średnich podnoszonych do potęgi N > 1.

Drugą częścią jest znalezienie przybliżenia dla wartości oczekiwanej geometrycznej stopy zwrotu.

Geometryczną stopę brutto możemy zapisać jako iloczyn prawdziwej średniej skorygowaną o błędy statystyczne po T okresach i spierwiastkowaną T-tym okresem:

Prognozowana średnia geometryczna w okresie N będzie podnoszona N-tą potęgą:


Ponieważ nie znamy przyszłości, to nie znamy prawdziwej średniej geometrycznej, więc G^N to zmienna losowa. Poszukujemy więc wartości oczekiwanej tej zmiennej. Dokonujemy dodatkowo przekształcenia:

(10)



Wiedząc, że e(t) to zmienna losowa o rozkładzie normalnym, stosujemy podobnie jak poprzednio (7) stosujemy przybliżenie za pomocą wzoru Taylora-Maclaurina do drugiego rzędu,



Otrzymany wynik wkładamy do (10):


Pierwsze wyrazy w nawiasie kwadratowym moglibyśmy zapisać w postaci sum:



Wprowadzamy oczywiste założenie:


Składniki e(t) sumarycznie w okresie od 1 do T nie dają zera (bo h nie równa się zero). Sumy te wyzerują się  dopiero ze względu na to, że E(e) = 0. Ponadto składniki e(t) są od siebie niezależne. Stąd otrzymujemy:

(11)

Elementy oznaczone (...) stają niewielkie, dlatego je odrzuciliśmy. Powracając do pierwotnych oznaczeń zamiast X i Y, równanie (11) zapiszemy:

(12)


Widzimy, że wyraz K pojawia się po raz drugi. W tym miejscu podejmiemy nieco kontrowersyjną decyzję, by drugi wyraz w nawiasie w (12) uznać za zerowy, czyli że K^2 = 0. Chodzi tu o uproszczenie obliczeń. (Blume robi trochę inaczej, ponieważ używa podwójnej aproksymacji ze wzoru Taylora, ale także opuszcza rzędy wyższe niż 2). Czyli wtedy:

(13)

Ponieważ w (9) pojawiło się także K, rozwiązujemy układ równań (9-13), znajdując K dla pierwszego i dla drugiego i zrównujemy ze sobą:



Rozwiązanie tego równania względem M^N daje wzór (1).


Literatura:
[1] M. E. Blume, Unbiased Estimators of Long-Run Expected Rates of Return, Sep., 1974
[2] E. Jacqiuer, A. Kane, A. Marcus, Optimal Forecasts of Long-Term Returns and Asset Allocation: Geometric, Arithmetic, or Other Means?, October 31, 2002
[3] E. Jacqiuer, A. Kane, A. Marcus, Geometric or Arithmetic Mean: Reconsideration , October 31, 2002
[4] P. Cheng, M. K. Deets, Statistical Biases and Security Rates of Return, Jun., 1971
[5] https://en.wikipedia.org/wiki/Variance

..................................................................

Dodatek nr 2:
Jeżeli zachowalibyśmy pełne równanie (12), wtedy rozwiązanie układu równań (9-12) również jest możliwe, ale wynik wydaje się szalenie skomplikowany. Po pierwsze powstają 2 dodatnie rozwiązania. Aby wynik znajdował się zgodnie z intuicją pomiędzy A a G, należy wybrać to większe. Po drugie Wolfram Alpha pokazał następujące (to większe) rozwiązanie:

(14)

To samo uzyskane w Matlabie rozwiązanie jest już kompletnie nieczytelne:

(14)

H = -(C - (- 3*B^2*N^2 + 6*B^2*N*T - 3*B^2*T^2 + 2*B*C*N^2 - 6*B*C*N*T + 2*B*C*N + 4*B*C*T^2 - 2*B*C*T + C^2*N^2 - 2*C^2*N + C^2)^(1/2) + B*N - B*T - 2*C*N + B*N^2 + 2*B*T^2 + C*N^2 + N*(- 3*B^2*N^2 + 6*B^2*N*T - 3*B^2*T^2 + 2*B*C*N^2 - 6*B*C*N*T + 2*B*C*N + 4*B*C*T^2 - 2*B*C*T + C^2*N^2 - 2*C^2*N + C^2)^(1/2) - 3*B*N*T)/(2*(- N^2 + N*T + N - T^2 + T - 1))

gdzie oznaczono:
H = M^N
B = A^N
C = G^N

Gdy podstawimy te same dane co w przykładzie powyżej, tj. B = 1,405^5, C = 1,28^5, N = 5 i T = 10, to dostaniemy H = 4.3778, czyli M = 1,3435 (różnica 1,15 pkt proc). Różnica między (1) a (14) zachowuje się nieliniowo. Gdy T = 15, dla (1) M = 1,3737, a dla (14) M = 1,3558, czyli różnica wzrasta (do 1,79 pkt proc).

Gdy N rośnie, (1) i (14) jeszcze bardziej się zbliżają. W tym przypadku gdyby N = 75 i T = 80, to dla (1) M = 1,404, a dla (14) M = 1,4045. Wzór (14) w punktach granicznych zachowuje się identycznie jak (1). Czyli jeśli N = 1, to w (14) M = A oraz jeśli N = T, to w (14) M = G.

Krótko mówiąc wzór (1) jest zupełnie wystarczającym przybliżeniem, gdy liczba obserwacji wynosi powyżej 40, natomiast dla małej liczby można wziąć pewną niewielką ujemną poprawkę (1-2 pkt proc.).