niedziela, 10 stycznia 2016

W poszukiwaniu nieznanej wartości oczekiwanej - część 1

Czasami można spotkać się z zarzutami, że wyznaczenie wartości fundamentalnej akcji jest niemożliwe, bo prawdziwa wartość oczekiwana parametrów potrzebnych do obliczeń jest nieznana. Na ten problem można spojrzeć z dwóch różnych punktów widzenia. Z jednej strony dane statystyczne należą do jednej próbki, tj. ułamka populacji, w której niektóre dane należą do przyszłości. A przyszłość jest nieznana. Z drugiej strony można filozoficznie uznać, że przyszłość nie istnieje, a jedynie jest tworzona na bieżąco. To oznacza, że mamy wgląd do pełnej populacji statystycznej, a jedynie rozkład prawdopodobieństwa może się zmieniać w czasie, czyli proces jest niestacjonarny. W przypadku takich cech jak tempo zmian zysków firmy znaczenie może mieć cykliczność gospodarcza. Wiemy jednak, że cykle w ekonomii są nieokresowe, chaotyczne i bliżej im do losowości niż do niezmiennych reguł - tyle że potrzebny jest odpowiednio długi okres czasu.  Stąd szukanie wartości oczekiwanej zmian procentowych ma sens.

Te dwa punkty widzenia prowadzą do wspólnego mianownika: wyznaczając wartość oczekiwaną dla przyszłości na podstawie przeszłości, napotkamy barierę w postaci błędu statystycznego, którego wartość oczekiwana będzie różna od zera.

Ten artykuł jest swego rodzaju kontynuacją poprzedniego, który przygotowywał Czytelnika do zrozumienia pojęcia terminowej oczekiwanej stopy zwrotu. Wówczas operowałem jedynie pojęciem średniej terminowej, rozróżniając średnią arytmetyczną - jako krótkoterminową średnią oraz geometryczną stopę - jako długoterminową średnią. Następnie zwróciłem uwagę, że średnia może mieć zupełnie inną formę i być np. nachyleniem trendu liniowego.

Podział na okres krótki i długi jest umowny. Jeżeli nawet umówimy się, że średnia arytmetyczna to okres krótki, a geometryczna długi, to gdzie umieścić inne formy średniej? Np. jeżeli chcemy wyznaczyć prognozę dywidendy, to użyjemy regresji liniowej z logarytmiczną stopą zwrotu w roli nachylenia trendu (patrz Istota i znaczenie logarytmicznej stopy zwrotu), ale skoro wiemy, że to nachylenie wiąże średnią arytmetyczną  i geometryczną, to czy w takim razie jest ono swego rodzaju wartością oczekiwaną w średnim okresie?

Najpierw Blume [1] a później innym tropem Jacqiuer, Kane, Marcus (JKM) [2, 3] wyprowadzili różne optymalne nieobciążone estymatory wartości oczekiwanej długoterminowego tempa wzrostu. Oczywiście nasuwa się pytanie czym różnią się te estymatory pomiędzy sobą. Po pierwsze Blume stosuje przy dowodzeniu twierdzenie Taylora, a więc jego estymator daje przybliżoną wartość, podczas gdy JKM otrzymują dokładne wyniki. Po drugie Blume zakłada, że stopy zwrotu mają rozkład normalny, natomiast u JKM stopy mają rozkład logarytmiczno-normalny - wyjaśnienie tego założenia w artykule Pokrzywiony dzwon - rozkład lognormalny.

To tyle tematem wstępu. Obecnie zajmę się jedynie estymatorem Blume'a. W następnym artykule opiszę estymatory JKM.

Zanim przejdę do dalszej części, od razu zwrócę uwagę na rozróżnienie pomiędzy stopą brutto a netto. Stopa brutto to stopa o postaci R = 1+r, gdzie r to stopa netto. Aby wprowadzić jasny podział będę używał wielkich liter na zapisanie stóp brutto, a małych liter do stóp netto. Zauważmy też, że stopa brutto może być interpretowana jako wartość aktywa o początkowym kapitale 1 zł.

Blume dowodzi, że gdy wartość oczekiwana stopy brutto w przyszłości po N okresach jest nieznana, to prawidłowym estymatorem tej wartości jest średnia ważona średnią arytmetyczną i geometryczną o następującej postaci:

(1)


gdzie:
T - okres przeszłości
N - prognozowany okres przyszłości
A - średnia arytmetyczna stopa brutto (liczona dla danych z okresu T)
G - średnia geometryczna stopa brutto (liczona dla danych z okresu T)

Dowód wzoru (1) zamieściłem w dodatku.
Jeżeli N = 1, to estymator M sprowadza się do A. Jeżeli N = T, to estymator M sprawdza się do G. Precyzyjnie widać w jaki sposób kształtowana jest długoterminowa średnia, o której rozprawiałem w poprzednim artykule. Średnia arytmetyczna dotyczy prognozy 1 okresu wprzód, a geometryczna prognozy na T okresów wprzód (a więc dla geometrycznej okres przyszłości jest traktowany symetrycznie do okresu przeszłości). Estymator Blume'a uwzględnia także wspomnianą w poprzednim artykule względność krótkiego i długiego okresu czasu. Jeżeli bowiem T dąży do nieskończoności, to dla dowolnego stałego N wartość M sprowadza się do A, ponieważ zobaczmy, że możemy zapisać:



Tak więc nawet dla dużego N średnia arytmetyczna będzie prawidłowym estymatorem, bo w stosunku do jeszcze większego T będzie średnią krótkoterminową.


Przykład.
Obliczmy wartość oczekiwaną rocznej stopy wzrostu zysku operacyjnego spółki LPP przy założeniu, że prognozujemy 5 następnych lat, czyli N = 5. Dane pobrałem z bankier.pl, w którym dane finansowe spółki są dostępne od 2004 r., zatem w okresie 2004-2014 było 10 stóp zwrotu, co oznacza T = 10. Otrzymałem następujące parametry:
A = 1,405 (a = 40,5%)
G = 1,28 (g = 28%)

Po podstawieniu danych do (1) oraz wyciągnięciu pierwiastka 5-tego stopnia z M^5, uzyskałem
M = 1,355. Stąd m = 1-M = 35,5%.



Dodatek nr 1. Wyprowadzenie estymatora Blume'a.
M jest pewną nieznaną wartością oczekiwaną stopy brutto. W każdym okresie t (od 1 do T) stopa brutto odchyla się od M:

(2)

Pierwszą częścią wyprowadzenia (1) jest znalezienie przybliżonej wartości oczekiwanej średniej arytmetycznej. Wynika z tego, że średnią traktujemy jak zmienną losową. (Jednak szukana wartość oczekiwana nie dotyczy tylko okresu T, ale także abstrakcyjnej przyszłości).
Sumując wszystkie R(t) dostaniemy:

(3)


Dzieląc obie strony przez T uzyskamy średnią arytmetyczną:

(4)



Oznaczmy:

(5)

i podnieśmy (4) do N:





 Poszukujemy wartości oczekiwanej średniej arytmetycznej w okresie N:

(6)


 Funkcję (1+h/M)^N możemy przybliżyć za pomocą wzoru Taylora (Maclaurina). Wszystkie składniki tej funkcji są stałymi poza h. Zakładamy, że h jest zmienną losową o rozkładzie normalnym, której wartość oczekiwana jest równa 0. W takim razie uznamy, że ostatni wyraz we wzorze Taylora zatrzyma się na potędze 2, ponieważ h^3 będzie równe 0 (wiąże się ze skośnością), natomiast pozostałe będą wyrazy będą niewielkie (h^4 = 3 dla r. Gaussa, ale dzielone zostanie przez 24). Stąd przybliżeniem będzie:

(7)



Samo h jest średnią arytmetyczną składnika losowego, zmienną w czasie. Nie wiadomo jaka będzie jej wartość w prognozowanym okresie. Wiadomo tylko, że h jest zmienną losową z E(h) = 0. Teraz znajdziemy wariancję h. Jest ona powiązana z wariancją składnika losowego e. W przeciwieństwie do średniej z próby, wariancja z próby składnika losowego e jest znana, tzn. przyjmujemy, że jest równa wariancji z populacji i może być wyznaczona w oparciu o historyczne dane z okresu od 1 do T. Zapiszmy:


Pamiętając czym jest h ze wzoru (5) oraz ze względu na niezależność od siebie składników losowych e(t), wykorzystujemy własność wariancji polegającej na tym, że wariancja sumy niezależnych zmiennych jest równa sumie wariancji tych zmiennych (zob. np. https://en.wikipedia.org/wiki/Variance)


 


Nasze składniki losowe e(t) mają nie tylko znaną wariancję, ale ich wariancja pozostaje zawsze ta sama (tak zakładamy). Skoro T-krotnie sumowane są stałe, to znaczy, że możemy znak sumy zastąpić T, tak że uzyskujemy poszukiwaną wariancję h:

(8)


Wkładamy (7) do (6), wykorzystujemy możliwość rozbicia wartości oczekiwanej na części (pamiętamy, że E(h) = 0) i do tej formuły podstawiamy rozwiązanie z (8), dostając:


(9)



Zauważmy, że mimo iż zgodnie z prawem wielkich liczb średnia arytmetyczna dąży do swojej wartości oczekiwanej, to twierdzenie to nie dotyczy średnich podnoszonych do potęgi N > 1.

Drugą częścią jest znalezienie przybliżenia dla wartości oczekiwanej geometrycznej stopy zwrotu.

Geometryczną stopę brutto możemy zapisać jako iloczyn prawdziwej średniej skorygowaną o błędy statystyczne po T okresach i spierwiastkowaną T-tym okresem:

Prognozowana średnia geometryczna w okresie N będzie podnoszona N-tą potęgą:


Ponieważ nie znamy przyszłości, to nie znamy prawdziwej średniej geometrycznej, więc G^N to zmienna losowa. Poszukujemy więc wartości oczekiwanej tej zmiennej. Dokonujemy dodatkowo przekształcenia:

(10)



Wiedząc, że e(t) to zmienna losowa o rozkładzie normalnym, stosujemy podobnie jak poprzednio (7) stosujemy przybliżenie za pomocą wzoru Taylora-Maclaurina do drugiego rzędu,



Otrzymany wynik wkładamy do (10):


Pierwsze wyrazy w nawiasie kwadratowym moglibyśmy zapisać w postaci sum:



Wprowadzamy oczywiste założenie:


Składniki e(t) sumarycznie w okresie od 1 do T nie dają zera (bo h nie równa się zero). Sumy te wyzerują się  dopiero ze względu na to, że E(e) = 0. Ponadto składniki e(t) są od siebie niezależne. Stąd otrzymujemy:

(11)

Elementy oznaczone (...) stają niewielkie, dlatego je odrzuciliśmy. Powracając do pierwotnych oznaczeń zamiast X i Y, równanie (11) zapiszemy:

(12)


Widzimy, że wyraz K pojawia się po raz drugi. W tym miejscu podejmiemy nieco kontrowersyjną decyzję, by drugi wyraz w nawiasie w (12) uznać za zerowy, czyli że K^2 = 0. Chodzi tu o uproszczenie obliczeń. (Blume robi trochę inaczej, ponieważ używa podwójnej aproksymacji ze wzoru Taylora, ale także opuszcza rzędy wyższe niż 2). Czyli wtedy:

(13)

Ponieważ w (9) pojawiło się także K, rozwiązujemy układ równań (9-13), znajdując K dla pierwszego i dla drugiego, tj. rozwiązujemy równanie względem M^N:



Rozwiązanie tego równania daje wzór (1).


Literatura:
[1] M. E. Blume, Unbiased Estimators of Long-Run Expected Rates of Return, Sep., 1974
[2] E. Jacqiuer, A. Kane, A. Marcus, Optimal Forecasts of Long-Term Returns and Asset Allocation: Geometric, Arithmetic, or Other Means?, October 31, 2002
[3] E. Jacqiuer, A. Kane, A. Marcus, Geometric or Arithmetic Mean: Reconsideration , October 31, 2002
[4] P. Cheng, M. K. Deets, Statistical Biases and Security Rates of Return, Jun., 1971
[5] https://en.wikipedia.org/wiki/Variance

..................................................................

Dodatek nr 2:
Jeżeli zachowalibyśmy pełne równanie (12), wtedy rozwiązanie układu równań (9-12) również jest możliwe, ale wynik wydaje się szalenie skomplikowany. Po pierwsze powstają 2 dodatnie rozwiązania. Aby wynik znajdował się zgodnie z intuicją pomiędzy A a G, należy wybrać to większe. Po drugie Wolfram Alpha pokazał następujące (to większe) rozwiązanie:

(14)

To samo uzyskane w Matlabie rozwiązanie jest już kompletnie nieczytelne:

(14)

H = -(C - (- 3*B^2*N^2 + 6*B^2*N*T - 3*B^2*T^2 + 2*B*C*N^2 - 6*B*C*N*T + 2*B*C*N + 4*B*C*T^2 - 2*B*C*T + C^2*N^2 - 2*C^2*N + C^2)^(1/2) + B*N - B*T - 2*C*N + B*N^2 + 2*B*T^2 + C*N^2 + N*(- 3*B^2*N^2 + 6*B^2*N*T - 3*B^2*T^2 + 2*B*C*N^2 - 6*B*C*N*T + 2*B*C*N + 4*B*C*T^2 - 2*B*C*T + C^2*N^2 - 2*C^2*N + C^2)^(1/2) - 3*B*N*T)/(2*(- N^2 + N*T + N - T^2 + T - 1))

gdzie oznaczono:
H = M^N
B = A^N
C = G^N

Gdy podstawimy te same dane co w przykładzie powyżej, tj. B = 1,405^5, C = 1,28^5, N = 5 i T = 10, to dostaniemy H = 4.3778, czyli M = 1,3435 (różnica 1,15 pkt proc). Różnica między (1) a (14) zachowuje się nieliniowo. Gdy T = 15, dla (1) M = 1,3737, a dla (14) M = 1,3558, czyli różnica wzrasta (do 1,79 pkt proc).

Gdy N rośnie, (1) i (14) jeszcze bardziej się zbliżają. W tym przypadku gdyby N = 75 i T = 80, to dla (1) M = 1,404, a dla (14) M = 1,4045. Wzór (14) w punktach granicznych zachowuje się identycznie jak (1). Czyli jeśli N = 1, to w (14) M = A oraz jeśli N = T, to w (14) M = G.

Krótko mówiąc wzór (1) jest zupełnie wystarczającym przybliżeniem, gdy liczba obserwacji wynosi powyżej 40, natomiast dla małej liczby można wziąć pewną niewielką ujemną poprawkę (1-2 pkt proc.).