niedziela, 10 stycznia 2016

W poszukiwaniu nieznanej wartości oczekiwanej - część 1

Czasami można spotkać się z zarzutami, że wyznaczenie wartości fundamentalnej akcji jest niemożliwe, bo prawdziwa wartość oczekiwana parametrów potrzebnych do obliczeń jest nieznana. Na ten problem można spojrzeć z dwóch różnych punktów widzenia. Z jednej strony dane statystyczne należą do jednej próbki, tj. ułamka populacji, w której niektóre dane należą do przyszłości. A przyszłość jest nieznana. Z drugiej strony można filozoficznie uznać, że przyszłość nie istnieje, a jedynie jest tworzona na bieżąco. To oznacza, że mamy wgląd do pełnej populacji statystycznej, a jedynie rozkład prawdopodobieństwa może się zmieniać w czasie, czyli proces jest niestacjonarny. W przypadku takich cech jak tempo zmian zysków firmy znaczenie może mieć cykliczność gospodarcza. Wiemy jednak, że cykle w ekonomii są nieokresowe, chaotyczne i bliżej im do losowości niż do niezmiennych reguł - tyle że potrzebny jest odpowiednio długi okres czasu.  Stąd szukanie wartości oczekiwanej zmian procentowych ma sens.

Te dwa punkty widzenia prowadzą do wspólnego mianownika: wyznaczając wartość oczekiwaną dla przyszłości na podstawie przeszłości, napotkamy barierę w postaci błędu statystycznego, którego wartość oczekiwana będzie różna od zera.

Ten artykuł jest swego rodzaju kontynuacją poprzedniego, który przygotowywał Czytelnika do zrozumienia pojęcia terminowej oczekiwanej stopy zwrotu. Wówczas operowałem jedynie pojęciem średniej terminowej, rozróżniając średnią arytmetyczną - jako krótkoterminową średnią oraz geometryczną stopę - jako długoterminową średnią. Następnie zwróciłem uwagę, że średnia może mieć zupełnie inną formę i być np. nachyleniem trendu liniowego.

Podział na okres krótki i długi jest umowny. Jeżeli nawet umówimy się, że średnia arytmetyczna to okres krótki, a geometryczna długi, to gdzie umieścić inne formy średniej? Np. jeżeli chcemy wyznaczyć prognozę dywidendy, to użyjemy regresji liniowej z logarytmiczną stopą zwrotu w roli nachylenia trendu (patrz Istota i znaczenie logarytmicznej stopy zwrotu), ale skoro wiemy, że to nachylenie wiąże średnią arytmetyczną  i geometryczną, to czy w takim razie jest ono swego rodzaju wartością oczekiwaną w średnim okresie?

Najpierw Blume [1] a później innym tropem Jacqiuer, Kane, Marcus (JKM) [2, 3] wyprowadzili różne optymalne nieobciążone estymatory wartości oczekiwanej długoterminowego tempa wzrostu. Oczywiście nasuwa się pytanie czym różnią się te estymatory pomiędzy sobą. Po pierwsze Blume stosuje przy dowodzeniu twierdzenie Taylora, a więc jego estymator daje przybliżoną wartość, podczas gdy JKM otrzymują dokładne wyniki. Po drugie Blume zakłada, że stopy zwrotu mają rozkład normalny, natomiast u JKM stopy mają rozkład logarytmiczno-normalny - wyjaśnienie tego założenia w artykule Pokrzywiony dzwon - rozkład lognormalny.

To tyle tematem wstępu. Obecnie zajmę się jedynie estymatorem Blume'a. W następnym artykule opiszę estymatory JKM.

Zanim przejdę do dalszej części, od razu zwrócę uwagę na rozróżnienie pomiędzy stopą brutto a netto. Stopa brutto to stopa o postaci R = 1+r, gdzie r to stopa netto. Aby wprowadzić jasny podział będę używał wielkich liter na zapisanie stóp brutto, a małych liter do stóp netto. Zauważmy też, że stopa brutto może być interpretowana jako wartość aktywa o początkowym kapitale 1 zł.

Blume dowodzi, że gdy wartość oczekiwana stopy brutto w przyszłości po N okresach jest nieznana, to prawidłowym estymatorem tej wartości jest średnia ważona średnią arytmetyczną i geometryczną o następującej postaci:

(1)


gdzie:
T - okres przeszłości
N - prognozowany okres przyszłości
A - średnia arytmetyczna stopa brutto (liczona dla danych z okresu T)
G - średnia geometryczna stopa brutto (liczona dla danych z okresu T)

Dowód wzoru (1) zamieściłem w dodatku.
Jeżeli N = 1, to estymator M sprowadza się do A. Jeżeli N = T, to estymator M sprawdza się do G. Precyzyjnie widać w jaki sposób kształtowana jest długoterminowa średnia, o której rozprawiałem w poprzednim artykule. Średnia arytmetyczna dotyczy prognozy 1 okresu wprzód, a geometryczna prognozy na T okresów wprzód (a więc dla geometrycznej okres przyszłości jest traktowany symetrycznie do okresu przeszłości). Estymator Blume'a uwzględnia także wspomnianą w poprzednim artykule względność krótkiego i długiego okresu czasu. Jeżeli bowiem T dąży do nieskończoności, to dla dowolnego stałego N wartość M sprowadza się do A, ponieważ zobaczmy, że możemy zapisać:



Tak więc nawet dla dużego N średnia arytmetyczna będzie prawidłowym estymatorem, bo w stosunku do jeszcze większego T będzie średnią krótkoterminową.


Przykład.
Obliczmy wartość oczekiwaną rocznej stopy wzrostu zysku operacyjnego spółki LPP przy założeniu, że prognozujemy 5 następnych lat, czyli N = 5. Dane pobrałem z bankier.pl, w którym dane finansowe spółki są dostępne od 2004 r., zatem w okresie 2004-2014 było 10 stóp zwrotu, co oznacza T = 10. Otrzymałem następujące parametry:
A = 1,405 (a = 40,5%)
G = 1,28 (g = 28%)

Po podstawieniu danych do (1) oraz wyciągnięciu pierwiastka 5-tego stopnia z M^5, uzyskałem
M = 1,355. Stąd m = 1-M = 35,5%.



Dodatek nr 1. Wyprowadzenie estymatora Blume'a.
M jest pewną nieznaną wartością oczekiwaną stopy brutto. W każdym okresie t (od 1 do T) stopa brutto odchyla się od M:

(2)

Pierwszą częścią wyprowadzenia (1) jest znalezienie przybliżonej wartości oczekiwanej średniej arytmetycznej. Wynika z tego, że średnią traktujemy jak zmienną losową. (Jednak szukana wartość oczekiwana nie dotyczy tylko okresu T, ale także abstrakcyjnej przyszłości).
Sumując wszystkie R(t) dostaniemy:

(3)


Dzieląc obie strony przez T uzyskamy średnią arytmetyczną:

(4)



Oznaczmy:

(5)

i podnieśmy (4) do N:





 Poszukujemy wartości oczekiwanej średniej arytmetycznej w okresie N:

(6)


 Funkcję (1+h/M)^N możemy przybliżyć za pomocą wzoru Taylora (Maclaurina). Wszystkie składniki tej funkcji są stałymi poza h. Zakładamy, że h jest zmienną losową o rozkładzie normalnym, której wartość oczekiwana jest równa 0. W takim razie uznamy, że ostatni wyraz we wzorze Taylora zatrzyma się na potędze 2, ponieważ h^3 będzie równe 0 (wiąże się ze skośnością), natomiast pozostałe będą wyrazy będą niewielkie (h^4 = 3 dla r. Gaussa, ale dzielone zostanie przez 24). Stąd przybliżeniem będzie:

(7)



Samo h jest średnią arytmetyczną składnika losowego, zmienną w czasie. Nie wiadomo jaka będzie jej wartość w prognozowanym okresie. Wiadomo tylko, że h jest zmienną losową z E(h) = 0. Teraz znajdziemy wariancję h. Jest ona powiązana z wariancją składnika losowego e. W przeciwieństwie do średniej z próby, wariancja z próby składnika losowego e jest znana, tzn. przyjmujemy, że jest równa wariancji z populacji i może być wyznaczona w oparciu o historyczne dane z okresu od 1 do T. Zapiszmy:


Pamiętając czym jest h ze wzoru (5) oraz ze względu na niezależność od siebie składników losowych e(t), wykorzystujemy własność wariancji polegającej na tym, że wariancja sumy niezależnych zmiennych jest równa sumie wariancji tych zmiennych (zob. np. https://en.wikipedia.org/wiki/Variance)


 


Nasze składniki losowe e(t) mają nie tylko znaną wariancję, ale ich wariancja pozostaje zawsze ta sama (tak zakładamy). Skoro T-krotnie sumowane są stałe, to znaczy, że możemy znak sumy zastąpić T, tak że uzyskujemy poszukiwaną wariancję h:

(8)


Wkładamy (7) do (6), wykorzystujemy możliwość rozbicia wartości oczekiwanej na części (pamiętamy, że E(h) = 0) i do tej formuły podstawiamy rozwiązanie z (8), dostając:


(9)



Zauważmy, że mimo iż zgodnie z prawem wielkich liczb średnia arytmetyczna dąży do swojej wartości oczekiwanej, to twierdzenie to nie dotyczy średnich podnoszonych do potęgi N > 1.

Drugą częścią jest znalezienie przybliżenia dla wartości oczekiwanej geometrycznej stopy zwrotu.

Geometryczną stopę brutto możemy zapisać jako iloczyn prawdziwej średniej skorygowaną o błędy statystyczne po T okresach i spierwiastkowaną T-tym okresem:

Prognozowana średnia geometryczna w okresie N będzie podnoszona N-tą potęgą:


Ponieważ nie znamy przyszłości, to nie znamy prawdziwej średniej geometrycznej, więc G^N to zmienna losowa. Poszukujemy więc wartości oczekiwanej tej zmiennej. Dokonujemy dodatkowo przekształcenia:

(10)



Wiedząc, że e(t) to zmienna losowa o rozkładzie normalnym, stosujemy podobnie jak poprzednio (7) stosujemy przybliżenie za pomocą wzoru Taylora-Maclaurina do drugiego rzędu,



Otrzymany wynik wkładamy do (10):


Pierwsze wyrazy w nawiasie kwadratowym moglibyśmy zapisać w postaci sum:



Wprowadzamy oczywiste założenie:


Składniki e(t) sumarycznie w okresie od 1 do T nie dają zera (bo h nie równa się zero). Sumy te wyzerują się  dopiero ze względu na to, że E(e) = 0. Ponadto składniki e(t) są od siebie niezależne. Stąd otrzymujemy:

(11)

Elementy oznaczone (...) stają niewielkie, dlatego je odrzuciliśmy. Powracając do pierwotnych oznaczeń zamiast X i Y, równanie (11) zapiszemy:

(12)


Widzimy, że wyraz K pojawia się po raz drugi. W tym miejscu podejmiemy nieco kontrowersyjną decyzję, by drugi wyraz w nawiasie w (12) uznać za zerowy, czyli że K^2 = 0. Chodzi tu o uproszczenie obliczeń. (Blume robi trochę inaczej, ponieważ używa podwójnej aproksymacji ze wzoru Taylora, ale także opuszcza rzędy wyższe niż 2). Czyli wtedy:

(13)

Ponieważ w (9) pojawiło się także K, rozwiązujemy układ równań (9-13), znajdując K dla pierwszego i dla drugiego i zrównujemy ze sobą:



Rozwiązanie tego równania względem M^N daje wzór (1).


Literatura:
[1] M. E. Blume, Unbiased Estimators of Long-Run Expected Rates of Return, Sep., 1974
[2] E. Jacqiuer, A. Kane, A. Marcus, Optimal Forecasts of Long-Term Returns and Asset Allocation: Geometric, Arithmetic, or Other Means?, October 31, 2002
[3] E. Jacqiuer, A. Kane, A. Marcus, Geometric or Arithmetic Mean: Reconsideration , October 31, 2002
[4] P. Cheng, M. K. Deets, Statistical Biases and Security Rates of Return, Jun., 1971
[5] https://en.wikipedia.org/wiki/Variance

..................................................................

Dodatek nr 2:
Jeżeli zachowalibyśmy pełne równanie (12), wtedy rozwiązanie układu równań (9-12) również jest możliwe, ale wynik wydaje się szalenie skomplikowany. Po pierwsze powstają 2 dodatnie rozwiązania. Aby wynik znajdował się zgodnie z intuicją pomiędzy A a G, należy wybrać to większe. Po drugie Wolfram Alpha pokazał następujące (to większe) rozwiązanie:

(14)

To samo uzyskane w Matlabie rozwiązanie jest już kompletnie nieczytelne:

(14)

H = -(C - (- 3*B^2*N^2 + 6*B^2*N*T - 3*B^2*T^2 + 2*B*C*N^2 - 6*B*C*N*T + 2*B*C*N + 4*B*C*T^2 - 2*B*C*T + C^2*N^2 - 2*C^2*N + C^2)^(1/2) + B*N - B*T - 2*C*N + B*N^2 + 2*B*T^2 + C*N^2 + N*(- 3*B^2*N^2 + 6*B^2*N*T - 3*B^2*T^2 + 2*B*C*N^2 - 6*B*C*N*T + 2*B*C*N + 4*B*C*T^2 - 2*B*C*T + C^2*N^2 - 2*C^2*N + C^2)^(1/2) - 3*B*N*T)/(2*(- N^2 + N*T + N - T^2 + T - 1))

gdzie oznaczono:
H = M^N
B = A^N
C = G^N

Gdy podstawimy te same dane co w przykładzie powyżej, tj. B = 1,405^5, C = 1,28^5, N = 5 i T = 10, to dostaniemy H = 4.3778, czyli M = 1,3435 (różnica 1,15 pkt proc). Różnica między (1) a (14) zachowuje się nieliniowo. Gdy T = 15, dla (1) M = 1,3737, a dla (14) M = 1,3558, czyli różnica wzrasta (do 1,79 pkt proc).

Gdy N rośnie, (1) i (14) jeszcze bardziej się zbliżają. W tym przypadku gdyby N = 75 i T = 80, to dla (1) M = 1,404, a dla (14) M = 1,4045. Wzór (14) w punktach granicznych zachowuje się identycznie jak (1). Czyli jeśli N = 1, to w (14) M = A oraz jeśli N = T, to w (14) M = G.

Krótko mówiąc wzór (1) jest zupełnie wystarczającym przybliżeniem, gdy liczba obserwacji wynosi powyżej 40, natomiast dla małej liczby można wziąć pewną niewielką ujemną poprawkę (1-2 pkt proc.).

wtorek, 15 grudnia 2015

Krótkoterminowa vs. długoterminowa średnia stopa zwrotu

Inwestorzy przyzwyczaili się do sformułowania "długoterminowa stopa zwrotu" w rozumieniu stopy zwrotu w długim okresie czasu. Jednakże długoterminowa średnia stopa zwrotu to termin oznaczający zupełnie coś innego. Właściwie długoterminową średnią stopę zwrotu można utożsamić z geometryczną średnią stopą zwrotu, natomiast krótkoterminową średnią stopę zwrotu z arytmetyczną średnią stopą zwrotu. Jeżeli jednak takie definicje uznamy za prawdziwe, to po co tworzę tutaj nowe nazwy zamiast po prostu używać pojęć geometryczna i arytmetyczna średnia? Żeby poczuć trochę to zagadnienie, podam przykład. Oto wykres miesięcznego kursu spółki ERG od początku 2007 do 30.11.2015:


Kurs spadł w ciągu 9 lat z 80 zł do 20 zł (po uwzględnieniu splitów). Geometryczna miesięczna średnia stopa zwrotu, jak łatwo się domyślić, jest ujemna i wynosi w tym okresie -1,3%. Ale już zupełnie nieintuicyjnym faktem jest arytmetyczna średnia miesięczna, która równa się w tym samym okresie +0,182%. Czyli arytmetyczna średnia kompletnie zafałszowuje obraz sytuacji. Dlaczego tak się dzieje? Właśnie dlatego, że średnia arytmetyczna oddaje zmiany w krótkim okresie (1 miesiąc), zaś geometryczna bierze pod uwagę tylko stosunek ostatniej i pierwszej ceny uśredniając go w odpowiednim przedziale czasu.

Głębsze wyjaśnienie skąd wynika ta różnica zawiera artykuł O relacji między arytmetyczną a geometryczną stopą zwrotu. Pokazałem tam, że średnia geometryczna może być wyrażona jako relacja między średnią arytmetyczną, kurtozą i skośnością. Podstawiając dla ERG parametry do wzoru G1 w tym artykule, dostaniemy przybliżenie średniej geometrycznej równe -1,46% a więc bardzo blisko prawdziwej wartości -1,3%.

Mówiąc krótko, w krótkich okresach czasu uwidacznia się wpływ wariancji, kurtozy i skośności, a w długim okresie ich wpływ traci na znaczeniu.

Można byłoby więc zapytać czy w takim razie bardziej opłacalna jest strategia krótkoterminowa polegająca na szukaniu spółek o wysokiej wariancji, ujemnej (lewostronnej) skośności i wysokiej kurtozie, dająca wyższe arytmetyczne stopy zwrotu? Po pierwsze na przeszkodzie stoją koszty prowizji, w przypadku ERG sprowadzają dodatnią stopę do ujemnej - dla średniej stopy 0,182% po uwzględnieniu prowizji nawet 0,2% dostaniemy stopę -0,22%, a stosując ten manewr w przeciągu 106 miesięcy (od 31.01.2007 do 30.11.2015) -21% (patrz - Czy stop lossy są opłacalne? ). Po drugie jeśli przyjąć, że wybieramy tylko pojedyncze miesiące na transakcję, trzeba uwzględnić ryzyko mierzone właśnie przez wariancję, kurtozę i skośność (patrz - Uogólniony wskaźnik Sharpe'a ).

Powróćmy do początkowego pytania dlaczego długoterminową średnią nie nazywam po prostu geometryczną średnią? Na głębsze wyjaśnienie przyjdzie jeszcze czas, ale teraz tylko zadam takie pytanie: czy obliczona na podstawie modelu regresji liniowej logarytmiczna stopa zwrotu jest średnią długoterminową czy krótkoterminową? W artykule  Istota i znaczenie logarytmicznej stopy zwrotu
przedstawiam ideę logarytmicznej stopy zwrotu, która łączy w sobie elementy średniej geometrycznej i arytmetycznej. Pokażę to teraz trochę matematycznie.

A) Element średniej geometrycznej.
Wiadomo, że logarytmiczna średnia stopa stanowi tutaj nachylenie linii trendu logarytmicznej ceny. Wiedząc to oraz wykorzystując równanie podane w Istota i znaczenie logarytmicznej stopy zwrotu możemy zapisać prognozowaną cenę w postaci:

(1)





gdzie r(L) - logarytmiczna stopa zwrotu dla kapitalizacji ciągłej, a, b - stałe, t - czas.
W równaniu (1) zamieniłem także  a = lnP(0), bo jest to po prostu pierwsza logarytmiczna cena w okresie 0.

Zauważamy, że średnia geometryczna stopa zwrotu w okresie t, G(t), w kapitalizacji ciągłej może być przybliżona logarytmiczną stopą zwrotu:




B) Element średniej arytmetycznej.

Na podstawie (1) zapisujemy:

(2)


Tak jak wcześniej powiedziano, parametr a jest po prostu pierwszą (w t = 0) logarytmiczną ceną. Natomiast prognozowana logarytmiczna cena w okresie t jest wartością oczekiwaną lnP(t). W sumie więc (2) zapiszemy w postaci:

(3)





Wyraz ten możemy przekształcić:



















Stąd widać, że parametr nachylenia z modelu regresji, jest wartością oczekiwaną średniej (arytmetycznej) logarytmicznej stopy zwrotu.


I na koniec: parametr nachylenia regresji liniowej jest obliczany wzorem:

(4)


gdzie standardowo kreska pozioma oznacza średnią.

Tak wyznaczony parametr jest estymatorem nieobciążonym, a więc wartość parametru jest równa wartości oczekiwanej tego parametru, tj:

r(L) = E(r(L))

Innymi słowy wartość oczekiwana logarytmicznej stopy zwrotu jest równa formule (4). Jak wiadomo zgodnie z prawem wielkich liczb średnia arytmetyczna będzie dążyć w długim okresie do wartości oczekiwanej.
Trzeba nadmienić, że z punktu widzenia prognozy estymator otrzymany z regresji liniowej (za pomocą MNK) jest estymatorem często najefektywniejszym, a więc lepszym od średniej arytmetycznej i geometrycznej - tj. posiada najmniejszą wariancję spośród estymatorów nieobciążonych. 

Powyższa analiza ilustruje, że pojęcie długoterminowej średniej stopy zwrotu nie musi dotyczyć tylko średniej geometrycznej. W momencie gdy estymacja średniej dokonywana jest metodą regresji liniowej, mamy do czynienia z zupełnie nową miarą długoterminowej średniej. W przykładzie ERG nachylenie log ceny uzyskamy oczywiście ujemne, co upodabnia tę miarę do geometrycznej średniej. Z drugiej strony poziom tego nachylenia jest też kształtowany przez zmiany wewnątrz całego okresu, co przybliża je do średniej arytmetycznej.





 Nachylenie linii regresji wyniosło -0,0155. Po przekształceniu na prostą stopę dostaniemy exp(-0,0155)-1 = -0,0154.