niedziela, 7 kwietnia 2019

Od zasady maksymalnej entropii do regresji logistycznej

Wiemy już skąd się bierze idea entropii i zasada maksymalnej entropii (ZME). Jeśli system jest "sprawiedliwy", tak że prawdopodobieństwo każdego zdarzenia jest identyczne, to w takim systemie entropia będzie zawsze najwyższa. Podobnie, jeśli nie mamy żadnych informacji o systemie i z góry zakładamy rozkład jednostajny, to w takim systemie entropia będzie najwyższa. To twierdzenie można odwrócić: maksymalna entropia będzie prowadzić do rozkładu jednostajnego, jeśli nie mamy żadnych informacji o nim (może poza tym, że zdarzenia są niezależne od siebie). Gdy pojawią się nowe informacje, ZME doprowadzi do powstania innych rozkładów.

Powiedzmy, że rzucamy sześcienną kostką do gry, ale nie wiemy czy jest sprawiedliwa, a więc nie mamy pewności czy szansa każdego zdarzenia wynosi 1/6. Mimo to nie posiadamy żadnych innych informacji o tej kostce oprócz tego, że pociąga 6 różnych zdarzeń. Wspomaga nas jeszcze jedna informacja, ale spoza układu, wynikająca z samej teorii: prawdopodobieństwa sumują się do 1. Dostajemy dwa równania:


gdzie H to entropia Shannona, a p(i) - prawdopodobieństwo zdarzenia x(i).

Ten układ można rozwiązać metodą Lagrange'a. ZME zostaje zapisana jako zadanie optymalizacyjne:


Rozwiązaniem tego zadania będzie p = 1/6.

Ponieważ standardowa maksymalizacja oparta na różniczkowaniu wymaga ciągłości funkcji, to należałoby właściwie zamienić sumę na całkę. Dlatego w przypadku dyskretnym najłatwiej użyć nierówności Jensena do dowodu.

Świat rynków finansowych znacznie różni się od rzutu kostką. Niektóre zdarzenia są bardziej, inne mniej prawdopodobne. Najczęstsze zdarzenia układają się wokół dominanty, a jeśli rozkład jest symetryczny, to dominanta równa się wartości oczekiwanej. Załóżmy, że kostka jest niesprawiedliwa, tak że premiuje niektóre zdarzenia. Nie wiemy jednak czy rozkład jest symetryczny czy nie. Dostajemy tylko informację o wartości oczekiwanej (choćby na podstawie wielu rzutów). Pamiętajmy, że wartość oczekiwana nie musi leżeć na środku ani być najbardziej prawdopodobną wartością. Otrzymujemy 3 równania:

gdzie x(i) to wartość i-tego zdarzenia, a x z kreską na górze to wartość oczekiwana.
Powstaje zadanie optymalizacyjne:


Rozwiązaniem tego zadania będzie:

(1)


Jest to rozkład Boltzmanna, znany z fizyki. W zależności od parametru lambda(2) i wartości oczekiwanej, otrzymamy różne wyniki. Np. jeśli wartość oczekiwana = 3,5, to dostaniemy z powrotem rozkład jednostajny:

 
Gdy wartość oczekiwana = 2,5 i lambda(2) = 0,371, to rozkład przybiera postać jak na poniższym rysunku:


Gdy zaś wartość oczekiwana = 4,5 i lambda(2) = -0,371, wtedy rozkład przybiera postać:



Widać, że pomimo znajomości wartości oczekiwanej, w dwóch ostatnich przykładach nie ma żadnej symetrii ani nawet zalążka dzwonu (dominanta to odpowiednio 1 i 6). Mówię o tym, bo musimy sobie uświadomić, że sama ZME przy warunku znajomości jedynie wartości oczekiwanej, nie doprowadzi do rozkładu typowego dla rynków (a tym bardziej do Gaussa).

Natomiast uzyskany rozkład prowadzi do interesującego odkrycia. Wzór (1) przekształcamy:



Uzyskany wynik można uprościć. Zauważmy, że x(6) jest zwykłą stałą, a nie zmienną. Zastąpmy stałe nowymi parametrami:

(2)

Licznik w (2) jest to tzw. szansa (ang. odds), a więc prawdopodobieństwo jest to szansa podzielona przez sumę wszystkich szans (na jedynkę w mianowniku możemy spojrzeć jako na wartość wynikającą z redundancji ostatniej - szóstej wartości, której szansa całkowicie zależy od wszystkich poprzednich).
 
W ten sposób zbliżamy się do koncepcji regresji logistycznej (logistic regression), inaczej logit. Wzór (2) przedstawia ogólniejszą jej formę. Gdybyśmy chcieli zapisać ściślej tę funkcję, powinniśmy uwzględnić możliwość występowania wielu zmiennych, jak to często ma miejsce w regresji liniowej, a także N zamiast 6-ciu zdarzeń. A więc np.  dla dowolnego N dostajemy postać tzw. wielomianowej regresji logistycznej (multinomial logistic regression) czy wielomianowego logitu:

(3)


Jak można byłoby sobie wyobrazić tego typu zdarzenie? Np. rzucamy już nie sześcienną ale N-ścienną kostką, w którą uderzają inne N-ścienne kostki. Te inne kostki są od siebie niezależne. Wszystkich kostek jest K: K-1 obcych i jedna nasza.* Formuła (3) wskaże jakie jest prawdopodobieństwo uzyskania i-tego zdarzenia w takim układzie.

Robi się to trochę skomplikowane, dlatego zajmijmy się klasycznym, dwumianowym logitem. Kiedy on zachodzi? W logicie występują tylko 2 zdarzenia: orzeł-reszka albo prawda-fałsz. Domyślamy się więc, że N = 2. Wtedy (3) przybiera postać klasycznego logitu:

(4)


Ponieważ nie ma tu już sumy do N-1, to j = i.
Powiedzmy, że K = 2. Wtedy logit wygląda całkiem przyjaźnie:


Dostajemy model, w którym są tylko dwie zmienne zero-jedynkowe. Dzięki niemu możemy np. sprawdzić jakie jest prawdopodobieństwo, że firma zbankrutuje (albo na odwrót, że zysk wzrośnie), jeżeli spełnione lub niespełnione zostaną jakieś dwa warunki reprezentowane przez dwie zmienne.

Jeżeli dotychczas mieliśmy opór przed użyciem logitu, to po tym tekście powinien zniknąć. Okazuje się być modelem naturalnym i logicznym. Odrębna sprawa to praktyczne jego zastosowanie i tym zajmę się niebawem.


Literatura:
[1] He, F., Maximum entropy, logistic regression, and species abundance, April 2010
[2] https://sgfin.github.io/2017/03/16/Deriving-probability-distributions-using-the-Principle-of-Maximum-Entropy/
[3] https://en.wikipedia.org/wiki/Multinomial_logistic_regression


*Jest to abstrakcyjna gra, więc lepszym przykładem byłaby zamiana kostek na samochody ścigające się ze sobą po trudnej drodze i N=3 zdarzenia: (a) że nasz samochód przejedzie bez szwanku,  (b) że nasz samochód zderzy się z innym samochodem i (c) że nasz samochód będzie miał wypadek. Zmienna x1 oznaczałaby poziom umiejętności kierowcy, również z trzema możliwościami: słabym, średnim i dobrym. Reszta zmiennych, x2, x3, ..., oznaczałaby pozostałe auta, a dokładniej poziomy umiejętności pozostałych kierowców (tak samo: słaby, średni lub dobry). Zmienna x1 dotyczy więc naszych wewnętrznych możliwości, a inne zmienne zewnętrznych możliwości. Ponieważ poziom słaby, średni i dobry będzie silnie korelował odpowiednio z ryzykiem wypadku, zderzenia i braku wydarzeń, to przypomina to kostkę, która bez czynników zewnętrznych generuje kilka prawdopodobnych zdarzeń. Trzeba jednak zauważyć, że oba przykłady subtelnie się różnią. Usuńmy "zmienne zewnętrzne". Dla przykładu z kostką otrzymamy tylko N wylosowanych zdarzeń, natomiast w przykładzie z autami występuje w pewnym sensie 2*N zdarzeń, czyli tutaj 2*3 = 6 zdarzeń: brak wydarzeń, zderzenie, wypadek oraz poziom dobry, średni, słaby naszego kierowcy.  Tak więc w tym ostatnim mamy konkretny podział na zmienną zależną i niezależną; w przykładzie z pojedynczą kostką tak nie było. Gdyby korelacja między zmienną zależną a niezależną wyniosła 1, to moglibyśmy dopiero utożsamić obydwie zmienne ze sobą. I rzeczywiście tak można by zrobić, gdyby nie występowały inne zakłócające czynniki, jak np. poziom koncentracji kierowcy, który staje się de facto nową zmienną modelu (np. z podziałem na słabą, średnią i dobrą koncentrację). Niemniej, gdyby założyć, że koncentracja jest zawsze dobra, to można założyć, że zawsze dobry kierowca w trudnych warunkach nie będzie miał ani wypadku ani zderzenia, średni będzie miał zawsze zderzenie, a nie będzie miał wypadku, a słaby zawsze będzie miał wypadek. W ten sposób zmienna zależna staje się tożsama z niezależną - wtedy dokładnie dostaniemy przykład z kostką. Wówczas możemy dołożyć kolejne zmienne niezależne, co spowoduje złamanie tej doskonałej korelacji między zmienną zależną a niezależną, czyli wracamy do typowego modelu regresji.

niedziela, 31 marca 2019

Szybkie wyprowadzenie entropii informacyjnej Shannona

Entropia informacyjna jest ważnym pojęciem w statystyce i ekonometrii, ale raczej mało znanym w finansach. Czasami wykorzystuje się ją jako miarę ryzyka inwestycyjnego, lecz zanim jej użyjemy powinniśmy zrozumieć jej istotę. Spójrzmy najpierw na ten prosty wzór na entropię Shannona:

(1)

gdzie p(i) to prawdopodobieństwo zajścia pewnego zdarzenia x(i).

Pierwsze pytanie jakie przychodzi na myśl to: dlaczego w ogóle taki wzór? W polskich, a nawet zagranicznych opracowaniach internetowych nie znajdziemy szybkiej odpowiedzi. Oczywiście warto zajrzeć do oryginalnej pracy Shannona [2], która szczegółowo wyjaśnia użycie takiej a nie innej postaci, jednak dla laika w teorii informacji praca ta jest ciążka do przetrawienia i brakuje mi tam czysto matematycznego wyprowadzenia bez pojęcia bitów. Dlatego zacząłbym od prac, które wyprowadzają entropię wprost z rozkładów prawdopodobieństwa. Np. Hanel et al. [1] zaczynają od rozkładu dwumianowego, w którym występują tylko dwa zdarzenia: wyrzucenie orła albo reszki. Z tym że nie mamy pewności ani założenia, że rzucana moneta jest symetryczna i że oba zdarzenia są równie prawdopodobne, tj. nie muszą wynosić po 50%. Taką monetą rzucamy N razy (i każdy rzut jest niezależny od siebie). Powiedzmy, że k1 wskazuje ile razy wyrzucimy orła, a k2 ile razy wyrzucimy reszkę (czyli N = k1 + k2). Prawdopodobieństwo wyrzucenia k1 razy orła wynosi:

(2) 

gdzie p(1) to prawdopodobieństwo wyrzucenia raz orła, a p(2) to prawdopodobieństwo wyrzucenia raz reszki.

Jak wyżej powiedziano nie znamy teoretycznego p(i), jednak przy dużym N empiryczne prawdopodobieństwo będzie się zbliżać do teoretycznego. Dlatego uznajemy, że p(i) = k(i) / N. Dla dużego N można aproksymować wzór (2), korzystając z formuły Stirlinga. Wtedy (2) można zapisać w postaci:

(2)


gdzie H = -p(1)*ln(p1) - p(2)*ln(p2) = -[p(1)*ln(p1) + p(2)*ln(p2)].

Czyli widzimy, że:

(3)



Dlaczego entropia stanowi miarę nieporządku? Wiadomo, że N! / (k1! / (N - k1)!) to liczba kombinacji (bez powtórzeń) ułożenia k1 orłów w N rzutach. Czyli przy stałym N to właśnie entropia H mierzy liczbę tych kombinacji. Natomiast to, że im więcej kombinacji tym większy nieporządek, jest czymś intuicyjnie zrozumiałym. Oznacza to więcej możliwych niezależnych od siebie zdarzeń (trzeba zwrócić uwagę, że gdy zdarzenia są od siebie zależne, to liczba kombinacji nie będzie już oznaczać nieporządku, ale raczej mierzyć ilość informacji i wtedy taką definicję może przyjąć entropia - zob. ten wpis dotyczący termodynamiki nierównowagowej).

Teraz kolejne spostrzeżenie pozwoli nam zrozumieć znaczenie entropii. Powiedzmy, że wiemy, że moneta jest sprawiedliwa, czyli otrzymanie orła jest tak samo prawdopodobne jak reszki i musi wynieść 0,5. Podstawmy teraz p(1) = p(2) = 0,5 do wzoru (1):


Następnie przypuśćmy, że moneta nie byłaby sprawiedliwa, tak że p(1) = 0,6, a p(2) = 0,4. Wtedy H równa się:


W trzecim przykładzie niech p(1) = 0,8 i p(2) = 0,2:

W ostatnim przykładzie dla p(1) = 1 i p(2) = 0:

Wniosek nasuwa się sam: dla każdego innego prawdopodobieństwa niż 0,5 entropia będzie zawsze mniejsza. Czyli szansa wyrzucenia orła lub reszki równa 50% zapewnia najwyższą entropię. 

Co w sytuacji, gdy zdarzeń jest więcej niż 2? Dostajemy wtedy rozkład wielomianowy i prawdopodobieństwo wyrzucenia k(i) razy zdarzenia x(i) wynosi:

(4)

Wzór (4) możemy zapisać analogicznie jak (2):

(5)


gdzie H to właśnie wzór nr (1).

Idąc tym samym tropem co poprzednio zauważamy, że dla stałego N entropia H będzie warunkować liczbę kombinacji i tym samym mierzyć poziom nieuporządkowania układu.

Jeżeli układ ma pozostać "sprawiedliwy" dla każdego zdarzenia, to musimy przyjąć rozkład jednostajny, gdzie k1 = k2 = ... = kW = k. Wtedy p(i) = k / N, tzn. każde zdarzenie jest tak samo prawdopodobne. Domyślamy się już, że równa szansa każdego zdarzenia prowadzi do osiągnięcia maksimum entropii.

Powyższe wyprowadzenie stanowi źródło drugiej zasady termodynamiki, zgodnie z którą w układzie izolowanym entropia nie maleje. Gdy dodamy do tego izotropowość i jednorodność przestrzeni i czasu (np. symetryczność monety), wtedy entropia zawsze będzie maksymalna. 

Stąd rodzi się tzw. zasada maksimum entropii - ważna koncepcja w statystyce. O niej jednak więcej opowiem następnym razem.


Literatura:
[1] Hanel, R., Thurner, S., Gell-Mann, M., How multiplicity determines entropy and the derivation of the maximum entropy principle for complex systems, May 13, 2014,
[2] Shannon, C. E., A Mathematical Theory of Communication, July, 1948.