niedziela, 7 kwietnia 2019

Od zasady maksymalnej entropii do regresji logistycznej

Wiemy już skąd się bierze idea entropii i zasada maksymalnej entropii (ZME). Jeśli system jest "sprawiedliwy", tak że prawdopodobieństwo każdego zdarzenia jest identyczne, to w takim systemie entropia będzie zawsze najwyższa. Podobnie, jeśli nie mamy żadnych informacji o systemie i z góry zakładamy rozkład jednostajny, to w takim systemie entropia będzie najwyższa. To twierdzenie można odwrócić: maksymalna entropia będzie prowadzić do rozkładu jednostajnego, jeśli nie mamy żadnych informacji o nim (może poza tym, że zdarzenia są niezależne od siebie). Gdy pojawią się nowe informacje, ZME doprowadzi do powstania innych rozkładów.

Powiedzmy, że rzucamy sześcienną kostką do gry, ale nie wiemy czy jest sprawiedliwa, a więc nie mamy pewności czy szansa każdego zdarzenia wynosi 1/6. Mimo to nie posiadamy żadnych innych informacji o tej kostce oprócz tego, że pociąga 6 różnych zdarzeń. Wspomaga nas jeszcze jedna informacja, ale spoza układu, wynikająca z samej teorii: prawdopodobieństwa sumują się do 1. Dostajemy dwa równania:


gdzie H to entropia Shannona, a p(i) - prawdopodobieństwo zdarzenia x(i).

Ten układ można rozwiązać metodą Lagrange'a. ZME zostaje zapisana jako zadanie optymalizacyjne:


Rozwiązaniem tego zadania będzie p = 1/6.

Ponieważ standardowa maksymalizacja oparta na różniczkowaniu wymaga ciągłości funkcji, to należałoby właściwie zamienić sumę na całkę. Dlatego w przypadku dyskretnym najłatwiej użyć nierówności Jensena do dowodu.

Świat rynków finansowych znacznie różni się od rzutu kostką. Niektóre zdarzenia są bardziej, inne mniej prawdopodobne. Najczęstsze zdarzenia układają się wokół dominanty, a jeśli rozkład jest symetryczny, to dominanta równa się wartości oczekiwanej. Załóżmy, że kostka jest niesprawiedliwa, tak że premiuje niektóre zdarzenia. Nie wiemy jednak czy rozkład jest symetryczny czy nie. Dostajemy tylko informację o wartości oczekiwanej (choćby na podstawie wielu rzutów). Pamiętajmy, że wartość oczekiwana nie musi leżeć na środku ani być najbardziej prawdopodobną wartością. Otrzymujemy 3 równania:

gdzie x(i) to wartość i-tego zdarzenia, a x z kreską na górze to wartość oczekiwana.
Powstaje zadanie optymalizacyjne:


Rozwiązaniem tego zadania będzie:

(1)


Jest to rozkład Boltzmanna, znany z fizyki. W zależności od parametru lambda(2) i wartości oczekiwanej, otrzymamy różne wyniki. Np. jeśli wartość oczekiwana = 3,5, to dostaniemy z powrotem rozkład jednostajny:

 
Gdy wartość oczekiwana = 2,5 i lambda(2) = 0,371, to rozkład przybiera postać jak na poniższym rysunku:


Gdy zaś wartość oczekiwana = 4,5 i lambda(2) = -0,371, wtedy rozkład przybiera postać:



Widać, że pomimo znajomości wartości oczekiwanej, w dwóch ostatnich przykładach nie ma żadnej symetrii ani nawet zalążka dzwonu (dominanta to odpowiednio 1 i 6). Mówię o tym, bo musimy sobie uświadomić, że sama ZME przy warunku znajomości jedynie wartości oczekiwanej, nie doprowadzi do rozkładu typowego dla rynków (a tym bardziej do Gaussa).

Natomiast uzyskany rozkład prowadzi do interesującego odkrycia. Wzór (1) przekształcamy:



Uzyskany wynik można uprościć. Zauważmy, że x(6) jest zwykłą stałą, a nie zmienną. Zastąpmy stałe nowymi parametrami:

(2)

Licznik w (2) jest to tzw. szansa (ang. odds), a więc prawdopodobieństwo jest to szansa podzielona przez sumę wszystkich szans (na jedynkę w mianowniku możemy spojrzeć jako na wartość wynikającą z redundancji ostatniej - szóstej wartości, której szansa całkowicie zależy od wszystkich poprzednich).
 
W ten sposób zbliżamy się do koncepcji regresji logistycznej (logistic regression), inaczej logit. Wzór (2) przedstawia ogólniejszą jej formę. Gdybyśmy chcieli zapisać ściślej tę funkcję, powinniśmy uwzględnić możliwość występowania wielu zmiennych, jak to często ma miejsce w regresji liniowej, a także N zamiast 6-ciu zdarzeń. A więc np.  dla dowolnego N dostajemy postać tzw. wielomianowej regresji logistycznej (multinomial logistic regression) czy wielomianowego logitu:

(3)


Jak można byłoby sobie wyobrazić tego typu zdarzenie? Np. rzucamy już nie sześcienną ale N-ścienną kostką, w którą uderzają inne N-ścienne kostki. Te inne kostki są od siebie niezależne. Wszystkich kostek jest K: K-1 obcych i jedna nasza.* Formuła (3) wskaże jakie jest prawdopodobieństwo uzyskania i-tego zdarzenia w takim układzie.

Robi się to trochę skomplikowane, dlatego zajmijmy się klasycznym, dwumianowym logitem. Kiedy on zachodzi? W logicie występują tylko 2 zdarzenia: orzeł-reszka albo prawda-fałsz. Domyślamy się więc, że N = 2. Wtedy (3) przybiera postać klasycznego logitu:

(4)


Ponieważ nie ma tu już sumy do N-1, to j = i.
Powiedzmy, że K = 2. Wtedy logit wygląda całkiem przyjaźnie:


Dostajemy model, w którym są tylko dwie zmienne zero-jedynkowe. Dzięki niemu możemy np. sprawdzić jakie jest prawdopodobieństwo, że firma zbankrutuje (albo na odwrót, że zysk wzrośnie), jeżeli spełnione lub niespełnione zostaną jakieś dwa warunki reprezentowane przez dwie zmienne.

Jeżeli dotychczas mieliśmy opór przed użyciem logitu, to po tym tekście powinien zniknąć. Okazuje się być modelem naturalnym i logicznym. Odrębna sprawa to praktyczne jego zastosowanie i tym zajmę się niebawem.


Literatura:
[1] He, F., Maximum entropy, logistic regression, and species abundance, April 2010
[2] https://sgfin.github.io/2017/03/16/Deriving-probability-distributions-using-the-Principle-of-Maximum-Entropy/
[3] https://en.wikipedia.org/wiki/Multinomial_logistic_regression


*Jest to abstrakcyjna gra, więc lepszym przykładem byłaby zamiana kostek na samochody ścigające się ze sobą po trudnej drodze i N=3 zdarzenia: (a) że nasz samochód przejedzie bez szwanku,  (b) że nasz samochód zderzy się z innym samochodem i (c) że nasz samochód będzie miał wypadek. Zmienna x1 oznaczałaby poziom umiejętności kierowcy, również z trzema możliwościami: słabym, średnim i dobrym. Reszta zmiennych, x2, x3, ..., oznaczałaby pozostałe auta, a dokładniej poziomy umiejętności pozostałych kierowców (tak samo: słaby, średni lub dobry). Zmienna x1 dotyczy więc naszych wewnętrznych możliwości, a inne zmienne zewnętrznych możliwości. Ponieważ poziom słaby, średni i dobry będzie silnie korelował odpowiednio z ryzykiem wypadku, zderzenia i braku wydarzeń, to przypomina to kostkę, która bez czynników zewnętrznych generuje kilka prawdopodobnych zdarzeń. Trzeba jednak zauważyć, że oba przykłady subtelnie się różnią. Usuńmy "zmienne zewnętrzne". Dla przykładu z kostką otrzymamy tylko N wylosowanych zdarzeń, natomiast w przykładzie z autami występuje w pewnym sensie 2*N zdarzeń, czyli tutaj 2*3 = 6 zdarzeń: brak wydarzeń, zderzenie, wypadek oraz poziom dobry, średni, słaby naszego kierowcy.  Tak więc w tym ostatnim mamy konkretny podział na zmienną zależną i niezależną; w przykładzie z pojedynczą kostką tak nie było. Gdyby korelacja między zmienną zależną a niezależną wyniosła 1, to moglibyśmy dopiero utożsamić obydwie zmienne ze sobą. I rzeczywiście tak można by zrobić, gdyby nie występowały inne zakłócające czynniki, jak np. poziom koncentracji kierowcy, który staje się de facto nową zmienną modelu (np. z podziałem na słabą, średnią i dobrą koncentrację). Niemniej, gdyby założyć, że koncentracja jest zawsze dobra, to można założyć, że zawsze dobry kierowca w trudnych warunkach nie będzie miał ani wypadku ani zderzenia, średni będzie miał zawsze zderzenie, a nie będzie miał wypadku, a słaby zawsze będzie miał wypadek. W ten sposób zmienna zależna staje się tożsama z niezależną - wtedy dokładnie dostaniemy przykład z kostką. Wówczas możemy dołożyć kolejne zmienne niezależne, co spowoduje złamanie tej doskonałej korelacji między zmienną zależną a niezależną, czyli wracamy do typowego modelu regresji.

Brak komentarzy:

Prześlij komentarz