Powiedzmy, że rzucamy sześcienną kostką do gry, ale nie wiemy czy jest sprawiedliwa, a więc nie mamy pewności czy szansa każdego zdarzenia wynosi 1/6. Mimo to nie posiadamy żadnych innych informacji o tej kostce oprócz tego, że pociąga 6 różnych zdarzeń. Wspomaga nas jeszcze jedna informacja, ale spoza układu, wynikająca z samej teorii: prawdopodobieństwa sumują się do 1. Dostajemy dwa równania:
Ten układ można rozwiązać metodą Lagrange'a. ZME zostaje zapisana jako zadanie optymalizacyjne:
Ponieważ standardowa maksymalizacja oparta na różniczkowaniu wymaga ciągłości funkcji, to należałoby właściwie zamienić sumę na całkę. Dlatego w przypadku dyskretnym najłatwiej użyć nierówności Jensena do dowodu.
Świat rynków finansowych znacznie różni się od rzutu kostką. Niektóre zdarzenia są bardziej, inne mniej prawdopodobne. Najczęstsze zdarzenia układają się wokół dominanty, a jeśli rozkład jest symetryczny, to dominanta równa się wartości oczekiwanej. Załóżmy, że kostka jest niesprawiedliwa, tak że premiuje niektóre zdarzenia. Nie wiemy jednak czy rozkład jest symetryczny czy nie. Dostajemy tylko informację o wartości oczekiwanej (choćby na podstawie wielu rzutów). Pamiętajmy, że wartość oczekiwana nie musi leżeć na środku ani być najbardziej prawdopodobną wartością. Otrzymujemy 3 równania:
gdzie x(i) to wartość i-tego zdarzenia, a x z kreską na górze to wartość oczekiwana.
Powstaje zadanie optymalizacyjne:
Rozwiązaniem tego zadania będzie:
(1)
Jest to rozkład Boltzmanna, znany z fizyki. W zależności od parametru lambda(2) i wartości oczekiwanej, otrzymamy różne wyniki. Np. jeśli wartość oczekiwana = 3,5, to dostaniemy z powrotem rozkład jednostajny:
Gdy wartość oczekiwana = 2,5 i lambda(2) = 0,371, to rozkład przybiera postać jak na poniższym rysunku:
Gdy zaś wartość oczekiwana = 4,5 i lambda(2) = -0,371, wtedy rozkład przybiera postać:
Widać, że pomimo znajomości wartości oczekiwanej, w dwóch ostatnich przykładach nie ma żadnej symetrii ani nawet zalążka dzwonu (dominanta to odpowiednio 1 i 6). Mówię o tym, bo musimy sobie uświadomić, że sama ZME przy warunku znajomości jedynie wartości oczekiwanej, nie doprowadzi do rozkładu typowego dla rynków (a tym bardziej do Gaussa).
Natomiast uzyskany rozkład prowadzi do interesującego odkrycia. Wzór (1) przekształcamy:
(2)
W ten sposób zbliżamy się do koncepcji regresji logistycznej (logistic regression), inaczej logit. Wzór (2) przedstawia ogólniejszą jej formę. Gdybyśmy chcieli zapisać ściślej tę funkcję, powinniśmy uwzględnić możliwość występowania wielu zmiennych, jak to często ma miejsce w regresji liniowej, a także N zamiast 6-ciu zdarzeń. A więc np. dla dowolnego N dostajemy postać tzw. wielomianowej regresji logistycznej (multinomial logistic regression) czy wielomianowego logitu:
(3)
Robi się to trochę skomplikowane, dlatego zajmijmy się klasycznym, dwumianowym logitem. Kiedy on zachodzi? W logicie występują tylko 2 zdarzenia: orzeł-reszka albo prawda-fałsz. Domyślamy się więc, że N = 2. Wtedy (3) przybiera postać klasycznego logitu:
(4)
Powiedzmy, że K = 2. Wtedy logit wygląda całkiem przyjaźnie:
Dostajemy model, w którym są tylko dwie zmienne zero-jedynkowe. Dzięki niemu możemy np. sprawdzić jakie jest prawdopodobieństwo, że firma zbankrutuje (albo na odwrót, że zysk wzrośnie), jeżeli spełnione lub niespełnione zostaną jakieś dwa warunki reprezentowane przez dwie zmienne.
Jeżeli dotychczas mieliśmy opór przed użyciem logitu, to po tym tekście powinien zniknąć. Okazuje się być modelem naturalnym i logicznym. Odrębna sprawa to praktyczne jego zastosowanie i tym zajmę się niebawem.
Literatura:
[1] He, F., Maximum entropy, logistic regression, and species abundance, April 2010
[2] https://sgfin.github.io/2017/03/16/Deriving-probability-distributions-using-the-Principle-of-Maximum-Entropy/
[3] https://en.wikipedia.org/wiki/Multinomial_logistic_regression
*Jest to abstrakcyjna gra, więc lepszym przykładem byłaby zamiana kostek na samochody ścigające się ze sobą po trudnej drodze i N=3 zdarzenia: (a) że nasz samochód przejedzie bez szwanku, (b) że nasz samochód zderzy się z innym samochodem i (c) że nasz samochód będzie miał wypadek. Zmienna x1 oznaczałaby poziom umiejętności kierowcy, również z trzema możliwościami: słabym, średnim i dobrym. Reszta zmiennych, x2, x3, ..., oznaczałaby pozostałe auta, a dokładniej poziomy umiejętności pozostałych kierowców (tak samo: słaby, średni lub dobry). Zmienna x1 dotyczy więc naszych wewnętrznych możliwości, a inne zmienne zewnętrznych możliwości. Ponieważ poziom słaby, średni i dobry będzie silnie korelował odpowiednio z ryzykiem wypadku, zderzenia i braku wydarzeń, to przypomina to kostkę, która bez czynników zewnętrznych generuje kilka prawdopodobnych zdarzeń. Trzeba jednak zauważyć, że oba przykłady subtelnie się różnią. Usuńmy "zmienne zewnętrzne". Dla przykładu z kostką otrzymamy tylko N wylosowanych zdarzeń, natomiast w przykładzie z autami występuje w pewnym sensie 2*N zdarzeń, czyli tutaj 2*3 = 6 zdarzeń: brak wydarzeń, zderzenie, wypadek oraz poziom dobry, średni, słaby naszego kierowcy. Tak więc w tym ostatnim mamy konkretny podział na zmienną zależną i niezależną; w przykładzie z pojedynczą kostką tak nie było. Gdyby korelacja między zmienną zależną a niezależną wyniosła 1, to moglibyśmy dopiero utożsamić obydwie zmienne ze sobą. I rzeczywiście tak można by zrobić, gdyby nie występowały inne zakłócające czynniki, jak np. poziom koncentracji kierowcy, który staje się de facto nową zmienną modelu (np. z podziałem na słabą, średnią i dobrą koncentrację). Niemniej, gdyby założyć, że koncentracja jest zawsze dobra, to można założyć, że zawsze dobry kierowca w trudnych warunkach nie będzie miał ani wypadku ani zderzenia, średni będzie miał zawsze zderzenie, a nie będzie miał wypadku, a słaby zawsze będzie miał wypadek. W ten sposób zmienna zależna staje się tożsama z niezależną - wtedy dokładnie dostaniemy przykład z kostką. Wówczas możemy dołożyć kolejne zmienne niezależne, co spowoduje złamanie tej doskonałej korelacji między zmienną zależną a niezależną, czyli wracamy do typowego modelu regresji.