niedziela, 31 marca 2019

Szybkie wyprowadzenie entropii informacyjnej Shannona

Entropia informacyjna jest ważnym pojęciem w statystyce i ekonometrii, ale raczej mało znanym w finansach. Czasami wykorzystuje się ją jako miarę ryzyka inwestycyjnego, lecz zanim jej użyjemy powinniśmy zrozumieć jej istotę. Spójrzmy najpierw na ten prosty wzór na entropię Shannona:

(1)

gdzie p(i) to prawdopodobieństwo zajścia pewnego zdarzenia x(i).

Pierwsze pytanie jakie przychodzi na myśl to: dlaczego w ogóle taki wzór? W polskich, a nawet zagranicznych opracowaniach internetowych nie znajdziemy szybkiej odpowiedzi. Oczywiście warto zajrzeć do oryginalnej pracy Shannona [2], która szczegółowo wyjaśnia użycie takiej a nie innej postaci, jednak dla laika w teorii informacji praca ta jest ciążka do przetrawienia i brakuje mi tam czysto matematycznego wyprowadzenia bez pojęcia bitów. Dlatego zacząłbym od prac, które wyprowadzają entropię wprost z rozkładów prawdopodobieństwa. Np. Hanel et al. [1] zaczynają od rozkładu dwumianowego, w którym występują tylko dwa zdarzenia: wyrzucenie orła albo reszki. Z tym że nie mamy pewności ani założenia, że rzucana moneta jest symetryczna i że oba zdarzenia są równie prawdopodobne, tj. nie muszą wynosić po 50%. Taką monetą rzucamy N razy (i każdy rzut jest niezależny od siebie). Powiedzmy, że k1 wskazuje ile razy wyrzucimy orła, a k2 ile razy wyrzucimy reszkę (czyli N = k1 + k2). Prawdopodobieństwo wyrzucenia k1 razy orła wynosi:

(2) 

gdzie p(1) to prawdopodobieństwo wyrzucenia raz orła, a p(2) to prawdopodobieństwo wyrzucenia raz reszki.

Jak wyżej powiedziano nie znamy teoretycznego p(i), jednak przy dużym N empiryczne prawdopodobieństwo będzie się zbliżać do teoretycznego. Dlatego uznajemy, że p(i) = k(i) / N. Dla dużego N można aproksymować wzór (2), korzystając z formuły Stirlinga. Wtedy (2) można zapisać w postaci:

(2)


gdzie H = -p(1)*ln(p1) - p(2)*ln(p2) = -[p(1)*ln(p1) + p(2)*ln(p2)].

Czyli widzimy, że:

(3)



Dlaczego entropia stanowi miarę nieporządku? Wiadomo, że N! / (k1! / (N - k1)!) to liczba kombinacji (bez powtórzeń) ułożenia k1 orłów w N rzutach. Czyli przy stałym N to właśnie entropia H mierzy liczbę tych kombinacji. Natomiast to, że im więcej kombinacji tym większy nieporządek, jest czymś intuicyjnie zrozumiałym. Oznacza to więcej możliwych niezależnych od siebie zdarzeń (trzeba zwrócić uwagę, że gdy zdarzenia są od siebie zależne, to liczba kombinacji nie będzie już oznaczać nieporządku, ale raczej mierzyć ilość informacji i wtedy taką definicję może przyjąć entropia - zob. ten wpis dotyczący termodynamiki nierównowagowej).

Teraz kolejne spostrzeżenie pozwoli nam zrozumieć znaczenie entropii. Powiedzmy, że wiemy, że moneta jest sprawiedliwa, czyli otrzymanie orła jest tak samo prawdopodobne jak reszki i musi wynieść 0,5. Podstawmy teraz p(1) = p(2) = 0,5 do wzoru (1):


Następnie przypuśćmy, że moneta nie byłaby sprawiedliwa, tak że p(1) = 0,6, a p(2) = 0,4. Wtedy H równa się:


W trzecim przykładzie niech p(1) = 0,8 i p(2) = 0,2:

W ostatnim przykładzie dla p(1) = 1 i p(2) = 0:

Wniosek nasuwa się sam: dla każdego innego prawdopodobieństwa niż 0,5 entropia będzie zawsze mniejsza. Czyli szansa wyrzucenia orła lub reszki równa 50% zapewnia najwyższą entropię. 

Co w sytuacji, gdy zdarzeń jest więcej niż 2? Dostajemy wtedy rozkład wielomianowy i prawdopodobieństwo wyrzucenia k(i) razy zdarzenia x(i) wynosi:

(4)

Wzór (4) możemy zapisać analogicznie jak (2):

(5)


gdzie H to właśnie wzór nr (1).

Idąc tym samym tropem co poprzednio zauważamy, że dla stałego N entropia H będzie warunkować liczbę kombinacji i tym samym mierzyć poziom nieuporządkowania układu.

Jeżeli układ ma pozostać "sprawiedliwy" dla każdego zdarzenia, to musimy przyjąć rozkład jednostajny, gdzie k1 = k2 = ... = kW = k. Wtedy p(i) = k / N, tzn. każde zdarzenie jest tak samo prawdopodobne. Domyślamy się już, że równa szansa każdego zdarzenia prowadzi do osiągnięcia maksimum entropii.

Powyższe wyprowadzenie stanowi źródło drugiej zasady termodynamiki, zgodnie z którą w układzie izolowanym entropia nie maleje. Gdy dodamy do tego izotropowość i jednorodność przestrzeni i czasu (np. symetryczność monety), wtedy entropia zawsze będzie maksymalna. 

Stąd rodzi się tzw. zasada maksimum entropii - ważna koncepcja w statystyce. O niej jednak więcej opowiem następnym razem.


Literatura:
[1] Hanel, R., Thurner, S., Gell-Mann, M., How multiplicity determines entropy and the derivation of the maximum entropy principle for complex systems, May 13, 2014,
[2] Shannon, C. E., A Mathematical Theory of Communication, July, 1948.

Brak komentarzy:

Prześlij komentarz