\( \newcommand{\depth}{\textnormal{depth}} \newcommand{\height}{\textnormal{height}} \newcommand{\floor}[1]{\left\lfloor #1 \right\rfloor} \newcommand{\ceil}[1]{\left\lceil #1 \right\rceil} \DeclareMathOperator*{\E}{\mathbb{E}} \newcommand{\pfrac}[2]{\left(\frac{#1}{#2}\right)} \newcommand{\R}{\mathbb{R}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\N}{\mathbb{N}} \newcommand{\X}{\mathcal{X}} \newcommand{\x}{\mathbf{x}} \newcommand{\c}{\mathbf{c}} \newcommand{\supp}{\textnormal{supp}} \)

Im Folgenden werden wir die Shannon-Entropie kennenlernen - ein Maß für die Unvorhersagbarkeit einer Wahrscheinlichkeitsverteilung.

Definition Sei $\X$ eine endliche oder abzählbar unendliche Menge und $P: \X \rightarrow [0,1]$ eine Wahrscheinlichkeitsverteilung. Die Entropie von $P$ ist

\begin{align*} H(P) := \sum_{x \in \X} P(x) \log \pfrac{1}{P(x)} \ . \end{align*}

Für die Definition nehmen wir an, dass $P(x) \gt 0$ gilt für alle $x \in \X$. Falls nicht, so könnten wir uns einfach auf den Träger $\supp(P)$ (enligsch Support) konzentrieren: die Menge $\mathcal{X}' := \{x \in \mathcal{X} \ | \ P(x) \gt 0\}$. Oder einfach bemerken, dass die Funktion $p \mapsto p \log \pfrac{1}{p}$ für $p \rightarrow 0$ gegen $0$ konvergiert und sie somit bei $p=0$ stetig fortzusetzen.

Beispiel 1: die Gleichverteilung. Wenn $\X = \{1, \dots, n\}$ ist und $P$ die Gleichverteilung darauf, gilt also $P(x) = 1/n$ für jedes $x \in \X$ und $H(P) = \sum_{i=1}^n \frac{1}{n} \log_2(n) = \log_2(n)$.

Beispiel 2: Münzwürfe. Wir werfen eine faire Münze, bis Kopf erscheint. Sei $X$ die Anzahl der benötigten Würfe.

\begin{align*} \Pr[X = k] = 2^{-k} \ . \end{align*}

Dies definiert also eine Wahrscheinlichkeitsverteilung über $\N^+$ mit $P(k) = 2^{-k}$. Es gilt

\begin{align*} H(P) = \sum_{k=1}^\infty k \cdot 2^{-k} \ . \end{align*}

Dies ist zufälligerweise auch $\E[X]$, die erwartete Anzahl der benötigten Münzwürfe. Wir können die Summe wie folgt evaluieren:

\begin{align*} H(P) & = \sum_{k=1}^\infty k \cdot 2^{-k} \\ & = \frac{1}{2} \cdot \sum_{k=1}^\infty k \cdot 2^{-(k-1)} \\ & = \frac{1}{2} \cdot \sum_{l=0}^\infty (l+1) \cdot 2^{-l} \tag{via $l := k-1$}\\ & = \frac{1}{2} \cdot \sum_{l=0}^\infty l 2^{-l} + \frac{1}{2} \cdot \sum_{l=0}^\infty 2^{-l} \\ & = \frac{1}{2} H(P) + \frac{1}{2} \cdot 2 \ , \end{align*}

wobei die letzte Gleichheit folgt, weil die erste Summe das Gleiche ist wie $H(P)$, nur mit Laufindex $l$ statt $k$ (beachten Sie, dass der Term für $l=0$ verschwindet) und weil die zweite Summe eine geometrische Reihe ist, deren Wert wir kennen. Wir haben also $H(P) = \frac{1}{2} H(P) + 1$ erhalten und können dies zu $H(P) = 2$ auflösen.

Das zweite Beispiel ist insofern interessant, als es eine Zufallsvariable behandelt, die natürliche Zahlen annimmt und bei Erwartungswert und Entropie gleich sind. Dies ist im Allgemeinen nicht der Fall (im ersten Beispiel ist $\E[X] = \frac{n+1}{2})$ und $H(X) = \log n$. Die Frage, wie groß die Entropie werden kann bei gegebenem Erwartungswert wird uns später noch beschäftigen.

Theorem Sei $\X$ eine endliche Menge mit $n := |\mathcal{X}|$ und $P$ eine Wahrscheinlichkeitsverteilung auf $\X$. Dann gilt $H(P) \leq \log n$.

Beweis. Wir nehmen an, dass $P(x) \gt 0$ für alle $x \in \X$ gilt; andernfalls ersetzen wir $\X$ durch den Träger $\X' := \supp$ und erhalten statt der oberen Schranke $\log |\mathcal{X}|$ die noch bessere Schranke $\log |\X'|$. Wir definieren eine Zufallsvariable $W: \X \rightarrow \R$ wie folgt:

\begin{align*} W(x) := \frac{1}{P(x)} \ . \end{align*}

Die Entropie $H(P)$ können wir nun schreiben als

\begin{align*} H(P) & = \sum_{x \in \X} P(x) \log \pfrac{1}{P(x)} = \sum_{x \in \X} P(x) \log \left( W(x)\right) \\ & = \E_{x \sim P} [ \log W(x) ] \ . \end{align*}

Die Funktion $w \mapsto \log w$ ist konkav; wir können daher Jensens Ungleichung () anwenden und erhalten

\begin{align*} \E_{x \sim P} [ \log W(x) ] & \leq \log \left( \E_{x \in P} W(x) \right) \ . \end{align*}

Wir müssen nun nur noch $\E_{x \sim P}[W(x)]$ ausrechnen:

\begin{align*} \E_{x \sim P}[W(x)] & = \sum_{x \in \X} P(x) W(x) = \sum_{x \in \X} P(x) \frac{1}{P(x)} = \sum_{x \in \X} 1 = |\X| = n \ . \end{align*}

Das Theorem ist somit bewiesen.

\(\square\)

Übungsaufgabe Beweisen Sie die folgende, allgemeinere Eigenschaft der Entropie: wenn $P$ eine Wahrscheinlichkeitsverteilung auf $\X$ ist und $\mathcal{Y} \subseteq \X$ eine endliche Teilmenge und wir eine neue Wahrscheinlichkeitsverteilung $Q$ auf $X$ definieren, indem wir alle Wahrscheinlichkeiten für $y \in \mathcal{Y}$ durch ihren Durchschnitt ersetzen, also

\begin{align*} Q(x) := \begin{cases} \frac{\sum_{y \in \mathcal{Y} P(y)} }{|\mathcal{Y}|} & \textnormal{ für $x \in \mathcal{Y}$} \\ P(x) & \textnormal{ für $x \in \X \setminus \mathcal{Y}$} \ , \end{cases} \end{align*}

dann gilt $H(P) \leq H(Q)$. In Worten: glätten erhöht die Entropie.