Jensens Ungleichung
Eine Funktion $f: \R \rightarrow \R$ heißt konvex, wenn für alle zwei Punkte $p,q$ auf dem Graphen von $f$ das Geradensegment $[pq]$ auf oder oberhalb des Graphen von $f$ liegt:
Was heißt das, etwas mathematischer ausgedrückt? Welche Koordinaten hat ein Punkt auf dem Geradensegment $[pq]$? Es gilt ja $p = (x, f(x))$ und $q = (y, f(y))$ für $x, y \in \R$. Jeder Punkt im Interval $[x,y]$ lässt sich schreiben als Konvexkombination von $x$ und $y$:
\begin{align*} \alpha x +\beta y \end{align*}für zwei reelle Zahlen $\alpha, \beta \geq 0$ mit $\alpha + \beta = 1$. Andere Autoren schreiben hier statt $\beta$ gleich $1 - \alpha$ und sparen sich den zweiten Parameter; ich finde es aber typographisch klarer, wenn wir $\alpha$ und $\beta$ schreiben. Legen wir nun eine senkrechte Gerade durch $(\alpha x + \beta y, 0)$. Diese schneidet den Graphen von $f$ in Punkt
\begin{align} (\alpha x + \beta y, f(\alpha x + \beta y)) \label{f-at-z} \end{align}und das Geradensegment $[pq]$ im Punkt
\begin{align} \alpha p + \beta q = (\alpha x + \beta y, \alpha f(x) + \beta f(y)) \ . \label{segment-at-z} \end{align}Die Konvexität von $f$ besagt nun, dass der Punkt (\ref{segment-at-z}) auf oder oberhalb des Punktes (\ref{f-at-z}) liegen muss. Darüberhinaus muss $f$ gar nicht auf ganz $\R$ definiert sein. Ein Intervall reicht aus. Somit können wir nun formal definieren:
Definition Sei $I \subseteq \R$ ein Interval (abgeschlossen, offen oder halb-offen). Eine Funktion $f: I \rightarrow \R$ heißt konvex wenn für alle $x, y \in I$ und $\alpha, \beta \geq 0$ mit $\alpha + \beta = 1$ gilt:
\begin{align} f(\alpha x + \beta y) \leq \alpha f(x) + \beta f(y) \ . \label{ineq-convex} \end{align}Beispiel. Die Funktion $f: x \mapsto x^2$ ist konvex.
Beweis. Seien $x, y \in \R$ und $\alpha, \beta \geq 0$ mit $\alpha + \beta = 1$. Wir müssen zeigen, dass
\begin{align*} \alpha x^2 + \beta y^2 \geq (\alpha x + \beta y)^2 \ . \end{align*} Wenn wir die rechte Seite expandieren, ergibt dies \begin{align*} \alpha x^2 + \beta y^2 \geq \alpha^2 x^2 + 2 \alpha \beta x y + \beta^2 y^2 \ . \end{align*}Wir bringen alles auf die linke Seite:
\begin{align*} (\alpha - \alpha^2) x^2 - 2 \alpha \beta x y + (\beta - \beta^2) y^2 \geq 0 \ . \end{align*}Nun müssen wir erkennen, dass $\alpha - \alpha^2 = \alpha(1 - \alpha) = \alpha\beta$ und analog $\beta -\beta^2 = \alpha \beta$, und somit bleibt zu zeigen:
\begin{align*} \alpha\beta x^2 - 2 \alpha \beta x y + \alpha\beta y^2 \geq 0 \ . \end{align*}Da $\alpha, \beta \geq 0$ sind, gilt auch $\alpha \beta \geq 0$. Wenn $\alpha\beta = $ ist, dann gilt die obige Ungleichung mit Gleichheit, da beide Seite verschwinden. Ansonsten ist $\alpha \beta \gt 0$, wir können durch $\alpha \beta$ dividieren und erhalten
\begin{align*} x^2 - 2 x y + y^2 \geq 0 \ . \end{align*}Dies ist wahr, da die linke Seite gleich $(x + y)^2$ ist.
Oft kommt uns die Analysis zur Hilfe: wenn die Funktion $f: I \rightarrow \R$ zweimal differenzierbar ist, dann ist sie konvex genau dann, wenn $f''(x) \gt 0$ ist für alle $x \in I$. Zum Beispiel sind $2^x$ und $e^x$ konvex.
Definition Eine Funktion $f$ heißt konkav, wenn $-f$ konvex ist.
Wiederum gilt: wenn die Funktion $f$ zweimal differenzierbar ist, dann ist $f$ genau dann konkav, wenn $f''(x) \leq 0$ ist. Somit ist beispielsweise $\ln(x)$ und $\log_2(x)$ konkav.
Werfen wir erneut einen Blick auf die zwei Zahlen $\alpha, \beta \geq 0$ mit $\alpha + \beta = 1$, wie sie in der Definition von Konvexität vorkommen. Man kann $\alpha, \beta$ als Wahrscheinlichkeitsverteilung $P$ über der Menge $\{x,y\}$ betrachten. Der Ausdruck
\begin{align*} \alpha f(x) + \beta f(y) \ , \end{align*}also die rechte Seite von (\ref{ineq-convex}), hat nun diese Interpretation: wähle einen Wert $Z \in \{x,y\}$ zufällig nach Wahrscheinlichkeitsverteilung $P$. Werte dann $f$ an diesem Punkt aus; dies ergibt nun eine reelle Zufallsvariable, und ihr Erwartungswert ist genau (\ref{ineq-convex}). Analog dazu hat die linke Seite von (\ref{ineq-convex}) folgende Interpretation: wähle zufällig einen Wert in $Z \in \{x,y\}$. Dies ist eine reelle Zufallsvariable und hat einen Erwartungswert. Werte nun $f$ an diesem Erwartungswert aus. Die Definition sagt nun grob: $f$ am Erwartungswert von $Z$ ist höchstens der Erwartungswert von $f(Z)$. Jensens Ungleichung besagt nun, dass dies allgemein für endliche Wahrscheinlichkeitsverteilungen gilt, nicht nur für solche über zweielementigen Mengen.
Theorem (Jensens Ungleichung). Sei $I$ ein Interval in $\R$ und sei $X: \Omega \rightarrow I$ eine Zufallsvariable mit Wertebereich $I$, die nur endlich viele Werte annimmt. Dann gilt
\begin{align} \E[f(X)] \geq f(\E[X]) \ . \label{ineq-jensen} \end{align}für jede konvexe Funktion $f: I \rightarrow \R$.
Beweis. Schreiben wir die etwas kurz angebundene Ungleichung (\ref{ineq-jensen}) um. Seien $x_1, \dots, x_n \in I$ die Werte, die $X$ annehmen kann, und $p_1, \dots, p_n$ die entsprechenden Wahrscheinlichkeiten. Wir müssen nun zeigen:
\begin{align} \sum_{i=1}^n p_i f(x_i) \geq f\left( \sum_{i=1}^n p_i x_i \right) \ . \label{ineq-jensen-as-sum} \end{align}Wenn $n=1$ ist, dann ist $p_1 = 1$ und beide Seiten sind gleich, nämlich einfach $f(x_1)$. Wenn $n=2$ ist, dann ist (\ref{ineq-jensen-as-sum}) genau die Definition von Konvexität, mit $x = x_1$ und $y = x_2$ und $\alpha = p_1$ und $\beta = p_2$.
Wenn nun $n \geq 3$ ist, dann verwenden wir Induktion über $n$. Sei
\begin{align*} q_1 & := \frac{p_1}{p_1 + p_2} \\ q_2 & := \frac{p_2}{p_1 + p_2} \ . \end{align*}Wir setzen $y := q_1 x_1 + q_2 x_2$. Wegen Konvexität gilt
\begin{align*} q_1 f(x_1) + q_2 f(x_2) \geq f(y) \ . \end{align*}Wenn wir beide Seiten mit $p_1 + p_2$ multiplizieren, erhalten wir
\begin{align*} p_1 f(x_1) + p_2 f(x_2) \geq (p_1 + p_2) f(y) \end{align*}und somit
\begin{align*} \sum_{i=1}^n p_i f(x_i) \geq (p_1 + p_2) f(y) + \sum_{i=3}^n p_i f(x_i) \ . \end{align*}Die $n-1$ Zahlen $p_1 + p_2, p_3, p_4, \dots, p_n$ definieren eine Wahrscheinlichkeitsverteilung über den $n-1$ Werten $\{z, x_3, x_4, \dots, x_n\}$. Nach Induktion gilt also
\begin{align*} (p_1 + p_2) f(y) + \sum_{i=3}^n p_i f(x_i) \geq f \left( (p_1 + p_2)z + p_3 x_3 + \cdots + p_n x_n \right) \ . \end{align*}Weiterhin gilt nach Definition von $z$, dass $(p_1 + p_2) z = (p_1 + p_2) (q_1 x_1 + q_2 x_2) = p_1 x_1 + p_2 x_2$ und somit ist die rechte Seite der letzten Ungleichung gleich $f (p_1 x_1 + p_2 x_2 + p_3 x_3 + \cdots + p_n x_n)$ und das Theorem ist bewiesen.\(\square\)