(graphs)=
# Erstellung von Graphiken mittels Matplotlib, Seaborn und Plotly

**Matplotlib** ist eine mächtige Python-Bibliothek, welche viele Funktionen für die graphische Darstellung in Form von Plots und Diagrammen bereitstellt. Wir werden in diesem Abschnitt die grundlegende Funktionsweise kennenlernen. Sehr viele neuere Graphik-Pakete bauen auf diesem Basispaket auf und erleichtern die Erstellung von Graphiken oder erweitern den Funktionsumfang. So können mit **Plotly**, welches Bestandteil des Matplotlib-Pakets ist, interaktive Graphiken erstellt werden und mit **Seaborn** insbesondere klassiche statistische Plots sehr komfortabel erstellt werden. Wir starten mit dem Basis-Paket Matplotlib und stellen am Ende einen Beispieldatensatz mit allen drei Paketen dar, um die Unterschiede beim Erzeugen aufzuzeigen.

## Visualisierung mit Matplotlib

### Erste Schritte

Ähnlich wie bei NumPy müssen wir Matplotlib und Seaborn erst installieren. Dies erledigt man in seiner **Conda**-Umgebung mit folgendem Befehl:
```bash
conda install -c conda-forge matplotlib
conda install -c conda-forge seaborn
```
Anschließend können wir Matplotlib, besser gesagt das Submodul `matplotlib.pyplot` in unser Programm einbinden:

In [None]:
import matplotlib.pyplot as plt

Der wichtigste Befehl ist `plt.plot(...)`. Wir geben `plt.plot?` ein um zu erfahren wie dieser funktioniert. In der einfachsten Form sind die Argumente dieser Funktion 2 Vektoren mit $x$- bzw. $y$-Koordinaten einer Punktwolke. Diese Vektoren können Listen, oder **Numpy**-Arrays sein. Die Sinusfunktion können wir wie folgt plotten:

In [None]:
import numpy as np

x = np.linspace(0, 2*np.pi, 11)   # Erzeuge Gitter [0, 0.2*pi, 0.4*pi, ..., 2*pi])
y = np.sin(x)                     # Berechne zugehörige Funktionswerte

plt.plot(x,y)                     # Erzeuge Plot
plt.show()                        # Zeige den Plot

Hier sehen wir auch eine schöne Anwendung der komponentenweise definierten mathematischen Funktionen aus `numpy`.

```{admonition} Übungsaufgabe
:class: tip

Plotte die Funktion $f(x) = e^{-x}\,\sin(2\,\pi\,x)$ im Intervall $[0,6]$.
```

### Gestaltung von Plots

Machen wir unseren Plot noch etwas schöner:

In [None]:
import numpy as np

x = np.linspace(0,4*np.pi, 1001) # Erzeuge äquidistantes Gitter für das Intervall [0, 4*pi]
y = np.sin(x)                    # Berechne zugehörige Funktionswerte für sinus
z = np.cos(x)                    # und cosinus

plt.figure(figsize=(10,5))       # Größe einstellen

plt.plot(x,y,label="$\sin(x)$")  # Erzeuge Plot für Sinus
plt.plot(x,z,label="$\cos(x)$")  # Erzeuge Plot für Cosinus

plt.title("Sinus und Cosinus")   # Titel des Plots
plt.grid()                       # Gitterlinien einschalten

plt.xlabel('x')                  # Bezeichner an x-Achse
plt.ylabel('f(x)')               # Bezeichner an y-Achse (in Latex-Code)

plt.legend()                     # Legende
plt.show()                       # Zeige den Plot

Im Prinzip hat Matplotlib unsere Punktwolke mit Koordinaten aus `x` und `y` gezeichnet, und die Punkte mit Linen verbunden. Es gibt aber noch einige andere Linientypen:

In [None]:
x = np.linspace(0,2,21)

y1= x-0.5*x**2
y2= 2*x-x**2
y3= 3*x-1.5*x**2 

plt.figure(figsize=(10,5))       # Größe einstellen

# Zeichne rote (r) Kreise (o) mit Verbindungslinien (-)
plt.plot(x, y1, 'ro-', linewidth=0.2, label='f1')  

# Zeichne blaue (b) Quadrate (s)
plt.plot(x, y2, 'bs', label='f1')   

# Zeichne cyane (c) Dreiecke (^) mit gestrichelten Verbindungslinien (--)
plt.plot(x, y3, 'c^--', markersize=10, label='f1')

plt.xlabel('x')
plt.ylabel('f(x)')
plt.grid()
plt.legend()
plt.show()

Im Hilfetext `plt.plot?` sind noch weitere Linien- und Markertypen erklärt. Vordefinierte Farben im Submodul `matplotlib.colors`. Es gibt verschiedene Farbpaletten. Die Grundfarben sind:

In [None]:
import matplotlib.colors as mcolors
mcolors.BASE_COLORS

Es gibt weiterhin die Farbpalette **Tableau**:

In [None]:
mcolors.TABLEAU_COLORS

Und außerdem noch **CSS**-Farben:

In [None]:
mcolors.CSS4_COLORS

Durch Setzen des Parameters `color` im Plot-Befehl kann nun eine Farbe aus einer der oberen Farbpaletten gewählt werden:

In [None]:
x = np.linspace(0,1,10)

plt.plot(x,0.5*x*(1-x),'o-',color='g')         # Grundfarbe
plt.plot(x,x*(1-x),'d-',color='tab:olive')     # Tableau-Farbe
plt.plot(x,1.5*x*(1-x),'s-',color='firebrick') # CSS-Farbe

plt.show()

In [None]:
from matplotlib.patches import Rectangle
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors


def plot_colortable(colors, title, sort_colors=True, emptycols=0):

    cell_width = 212
    cell_height = 22
    swatch_width = 48
    margin = 12
    topmargin = 40

    # Sort colors by hue, saturation, value and name.
    if sort_colors is True:
        by_hsv = sorted((tuple(mcolors.rgb_to_hsv(mcolors.to_rgb(color))),
                         name)
                        for name, color in colors.items())
        names = [name for hsv, name in by_hsv]
    else:
        names = list(colors)

    n = len(names)
    ncols = 4 - emptycols
    nrows = n // ncols + int(n % ncols > 0)

    width = cell_width * 4 + 2 * margin
    height = cell_height * nrows + margin + topmargin
    dpi = 72

    fig, ax = plt.subplots(figsize=(width / dpi, height / dpi), dpi=dpi)
    fig.subplots_adjust(margin/width, margin/height,
                        (width-margin)/width, (height-topmargin)/height)
    ax.set_xlim(0, cell_width * 4)
    ax.set_ylim(cell_height * (nrows-0.5), -cell_height/2.)
    ax.yaxis.set_visible(False)
    ax.xaxis.set_visible(False)
    ax.set_axis_off()
    ax.set_title(title, fontsize=24, loc="left", pad=10)

    for i, name in enumerate(names):
        row = i % nrows
        col = i // nrows
        y = row * cell_height

        swatch_start_x = cell_width * col
        text_pos_x = cell_width * col + swatch_width + 7

        ax.text(text_pos_x, y, name, fontsize=14,
                horizontalalignment='left',
                verticalalignment='center')

        ax.add_patch(
            Rectangle(xy=(swatch_start_x, y-9), width=swatch_width,
                      height=18, facecolor=colors[name], edgecolor='0.7')
        )

    return fig

plot_colortable(mcolors.BASE_COLORS, "Grundfarben",
                sort_colors=False, emptycols=1)
plot_colortable(mcolors.TABLEAU_COLORS, "Tableau-Palette",
                sort_colors=False, emptycols=2)

plot_colortable(mcolors.CSS4_COLORS, "CSS-Farben")

# Optionally plot the XKCD colors (Caution: will produce large figure)
# xkcd_fig = plot_colortable(mcolors.XKCD_COLORS, "XKCD Colors")
# xkcd_fig.savefig("XKCD_Colors.png")

plt.show()

Bei der Fehleranalyse sind oft logarithmische Achsen von interesse. Angenommen, wir analysieren einen iterativen Algorithmus und messen die Entfernung $\text{err}_n$ zwischen exakter Lösung und der berechnete Näherungslösung nach $n$ Iterationen. Man sagt, das Verfahren konvergiert
* Q-linear, falls $\text{err}_n \le C\, \text{err}_{n-1}$ mit $C\in (0,1)$
* Q-superlinear, falls $\text{err}_n \le \varepsilon_n\,\text{err}_{n-1}$ mit einer Nullfolge $\varepsilon_n\searrow 0$
* Q-quadratisch, falls $\text{err}_n \le C\, \text{err}_{n-1}^2$ mit $C>0$.

Stellen wir den Fehlerverlauf in einem kartesischen Koordinatensystem und einem Koordinatensystem mit logarithmischer $y$-Achse dar:

In [None]:
import math 

n = np.array(range(1,6), dtype='float64')
err_p1 = (0.8)**n
err_p2 = [1./math.factorial(int(i)) for i in n]
err_p3 = (0.8)**(2**n)

plt.figure(figsize=(10,5))

def generate_plot():
    plt.plot(n, err_p1, 'ro-', label='Q-linear')
    plt.plot(n, err_p2, 'bo-', label='Q-superlinear')
    plt.plot(n, err_p3, 'co-', label='Q-quadratisch')
    plt.grid()

# Plot in kartesischen Koordinatensystem
plt.subplot(1,2,1)
generate_plot()
plt.legend(loc='upper right')
    
# Plot in Koordinatensystem mit logarithmischer y-Achse
plt.subplot(1,2,2)
generate_plot()
plt.semilogy()
plt.legend(loc='lower left')
    
plt.show()

Wir sehen, dass eine $Q$-linear konvergente Folge im Plot mit logarithmischer $y$-Achse einer lineare Funktion ist.

Analog dazu kann man auch die $x$-Achse mit `plt.semilogx()` logatithmisch skalieren, was bei oben vorgestellter Anwendung allerdings wenig Sinn macht.

### Balken-, Linien- und Kuchendiagramme

Schauen wir uns weitere elementare Plot-Typen an. Angenommen wir haben die Auswertung einer Umfrage vorliegen, und möchten diese graphisch aufbereiten. Unsere Beispieldaten sind:

In [None]:
parties = ["CDU", "SPD", "FDP", "Grüne", "Linke", "AfD", "Sonstige"]
colors = ["black", "red", "yellow", "green", "violet", "blue", "gray"]
values = [25.3, 26.3, 13.9, 14.2, 6.2, 4.9]
values.append(100-sum(values))

Wir können anstelle des `plot`-Befehls auch `stem` verwenden um ein Liniendiagramm zu erstellen, `scatter` für ein Streudiagramm, `bar` für ein Balkendiagramm oder `pie` für ein Tortendiagramm. Im folgenden Beispiel werden die Unterschiede gezeigt:

In [None]:
plt.figure(figsize=(10,10))

plt.subplot(2,2,1)
plt.stem(parties, values)
plt.title("Plot")

plt.subplot(2,2,2)
plt.bar(parties, values, color=colors)
plt.title("Bar")

plt.subplot(2,2,3)
plt.scatter(parties, values, color=colors)
plt.title("Scatter")

plt.subplot(2,2,4)
plt.pie(values, labels=parties, explode=[0,0.2,0,0.2,0,0,0], colors=colors)
plt.title("Pie")

plt.show()

### Error-Bars

Eine u.U. angenehme Methode für Visualisierungen ist der **Error-Bar**, da dieser grafisch die Standardabweichung zu einem bestimmten (Zeit-)Punkt darstellt. Der nachfolgende Code demonstriert die einmal. 

Für die Datumskonvertierung finden Sie unter den nachfolgenden Verlinkungen Hilfe [1](https://www.planmyleave.com/de/BlogDetail/250/ein-anf-ngerleitfaden-zu-pd-to-datetime-vereinfachung-der-datumskonvertierung-in-pandas/0/all-categories), [2](https://www.datacamp.com/de/tutorial/converting-strings-datetime-objects) und [3](https://www.youtube.com/watch?v=yKZn7sbYvuY).

In [None]:
import pandas as pd

Kurs_ALV=pd.read_csv("/Users/erwinjentzsch/finance-python/Data/Allianz_Schlusskurse_2020_2025.csv", header=1) # To-Do: Anpassen; header = csv beginnt in Spalte eins nicht mit Kurs und Datum, sondern mit Ticker.


Kurs_ALV = Kurs_ALV.rename(columns={"Ticker": "Datum", "ALV.DE": "Schlusskurs"}) #Spaltenbeschriftungen umbennen
Kurs_ALV = Kurs_ALV.drop(0).reset_index(drop=True) #Erste Zeile rauswerfen --> drop(0); Mit .reset_index(drop=True) wird der Index neu durchnummeriert (0, 1, 2, …); Sonst bleibt der alte Index erhalten und wir beginnen mit Index 1

### Datum konvertieren
Kurs_ALV["Datum"] = pd.to_datetime(Kurs_ALV["Datum"], errors="coerce") # errors="coerce": ersetzt ungültige Werte durch NaT (bei Datumswerten) bzw. NaN (bei Zahlen); mithilfe von errors==coerce" gehen wir sicher, dass alle Werte in der Spalte in ein Datumformat konvertiert worden sind. Alternativ errors=ignore oder errors=raise

# Halbjahr bilden und aggregieren
Kurs_ALV["Quartal"] = Kurs_ALV["Datum"].dt.to_period("1Q") 
gruppen = Kurs_ALV.groupby("Quartal")["Schlusskurs"]
mittel = gruppen.mean()
std = gruppen.std()


## Erstellung error-bar
fig, ax = plt.subplots(figsize=(10,5)) # Diagramm vergrößern (Breite=10 Zoll, Höhe=5 Zoll)
ax.errorbar(
            mittel.index.astype(str), # Achtung, wir haben mit mittel.index keine Zahl o.ä. Matplotlib kann PeriodIndex nicht direkt verarbeiten, da wir Jahr+Quartal haben (Benutzerdefiniert). Wir müssen hier als den Index in einen String umwandeln.
            mittel.values, 
            yerr=std.values, 
            marker="o",
            linestyle="-",
            color="b",
            )

ax.set_title("Allianz – Schlusskurse je Quartal")
ax.set_ylabel("Kurs")
plt.tight_layout() # Passt das Layou des Diagramms automatisch an.
plt.xticks(rotation=45)
plt.show()


### Plots für Skalar- und Vektorfelder

Auch für die graphische Darstellung von **Skalarfeldern** $f\colon \mathbb{R}^2 \to \mathbb{R}$ und **Vektorfeldern** $\vec F\colon \mathbb{R}^2 \to \mathbb{R}^2$ stehen einige Funktionen in Matplotlib bereit. Die meisten Funktionen zur Darstellung von Skalarfeldern erwarten als Argument 3 Matrizen, eine für die $x$-Koordinaten, eine für die $y$-Koordinaten und eine für den Funktionswert $f(x,y)$. Hilfreich ist hier die Funktion `numpy.meshgrid` mit der wir ein 2D-Tensorprodukt-Gitter aus 2 1D-Gittern erzeugen:

In [None]:
# 1D-Gitter für x- und y-Variable
x = np.linspace(-4.5,3.5,1001)
y = np.linspace(-3.5,3.5,1001)

# 2D-Gitter erzeugen
X,Y = np.meshgrid(x,y)

# Definiere Himmelblau-Funktion
Z = (X**2 + y - 11)**2 + (X + Y**2 - 7)**2

Eine mögliche Darstellung einer solchen Funktion wäre ein **Contour-Plot**, in welchem die Kurven $\{(x,y)\colon f(x,y)=c_i\}$ für verschiedene Werte $c_1<c_2 < \ldots<c_{\text{levels}}$ eingezeichnet werden:

In [None]:
plt.contour(X,Y,Z, levels=25)
plt.colorbar()
plt.show()

Ähnlich funktionieren **Color-Plots**, bei denen der Funktionswert an einer Stelle $(x,y)$ dem Farbwert einer vordefinierten Farbpalette entspricht:

In [None]:
import matplotlib.cm as cm

plt.pcolormesh(X,Y,Z, cmap=cm.jet)
plt.show()

Skalarfelder lassen sich auch in dreidimensionalen Koordinatensystemen darstellen. Die Argumente werden auf $x$- und $y$-Achse aufgetragen, und der Funktionswert auf die $z$-Achse. Die entsprechenden Plot-Befehle sind allerdings nicht im Submodul `matplotlib.pyplot` definiert, daher müssen wir einen Umweg nehmen. Zunächst erzeugen wir uns ein Bildobjekt mit 
```python
fig = plt.figure()
```
fügen ein 3D-Koordinatensystem hinzu
```
ax = fig.axes(projection='3d')
```
und nutzen die vom Objekt `ax` bereitgestellten Plot-Befehle. Hier ein Beispiel:

In [None]:
plt.figure(figsize=(8,6))

# 3D-Koordinatensystem hinzufügen
ax = plt.axes(projection='3d')

# Surface-Plot erstellen
ax.plot_surface(X,Y,Z, cmap=cm.inferno)

plt.show()

In [None]:
plt.figure(figsize=(8,6))

ax = plt.axes(projection='3d')
ax.plot_wireframe(X,Y,Z, rcount=10)

plt.show()

Schauen wir uns noch eine Methode mit der wir **Vektorfelder** zeichnen können. Als Beispiel definieren wir $\vec f(x,y) = (-y,x)^\top$. Solche Vektorfelder können in sogenannten **Quiver-Plots** dargestellt werden:

In [None]:
x = np.linspace(-1,1, 11)
y = np.linspace(-1,1, 11)

# Punktgitter definieren
X,Y = np.meshgrid(x, y)

# Funktionswerte von F
Z1 = -Y
Z2 = X

# Optional: Färbe Pfeile nach Länge
C = np.sqrt(Z1**2 + Z2**2)

# Quiverplot erzeugen und anzeigen
plt.quiver(X, Y, Z1, Z2, C, cmap=cm.rainbow)
plt.show()

Auch **Kurven** lassen sich in Matplotlib zeichnen. Eine Kurve ist zunächst eine Menge an Punkten

$$
\Gamma = \{\vec x(t)\in \mathbb R^n\colon t\in[t_a,t_b]\}
$$

mit einer sogenannten Kurvenparametrisierung $\vec x\colon[t_a,t_b]\to\mathbb{R}^n$, welche regulär ist, d.h., $\dot{\vec x}(t)\ne 0$ für alle $t\in [t_a,t_b]$. Für eine ebene Kurve ($n=2$) können wir den normalen Plot-Befehl nutzen. Das Kleeblatt

$$
\Gamma = \{\begin{pmatrix}\cos(t)+\cos(2t) \\ \sin(t)-\sin(2t)\end{pmatrix}\colon t\in [0,2\pi]\}
$$

zeichnen wir beispielsweise mit

In [None]:
t = np.linspace(0,2*np.pi,100)
x = np.cos(t)+np.cos(2*t)
y = np.sin(t)-np.sin(2*t)

plt.plot(x,y,'o-')
plt.grid()
plt.show()

Ähnlich kann man Raumkurven ($n=3$) zeichnen, man benötigt nur vorher ein dreidimensionales Koordinatensystem. Wie wir das anlegen haben wir aber schon gesehen. Wir zeichnen hier die Schraubenlinie

$$
\Gamma = \{\begin{pmatrix}\cos(t)\\ \sin(t) \\ t\end{pmatrix}\colon t\in [0,4\pi]\}.
$$

In [None]:
t = np.linspace(0,4*np.pi,100)
x = np.cos(t)
y = np.sin(t)
z = t

ax = plt.axes(projection='3d')
ax.plot3D(x, y, z)
plt.show()

(graphs:seaborn)=
## Graphiken mit Seaborn - to do

## Interaktive Graphiken mit Plotly - to do

## Vergleich der Graphik-Pakete Matplotlib, Seaborn und Plotly

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.io as pio
import plotly.express as px
import plotly.offline as py
import pandas as pd
import numpy as np

np.random.seed(42) #initialisiere Zufallsgenerator für reproduzierbare "Zufallsdaten"
#pio.renderers.default = "plotly_mimetype"
#pio.renderers.default = "browser"
pio.renderers.default = "notebook"  # oder "notebook_connected" für interaktive Version

Erzeugen uns Daten mit Funktionswerten von sin(x) und cos(x), zufällig gestört mit etwas normalverteilten Rauschen

In [None]:
# Beispieldaten erzeugen
x = np.linspace(0, 10, 50)
y1 = np.sin(x) + np.random.normal(scale=0.1, size=len(x))
y2 = np.cos(x) + np.random.normal(scale=0.1, size=len(x))

df = pd.DataFrame({
    "x": np.concatenate([x, x]),
    "y": np.concatenate([y1, y2]),
    "Function": ["sin"]*len(x) + ["cos"]*len(x)
})

df

In [None]:
type(df)

df ist ein DataFrame im Tidy-Format, siehe beispielsweise [tidy-format](https://github.com/jfpuget/Tidy-Data/blob/master/Tidy-Data.ipynb)

In [None]:
# --- Matplotlib ---
plt.figure(figsize=(6,4))
for func in df["Function"].unique():
    subset = df[df["Function"] == func]
    plt.plot(subset["x"], subset["y"], label=func)
plt.title("Matplotlib")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.show()

In [None]:
# --- Seaborn ---
plt.figure(figsize=(6,4))
sns.lineplot(data=df, x="x", y="y", hue="Function")
plt.title("Seaborn")
plt.show()



In [None]:
# --- Plotly ---
fig = px.line(df, x="x", y="y", color="Function", title="Plotly (interaktiv)")
fig.show()
fig.write_image("plotly_bsp.png")

Die Interaktion ist insbesondere in Browsern sinnvoll. Fährt man nun mit dem Mauszeiger über die Graphen, erhält man Infos über die Datenwerte angezeigt oder kann in die Graphiken hinein- oder herauszoomen. Klinckt man in die Legende, können einzelne Funktionen ausgeschaltet werden.

**Achtung**: Plotly nicht für pdf-Version von jupyter-notebook verfügbar -- daher wird hier die interaktive Graphik in eine Bilddatei umgewandlet und als Alternative hier eingebunden: ![](plotly_bsp.png)