(pandas)=
# Pandas DataFrames

<!-- footnotes
This adds a linked superscript {% fn 15 %}

{{ "This is the actual footnote" | fndetail: 15 }}
-->

Im vorherigen Abschnitt {ref}`numpy` haben wir bereits Vektoren und Matrizen und deren Handling, welches breiten Anwendungsbereich findet, in Python kennengelernt. Allerdings ben√∂tigt man f√ºr statistische Analysen h√§ufig weitere Datenstrukturen, die √ºber die klassischen numerischen Anwendungen hinaus gehen. Das Pandas Paket (Pandas = Python Data Analysis Library) liefert neben Serien vor allem DataFrames, welche Daten in Tabellenform, √§hnlich wie in Excel oder SQL zusammenfassen und setzt auf der NumPy-Bibliothek auf. DataFrames haben
Spaltennamen, einen Zeilenindex und erlauben insbesondere in verschiedenen Spalten gemischte Datentypen (int, float, string, usw), was in Datenmatrizen nicht variiert werden kann. Bei Datenanalysen m√ºssen h√§ufig neue Variablen erstellt werden oder Daten in ihrer Struktur angepasst oder zusammengefasst werden. Hierf√ºr bietet Pandas zahlreiche hilfreiche Funktionen. Au√üerdem stellt Pandas Routinen zum Importieren und Exportieren von CSV-Daten sowie zur Erstellung typischer Graphiken rund um die Datenanalyse bereit, da Pandas ebenso auf dem Paket `Matplotlib` aufsetzte, welches wir im Abschnitt {ref}`graphs` noch n√§her betrachten werden.

All diese Schritte der Datenaufbereitung (Datenimport, Datenbereinigung, Anpassen der Datentypen, Datentransformation, Zusammenfassen verschiedener Datens√§tze, Aufbereitung f√ºr verschiedene statische Anaylsen oder Optimierungsroutinen) fasst man unter dem Begriff `Data Wrangling` zusammen. Dieser sehr aufwendige Prozess umfasst ca. 80 Prozent der Arbeitszeit, w√§hrend die eigentlichen Analysen und Visualisierungen dann h√§ufig nur noch ca. 20 Prozent der tats√§chlichen Arbeitszeit f√ºr sich beanspruchen.

Pandas liefert somit viele praktische Funktionen zur Daten- und Zeitreihenanalyse und ist daher ein Standardwerkzeug in Data Science, Statistik, Finance und Machine Learning. 

Auf den Doku-Seiten der Pakete oder anderen Programmiererseiten finden sich h√§ufig kompakte √úbersichten, der wichtigsten Befehle, was das Arbeiten mit dem entsprechen Pakten erleichtert: <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf" target="_blank"> Pandas-Cheatsheet</a>. 

## Pandas installieren

Zun√§chst muss die **Pandas**-Bibliothek installiert werden. **Conda** erledigt dies mit dem Konsolenbefehl:
```bash
conda install -c conda-forge pandas
```
Alternativ kann das Paket auch mittels `Pip` installiert werden
```bash
pip install pandas
```



## Numpy-Array vs. Pandas DataFrame

Das folgende einfache Beispiel zeigt die Vorteile eines Pandas-DataFrames gegen√ºber einem Numpy-Array - wir betrachten einen einfachen Datensatz:

| Obstsorte | Menge | Preis (in ‚Ç¨) |
|----------|----------|----------|
| Apfel    | 10   | 0.5 |
| Banane   | 5    |0.8 |
| Apfel    | 7    |0.55|
| Kirsche  | 20 | 0.2   |

Die erste Spalte enth√§lt Strings, die zweite Integer und die dritte Spalte Floats, daher sind Numpy-Arrays nur sehr umst√§ndlich zu handeln.. 

Pakete einbinden:  das Matplotlib-Paket werden wir im folgenden Abschnitt {ref}`graphs` genauer betrachten und soll hier nur zur Erstellung einfacher Graphiken, die Pandas bereitstellt, aufzeigen. 

<!-- #import pandas_datareader as web  -- brauchen wir erst bei Kursdaten  -->

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


### Umsetzung als zweidimensionales NumPy-Array

In [None]:
# Daten als NumPy-Array, wegen verschiedener Typen wird dtype als object gesetzt 
data = np.array([
    ["Apfel", 10, 0.5],
    ["Banane", 5, 0.8],
    ["Apfel", 7, 0.55],
    ["Kirsche", 20, 0.2]
], dtype=object)

data

In [None]:
print("Datentypene 1. Zeile: %s %s %s" % (type(data[0,0]), type(data[0,1]), type(data[0,2])))

Daher m√ºssen beim Rechnen mit `data` immer jeweils die Typen konvertiert werden

In [None]:
# Umsatzspalte berechnen: Menge * Preis
umsatz = data[:,1].astype(float) * data[:,2].astype(float)
umsatz

Die Berechnung des Umsatzes f√ºr jede einzelne Produktart ist entsprechend kompliziert 

In [None]:
# Gesamtumsatz pro Produkt (manuell gruppieren)
produkte = np.unique(data[:,0])
print("Produkte: %s" %  produkte)
for p in produkte:
    mask = data[:,0] == p
    print(p, umsatz[mask].sum())



Vergleiche: Zugriff 1. Spalte (Index 0; : f√ºr gesamte Zeile)

In [None]:
data[:,0]

In [None]:
data[:,2] #Spalte 2 (=3. Spalte)

In [None]:
# Durchschnittspreis
avg_preis = data[:,2].astype(float).mean()
print("Durchschnittspreis:", avg_preis)


Deutlich einfacher ist das Handling in Pandas:

### Umsetzung in Pandas als DataFrame

In [None]:
# Daten als DataFrame
df = pd.DataFrame({
    "Produkt": ["Apfel", "Banane", "Apfel", "Kirsche"],
    "Menge": [10, 5, 7, 20],
    "Preis": [0.5, 0.8, 0.55, 0.2]
})

df

**Hinweis**: die Pandas Funktion `DataFrame()` bekommt im obigen Beispiel in Zeile 2 ein sogenanntes Dictionary (von Listen) √ºbergeben, welches in geschweiften Klammern `{}` in Python gesetzt wird und entspricht einer Implementierung Spalte f√ºr Spalte, wobei jede Spalte f√ºr eine Variable steht. Alternativ kann der DataFrame auch zeilenweise aufgebaut werden, dann bekommt die Funktion `DataFrame()` eine Liste von Dictionaries (eins je Zeile) √ºbergeben. Mit der Funktion `DataFrame.append()` k√∂nnen dann weitere Zeilen hinzugef√ºgt werden.  

<!-- siehe Datacamp Kurs: Data Manipulation with Pandas -Chapter 4: dictionary of lists - by column vs. list of dictionaries - by row f√ºr zeilenweisen Aufbau   -->

Auf die einzelnen Spalten des DataFrames k√∂nnen wir auf folgende zwei verschiedene Arten zugreifen 

In [None]:
df["Produkt"]

In [None]:
#falls nur 1 Variable (=1 Spalte): funktioniert der Zugriff auch mittels .
df.Preis

In [None]:
#Zugriff auf mehrere Spalten einfach mittels Liste der entsprechenden Variablen
df[["Preis","Menge"]]

Neue Variablen (Spalten) k√∂nnen wie folgt hinzugef√ºgt werden:

In [None]:
df["Umsatz"]=df["Menge"] * df["Preis"]
print(df)

In [None]:
#fuegen hier noch weitere Spalte Umsatz2 mit selben Werten hinzu, um Alternative aufzuzeigen
df = df.assign(Umsatz2=df["Menge"] * df["Preis"])
print(df)

Die Pandas-Funktionen `groupby()` sowie `pivot_table()` liefern eine sehr bequeme M√∂glichkeit, den Datensatz in Untergruppen zu unterteilen und dann f√ºr eine oder mehrere Variablen Berechnungen durchzuf√ºhren. Den Gesamtumstz je Produkt erh√§lt man beispielsweise, indem wir den DataFrame nach den einzelnen Produkten gruppieren und anschlie√üend die Ums√§tze summieren:

In [None]:
# Gesamtumsatz und verkaufte Menge je Produkt 
df.groupby("Produkt")["Umsatz"].sum()


In [None]:
df.pivot_table("Umsatz",index="Produkt")

In [None]:
#mehrere Spalten einfach als Liste
df.groupby("Produkt")[["Umsatz","Menge","Umsatz2"]].sum()

In [None]:
#oder falls sinnvoll f√ºr alle Spalten
df.groupby("Produkt").sum()

Ebenso k√∂nnen wir auf einzelne Spalten (Variablen) zahlreiche statistische Funktionen anwenden

In [None]:
# Durchschnittspreis
print("Durchschnittspreis:", df["Preis"].mean())

In [None]:
df.groupby("Produkt").mean()


mittels `groupby` k√∂nnen wir jetzt beispielsweise einfach die Anzahl f√ºr jede Obstsorte ermitteln:

Auf die Spalte bzw. Variable Menge kann ebenso mittels der zweiten Alternative zugegriffen werden:

In [None]:
df.groupby('Produkt').Menge.sum()

Die Befehle `.loc` (label-based) und `.iloc` (integer position-based) sind zwei sehr wichtige Instrumente in der Datenanalyse, welche wir nachfolgend ausf√ºhrlicher behandeln m√∂chten. Weitere Informationen finden Sie [hier](https://discovery.cs.illinois.edu/guides/DataFrame-Fundamentals/dataframe-loc-vs-iloc/#:~:text=The%20difference%20between%20the%20loc,by%20one%20for%20each%20row).

In [None]:
df_neu = pd.DataFrame({
    "Produkt": ["Apfel", "Banane", "Apfel", "Kirsche"],
    "Menge": [10, 5, 7, 20],
    "Preis": [0.5, 0.8, 0.55, 0.2]
})
df_neu=df_neu.set_index("Produkt")

df_neu.loc["Banane"]

# Alternativ
df_neu.iloc[1]

Wenn wir auf mehrere Objekte zugreifen wollen, dann klappt dass wie folgt:

In [None]:
df_neu.loc[["Banane", "Kirsche"]]

#Alternativ
df_neu.iloc[[1,3]]

Wenn wir Werte miteinander vergleichen wollen, dann ist folgender Befehl hilfreich

In [None]:
df_neu.loc[["Kirsche", "Banane"], "Preis"]

# Alternativ
df_neu.iloc[[1,3], 1]

## Teilstichproben durch Filterbedingungen

Bsp: Herausfiltern aller Zeilen mit Apfel, nutzen hierzu Vergleichsoperatoren

In [None]:
filter1 = df['Produkt']=='Apfel'
filter1



Einschr√§nkung des DataFrames auf Filter:

In [None]:
df[filter1]

In [None]:
df.loc[filter1]

Herausfiltern Menge mindestens 10

In [None]:
filter2 = df['Menge'] >=10
df[filter2]

Logisch verkn√ºpfte Filterbedingungen: Sollen beispielsweise alle Eink√§ufe von √Ñpfeln, die mehr als 50 Cent gekostet haben herausgefiltert werden:

Achtung w√§hrend bisher Vergleichsoperatoren f√ºr Vektoren immer automatisch elementweise angewendet wurden, z.B. beim Vergleich der Sorte auf √Ñpfel mittels `df['Produkt']=='Apfel'` ist die logische Verkn√ºpfung mehrerer Vektoren nicht mehr eindeutig, so 

In [None]:
filter_apfel = df['Produkt'] == 'Apfel'
filter_preis = df['Preis'] > 0.5

print(filter_apfel)
print(filter_preis) 

In [None]:
#logische Und-Verknuepfung funktioniert nicht fuer Vektoren / Arrays - Fehlermeldung!
filter_apfel and filter_preis

F√ºr Vektoren nutzen wir die Numpy-Funktion `logical_and()`, die elementweise arbeitet

In [None]:
filter_komplex = np.logical_and(filter_apfel, filter_preis)
print(filter_komplex)

df[filter_komplex]

Alternativ kann auch `&` f√ºr die elementweise Und-Verkn√ºpfung sowie `|` f√ºr die logische Oder-Operation anstatt `np.logical_or()` verwendet werden 

In [None]:
filter_apfel & filter_preis

In [None]:
filter_apfel | filter_preis

In [None]:
np.logical_or(filter_apfel,filter_preis)

Das Analogon zu `not` f√ºr elementweise Operationen ist `~` bzw. `np.logical_not()`

In [None]:
print(not True)

In [None]:
print(~filter_apfel)

In [None]:
print(np.logical_not(filter_apfel))

Filtern mittels `isin()` beispielsweise f√ºr Strings

In [None]:
obst_spezial = ["Banane","Kirsche","Birne"]
df[df["Produkt"].isin(obst_spezial)]

## Weitere hilfreiche Pandas-Funktionen

Pandas stellt sehr viele hilfreiche Funktionen zur Datenmanipluation f√ºr DataFrames bereit. F√ºr Details verweisen wir auf die [Pandas-Dokumentation](https://pandas.pydata.org/docs/). So haben wir bereits   `groupby` kennengelernt, mit dem der Datensatz nach kategoriellen Variablen (eine oder mehrere) gruppiert werden und f√ºr jede einzelne Untergruppe (beispielsweise f√ºr jede Obstsorte) weitere Funktionen angewendet werden k√∂nnen. H√§ufig ist die Kombination bzw. Hintereinanderausf√ºhrung solcher Befehle besonders m√§chtig. 
Beispielhaft erstellen wir einen neuen Dataframe mit den Gesamtums√§tzen je Sorte, indem wir f√ºr die Ums√§tze f√ºr jede einzelne Obstsorte nochmals den Gesamtumsatz ermitteln:

In [None]:
df2 = df.groupby("Produkt")["Umsatz"].sum()
df2

**Aufgabe**: Probieren Sie weitere Funktionen, die auf den DataFrame df angewendet werden k√∂nnen, z. B.  `head()`,`tail()`, `info()`, `shape()`, `describe()`, `agg()`, `value_counts()` oder `sort_values()` sowie `df.index` und `df.columns` und `df.values`

In [None]:
df.info()

In [None]:
df.describe()

Z√§hlen f√ºr kategorielle Variablen:

In [None]:
df["Produkt"].value_counts()

**Bemerkung:** Der Befehl `.value_counts(sort=True)` sortiert die Werte. Mit dem Befehl `.value_counts(normalize=True)` werden die anteiligen Werte f√ºr das jeweilige Produkt berechnet.

In [None]:
df["Produkt"].value_counts(normalize=True)

#### Aggregate and Apply: (dt. Aggregieren und Anwenden ) 

In [None]:
df.apply('sum')

In [None]:
df.groupby("Produkt").apply("mean")

In [None]:
df.agg(['min', 'max', 'sum'])

Achtung: Nicht jede Funktion ist f√ºr jeden Datentyp beliebig anwendbar oder sinnvoll, z.B. liefert der folgende Abruf einen Fehler, da kein Mittelwert f√ºr Strings (kategorielle Variable Produkt) berechnet werden kann und dies f√ºr nominal skalierte Merkmale nat√ºrlich auch nicht sinnvoll ist

In [None]:
#lange Fehleranalyse ist hier ausgeblendet
df.agg(['sum',"mean"])

Allerdings k√∂nnen wir das auch den Aufruf mittels Dictionaries pr√§zisieren, welche Funktion auf welche Variablen angewendet werden soll, so dass f√ºr die Variable hier beispielsweise 

In [None]:
#dictionary of function list
df.agg({"Produkt":["min", "max","sum"], "Preis": ["min", "max","sum", "mean","median"], "Umsatz": ["min", "max","sum", "median","mean"]})

sortieren:

In [None]:
df.sort_values(['Preis'])

In [None]:
df.sort_values(["Produkt","Preis"], ascending=[False,True])

Eine zentrale Fragestellung im Datenimport ist:
1. Haben wir NaN-Werte (NaN=not a numer)? 
2. Wenn ja, wie viele?
3. Wie gehen wir damit um?
Zum ersten Teil der Frage m√∂chten wir an dieser Stelle einige Methoden vorstellen, wie wir erkennen, dass NaN-Werte in unserem importieren Datensatz haben.
Mithilfe von `.isna()`k√∂nnen wir erkennen, ob ein "richtiger Wert" in der Zelle vorhanden ist, oder nicht. 

In [None]:
NaN_df=pd.read_csv("./../../Data/beispiel_nan.csv") 
print(NaN_df)

NaN_df.isna() # Zeigt uns, ob Werte fehlen oder nicht. 


Auf den ersten Blick sieht die `.isna()`-Methode sehr attraktiv aus, jedoch k√∂nnte dies bei gr√∂√üeren Datens√§tzen problematisch werden. Deshalb ist die Kombination von `.isna()`und `.any()` in solchen F√§llen besser geeignet. 

In [None]:
NaN_df.isna().any()

Durch diese Kombination erfahren wir, ob in einer Spalte NaN's vorhanden sind, oder nicht. Jedoch haben wir noch keine Aussage erhalten, wie viele NaN's vorhanden sind, was uns zur Beantwortung unserer zweiten Frage f√ºhrt. Zur numerischen L√∂sung k√∂nnen wir `.isna()`mit `.sum()` kombinieren und erhalten die Nazahl der NaN's je Spalte.  

In [None]:
NaN_df.isna().sum()

Wenn wir nach einer graphischen L√∂sung suchen, bietet der nachfolgende Code einen Ausweg

In [None]:
NaN_df.isna().sum().plot(kind="bar", rot=50) # mithilfe von rot, k√∂nnen wir unsere Beschriftung auf der x-Achse neigen. 
plt.show()

Nachdem wir nun gesehen haben, wie viele Werte je Spalte fehlen, k√∂nnen wir uns nun der Beantwortung unserer dritten Frage widmem. Der Umgang mit NaN's ist immer anh√§ngig von der Situation. Am einfachsten w√§re es, wenn wir vom Datenerheber einen vollst√§ndigen Datensatz (erneut) geliefert bekommen. Bedauerlicherweise wird das in der Regel kaum/nie stattfinden. Also m√ºssen wir uns zwischen den beide Methoden **entfernen** und **auff√ºllen** entscheiden. Die erste Methodik ist eine sehr gewagte Methode, da uns dadurch Daten verloren gehen. 

In [None]:
NaN_df.dropna()

In einigen F√§llen kann es sinnvoll sein fehlende NaN-Werte im Datensatz mit geeigneten Werten aufzuf√ºllen, im Folgenden Code-Beispiel illustrieren wir das einfach mit Null. Hier sollte man allerdings sehr vorsichtig vorgehen, da selbst ein Auff√ºllen mit Nullen in einer Spalte zwar nicht die Summe, aber statistische Ma√üzahlen wie das arithmetische Mittel beeinflusst. Denn das Auff√ºllen der Werte hat Einfluss auf die Stichprobengr√∂√üe, wie das einfache Beispiel illustriert. 



In [None]:
NaN_0 = NaN_df.fillna(0)
print(NaN_0)


In [None]:
print("mit NaN: Summe Einkommen  = %2.0f, Mittel =%2.1f, n=%i" % 
      (NaN_df.Einkommen.sum(), NaN_df.Einkommen.mean(), NaN_df.Einkommen.count()))

print("ohne NaN: Summe Einkommen  = %2.0f, Mittel =%2.1f, n=%i" % 
      (NaN_0.Einkommen.sum(), NaN_0.Einkommen.mean(), NaN_0.Einkommen.count()))



F√ºr die statistische Analyse und die Erstellung von Graphiken ist das Ersetzen von NaN-Werten also nicht notwendig, da typischerweise NaN-Werte hier automatisch ignoriert werden.

In [None]:
print(NaN_df.info())

print(NaN_0.info())


**Achtung:** Sollten Sie die Werte mit z.B. *NaN_df.fillna("Kein Wert geliefert")* auff√ºllen, sind sp√§ter Berechnungen nicht mehr m√∂glich, da ja verschiedene Datentypen in der Spalte vorhanden sind. So w√§re zum Beispiel die Berechnung des Durchschnittsalters problematisch.

## Index vs Spalten

In [None]:
print("Spaltennamen = Variablen: %s \n" % df.columns)
print("Index f√ºr Zugriff auf Datenzeilen: %s" % df.index)

Der Index entspricht entweder der Zeilennummer -- analog zu NumPy-Arrays beginnend mit 0 (d.h. 0 f√ºr die erste Zeile im Datensatz, 1 f√ºr die zweite Zeile usw) oder dem Zeilennamen bzw. Label.  Beispielsweise haben Finanzdatens√§tze √ºblicherweise das Datum als Index gesetzt. 

In [None]:
#values liefert immer array zurueck: hier wird deutlich, dass Pandas auf NumPy aufsetzt
df.values

In [None]:
print(df)

In [None]:
df_index = df.set_index("Produkt")
print(df_index)

In [None]:
df_index.index

In [None]:
df_index.loc['Apfel']

In [None]:
#ersten 2 Zeilen 
df_index[:2]

In [None]:
#daf√ºr funktioniert jetzt der normale Integer-Index nicht mehr und verursacht eine Fehlermeldung
df_index.loc[0:2]

In [None]:
#nutzen daf√ºr iloc() Operator
df_index.iloc[0:2]

**Anmerkung**: Den Index abweichend von 0,1,2, .. zu setzen hat Vor- und Nachteile. √úblicherweise wird bei Finanzdaten das Handelsdatum als Index gesetzt, das werden wir aber in {ref}`yfinance` n√§her betrachten. M√∂chte man eine gew√∂hnliche Spalte als Index verwenden, setzt man diese mittels `set_index()` und m√∂chte man einen Index wieder in eine normale Spalte umwandeln nutzt man die Funktion `reset_index()`. Zum Sortieren ist zudem die Funktion `sort_index()` n√ºtzlich    

<!--  Loc ILoc... - to do 

https://campus.datacamp.com/courses/intermediate-python/dictionaries-pandas?ex=14

-->

## Einfache Pandas Graphiken 

Da Pandas auf dem m√§chtigen Graphik-Paket `MatPlotLib` aufsetzt, k√∂nnen auch sehr einfach Graphiken erzeugt werden:

In [None]:
df2.plot(kind="bar")

In [None]:
df2.plot(kind="bar",title="Gesamtumsatz", rot = 45)

Im n√§chsten Abschnitt {ref}`graphs` sehen wir, wie wir diese Graphiken noch individueller anpassen k√∂nnen, z.B. neben Titel auch Labels hinzuf√ºgen:

In [None]:
df2.plot(kind="bar")
plt.title("Gesamtumsatz pro Produkt")
plt.ylabel("Umsatz (‚Ç¨)")
plt.show()

In [None]:
Einkommen=pd.read_csv("./../../Data/Daten_Diagramme.csv", sep=";") # sep=";" ist manchmal notwendig, wenn die Daten aus der CSV schlecht lesbar importiert werden.
# To-Do: An Ordnerstruktur anpassen
print(Einkommen.head())

Einkommen.rename(columns={"Alter<br>in Jahren" : "Alter in Jahren"}, inplace=True) #Spalte Alter umbenannt --> inplace=True => die Operation ver√§ndert das Objekt direkt (also ‚Äûin place‚Äú) und gibt kein neues DataFrame zur√ºck.

Einkommen.plot(x="Alter in Jahren", y="Nichterwerbspersonen (f)", kind="scatter", rot=45)
plt.figure(figsize=(12,5)) #Breite = 12 Zoll, H√∂he = 5 Zoll
plt.show()

Wir k√∂nnen auch ein Balkendiagramm erstellen und f√ºr Vergleiche nebeneinander legen.

In [None]:
Einkommen.plot(
    x="Alter in Jahren",
    y=["Nichterwerbspersonen (f)", "Nichterwerbspersonen (m)"], # Beide Spalten in y Definieren
    kind="bar",
    rot=50,
    title="Anzahl der Nichterwerbspersonen je Altersgruppe"
)

plt.legend(["m√§nnlich", "weiblich"])
plt.show()

In [None]:
Einkommen.plot(
    x="Alter in Jahren",
    y=["Nichterwerbspersonen (f)", "Nichterwerbspersonen (m)"], 
    kind="barh", # horizntales Balkendiagramm
    rot=50,
    title="Anzahl der Nichterwerbspersonen je Altersgruppe"
)

plt.legend(["m√§nnlich", "weiblich"])
plt.show()

In [None]:
Einkommen.plot(
    x="Alter in Jahren",
    y=["Nichterwerbspersonen (f)", "Nichterwerbspersonen (m)"],
    kind="bar",
    rot=50,
    subplots=True, #somit in einer Grafik zwei Diagramme dargestellt 
    title=[
        "Anzahl der Nichterwerbspersonen (f) je Altersgruppe",
        "Anzahl der Nichterwerbspersonen (m) je Altersgruppe"
    ]
)

plt.tight_layout() # Macht das Diagramm etwas "sch√∂ner" vom Layout her
plt.show()

Des weiteren k√∂nnen wir auch Histogramme √ºbereinanderlegen. 

In [None]:
#### Pandas

Einkommen[["Nichterwerbspersonen (f)", "Nichterwerbspersonen (m)"]].plot(
    kind="hist",
    bins=10,             # Anzahl der Klassen 
    alpha=0.5,           # Erh√∂ht Transaprent
    title="Verteilung der Nichterwerbspersonen (Pandas)"
)

plt.legend(["weiblich", "m√§nnlich"])
plt.xlabel("Anzahl") # Beschriftung x-Achse
plt.ylabel("H√§ufigkeit") # Beschriftung y-Achse

plt.show()

### Matplotlib
plt.hist(Einkommen["Nichterwerbspersonen (f)"], bins=10, alpha=0.5, label="weiblich")
plt.hist(Einkommen["Nichterwerbspersonen (m)"], bins=10, alpha=0.5, label="m√§nnlich")

plt.title("Histogramm der Nichterwerbspersonen (Matplotlib)")
plt.xlabel("Anzahl")
plt.ylabel("H√§ufigkeit")
plt.legend()

plt.show()

## Tidy Datenformat

Es gibt zahlreiche M√∂glichkeiten umfangreiche Datens√§tze in Tabellen-Form darzustellen. F√ºr die Basis-Philosophie des 
<a href="https://github.com/jfpuget/Tidy-Data/blob/master/Tidy-Data.ipynb" target="_blank" rel="noopener noreferrer">Tidy-Formats</a>
<!-- <a href = "https://github.com/jfpuget/Tidy-Data/blob/master/Tidy-Data.ipynb", target="_blank"> Tidy-Formats </a>
[Tidy-Formats](https://github.com/jfpuget/Tidy-Data/blob/master/Tidy-Data.ipynb){:target="_blank"}
-->
verweisen wir an dieser Stelle auf die Literatur und fassen hier nur kurz die grundlegende Idee zusammen.

Das Tidy Datenformat gibt eine strukturierte und standardisierte Anordnung der Daten vor, bei der jede Variable in einer eigenen Spalte steht und jede Beobachtung in einer eigenen Zeile. 
Obiger DataFrame 'Einkommen' ist beispielsweise nicht im Tidy-Format, da das Einkommen f√ºr 4 verschiedene Gruppen (Kombinationen von Geschlecht und Erwerbst√§tigkeit mit jeweils 2 Auspr√§gungen) in 4 Spalten, statt einer abgebildet ist. Im Tidy-Format g√§be es neben der Altersgruppe eine Spalte f√ºr die Variable 'Geschlecht', eine Spalte f√ºr die Variable 'Erwerbst√§tikeit' und eine Spalte f√ºr die Variable 'Einkommen'.  
Dieses Prinzip bringt √úbersichtlichkeit und erleichtert s√§mtliche Analyse- und Verarbeitungsschritte, insbesondere in Pandas.
In jeder Zelle der Tabelle darf daher nur ein Wert stehen, d. h. keine Zellen mit mehrfach codierten Informationen oder Textformatierungen.

Das folgende kleine Beispiel verletzt diese Anforderungen, da die Ums√§tze (1 Variable) f√ºr jedes Unternehmen ein einer extra Spalte stehen und zudem die erste Spalte sowohl das Quartal als auch das Jahr enth√§lt. 

In [None]:
# Nicht-tidy: Spalten sind verschiedene Unternehmen und die Zeilen verschiedene Quartale
df_umsatz = pd.DataFrame({
    'Quartal': ['Q1 2024', 'Q2 2024', 'Q3 2024'],
    'Apple': [28.4, 31.5, 33.2],
    'Microsoft': [24.2, 25.0, 27.1],
    'Google': [19.5, 20.7, 21.3]
})
print(df_umsatz)

Dieses sogenannte "breite" Datenforman kann mittels der Pandas Funktion `melt()` aber in das Tidy Format √ºberf√ºhrt werden, indem wir im ersten Schritt die Jahreszahl und das Quartal trennen und dann zus√§tzlich eine neue Variablen `Firma` einf√ºhren. 

In [None]:
#Schritt 1: Spalte 'Quartal' in 'Quartal' und 'Jahr' aufteilen 
df_umsatz[["Quartal", "Jahr"]] = df_umsatz["Quartal"].str.split(' ', expand=True)

print(df_umsatz)

In [None]:
#Schritt 2: wide to long
df_tidy = df_umsatz.melt(id_vars=['Quartal', 'Jahr'], 
                  value_vars=['Apple', 'Microsoft', 'Google'],
                  var_name='Firma', value_name='Umsatz')
print(df_tidy)

Einfache Graphiken aus Pandas...

In [None]:
df_tidy[df_tidy.Quartal == "Q3"].plot(x="Firma", y="Umsatz", kind = "bar", title ="Umsatz Q3 2024")
df_tidy[df_tidy.Firma == "Apple"].plot(x="Quartal", y="Umsatz", kind = "bar", title ="Umsatz Apple 2024")

Seaborn nutzt das tidy-Format viel effizienter. Das folgende Beispiel dient hier nur kurz der Illustration und wird nochmals in Abschnitt {ref}`graphs:seaborn` detailierter vorgestellt.

In [None]:
import seaborn as sns

sns.barplot(data=df_tidy, x='Firma', y='Umsatz', hue='Quartal')
plt.show()

(pandas-read)=
## Datenexport und -import von CSV-Datens√§tzen und Pandas DataFrames

* Comma Separated Values (CSV) k√∂nnen von vielen Programmen weiterverarbeitet werden: pd.read_csv("daten.csv")` zum Einlesen und zum Erstellen `df.to_csv("daten.csv")` 

* Zum Laden von Python-Objekten ohne Konvertierung (nur f√ºr Python lesbar = Picklen): `df.to_pickle("daten.pkl")` `pd.read_pickle("daten.pkl")` 

* Sowohl zum Einlesen als auch Speichern einer Datei ist das aktuelle `Working directory` Ausgangspunkt und kann mit der Funktion `getcwd()` vom Basispaket `os` (operating system) abgefragt bzw. mittels `chdir()` angepasst werden. 

* Liegt die einzulesende Datei nicht direkt im Working Directory, welches √ºblicherweise dem Quellverzeichnis des Python-Skriptes bzw. des Jupyter-Notebooks entspricht, aber auch andersweitig gesetzt werden kann, muss der Pfad zur einzulesenden Datei angegeben werden. 
  
* Hier empfielt sich die Pfadangabe mittels **relativer Pfade**. Soll beispielsweise die Datei `DatenDatei.csv` in dem Unterordner `Daten`, startet der relative Pfad im aktuellen Verzeichnis, welches mit einem `.` gesetzt wird: 
    ```python
    #relativer Pfad, ausgehend vom working directory
    df_import = pd.read_csv("./Daten/DatenDatei.csv")
    ```
    Liegen die Daten hingegen in einem √ºbergeordneten Ordner, gibt man dies im Pfad einfach mit zwei Punkten `..` an. Falls also beispielsweise in Windows im Ordner `C:\Studium\Finance\Python-Kurs\` es einen Unterordner `C:\Studium\Finance\Python-Kurs\Code` sowie einen Unterordner `C:\Studium\Finance\Python-Kurs\Daten` gibt und das aktuelle Working Directory `C:\Studium\Finance\Python-Kurs\Code` liegt, lautet der Aufruf
    ```python
    #relativer Pfad
    df_import = pd.read_csv("./../Daten/DatenDatei.csv")
    ```
    Der erste Punkt besagt einfach starte im Working Directory, hier also im Ordner `C:\Studium\Finance\Python-Kurs\Code`. Durch die Angabe der zwei Punkte `..` wird dann in den √ºbergeordneten Ordner `C:\Studium\Finance\Python-Kurs\` gewechselt und dort dann die CSV-Date im Ordner `Daten\DatenDatei.csv` eingelesen. Der Vorteil gegen√ºber der Nutzung absoluter Pfade
    ```python
    #absoluter Pfad
    df_import = pd.read_csv("C:/Studium/Finance/Python-Kurs/Daten/DatenDatei.csv")
    ``` 
    liegt auf der Hand, denn dieser Aufruf funktioniert ausschlie√ülich f√ºr die vorliegende Ordner-Struktur. Wollen Sie allerdings das Skript auf einem anderen Rechner laufen lassen, in dem obiger Ordner Python-Kurs sich beispielsweise auf `C:\users\danau\Dokumente\Finance\Python-Kurs` befindet, m√ºssten Sie den absoluten Pfad entsprechend anpassen
    ```python
    #absoluter Pfad
    df_import = pd.read_csv("C:/Studium/Finance/Python-Kurs/Daten/DatenDatei.csv")
    #relativer Pfad
    df_import = pd.read_csv("./../Daten/DatenDatei.csv")
    ```
    w√§hrend der relative Pfad auch auf dem anderen Dateisystem funktioniert.

In [None]:
import os
cwd = os.getcwd()
print(cwd)

## Iterationen √ºber DataFrames als Alternative zu Apply / Map - Funktionen - to do!

```{note}
to do: 
* Iteration √ºber DataFrames vs. apply() ???
```

<!-- to do: https://campus.datacamp.com/courses/intermediate-python/dictionaries-pandas?ex=14 -->

## Alternative Pakete zum Arbeiten mit gro√üen Datens√§tzen: Exkurs in das Arbeiten mit Polars

**Polars** ist eine moderne Open-Source-Bibliothek f√ºr Datenanalyse in Python und Rust, die speziell f√ºr hohe Geschwindigkeit und Speicher¬≠effizienz entwickelt wurde. W√§hrend `pandas` seit √ºber einem Jahrzehnt der De-facto-Standard f√ºr tabellarische Daten in Python ist, st√∂√üt es bei sehr gro√üen Datens√§tzen oder rechenintensiven Workflows oft an Performancegrenzen. Genau hier setzt Polars an: Die Bibliothek nutzt eine spaltenorientierte Speicherstruktur auf Basis von **Apache Arrow** und ist in Rust implementiert, wodurch sie sowohl √§u√üerst schnell als auch ressourcenschonend arbeitet.

Ein wesentlicher Unterschied liegt in der Arbeitsweise. Pandas ist √ºberwiegend Single-Threaded, w√§hrend Polars automatisch mehrere CPU-Kerne nutzt und dadurch auf modernen Rechnern deutlich schneller ist. Au√üerdem unterst√ºtzt Polars eine sogenannte Lazy API: Anweisungen werden nicht sofort ausgef√ºhrt, sondern zun√§chst gesammelt, optimiert und dann als effiziente Query-Pipeline berechnet. Das erm√∂glicht Polars, Berechnungen zu beschleunigen und unn√∂tige Operationen zu vermeiden.

F√ºr Anwender f√ºhlt sich Polars trotz dieser technischen Unterschiede vertraut an, da die zentrale Datenstruktur ebenfalls ‚ÄûDataFrame‚Äú hei√üt. Viele Konzepte √§hneln pandas, jedoch mit einer moderneren und oft konsistenteren Syntax. Der Nutzen f√ºr Praktiker liegt vor allem darin, dass Analysen, die mit pandas bei Millionen von Zeilen ins Stocken geraten, mit Polars problemlos und interaktiv m√∂glich sind.

<u>Zusammengefasst</u> ist Polars besonders dann eine sinnvolle Alternative zu `pandas`, wenn es um gro√üe Datenmengen, parallele Verarbeitung und hohe Geschwindigkeit geht. Pandas hingegen bleibt weiterhin sehr stark, wenn es um breite Unterst√ºtzung im √ñkosystem, Kompatibilit√§t mit bestehenden Bibliotheken und vielf√§ltige Tutorials geht.

Zun√§chst muss die **Polras**-Bibliothek installiert werden. **Conda** erledigt dies mit dem Konsolenbefehl:
```bash
conda install -c conda-forge polars
```
Alternativ kann das Paket auch mittels `Pip` installiert werden
```bash
pip install polars
```

Wir m√∂chten den Einsatz von `polars` an dem *Intraday Stock Data (1 min) ‚Äì S&P 500 ‚Äì 2008‚Äì21* Datensatz 
<a href="./Data/SP500_08-21.csv" download>
  <button>üì• CSV herunterladen</button>
</a>
mit ca. 2 Millionen Zeilen demonstrieren. Dies ist ein umfangreiches, fein aufgel√∂stes Zeitreihen-Datenset mit Preisdaten auf Minutenebene. Er eignet sich ausgesprochen gut zur Analyse von Marktbewegungen im Tagesverlauf oder zur Entwicklung und Validierung kurzfristiger Handels- und Vorhersagestrategien. 


In Python importieren wir `polars` wie folgt.
```bash
import polars as pl
````

In [None]:
import polars as pl

SP500 = pl.read_csv("./../../Data/SP500_08-21.csv")
SP500.head()

Wir sehen den Datentyp der jeweiligen Spalte in dem wir uns den Datframe mit `.head()` anzeigen lassen. Nachfolgend sehen wir, dass der `.tail()` analog zu `pandas` funktioniert. Sowohl beim `.head()` als auch bei `.tail()` wird uns die Anzahl der angezeigten Zeilen und Spalten wiedergegeben. 

In [None]:
SP500.tail()

Wenn wir uns die genaue Anzahl der Zeilen und Spalten wiedergeben lassen wollen, verwenden wir `.shape`. 

In [None]:
SP500.shape

Mit dem Befehl `.glimpse` wird uns die Anzahl der gesamten Zeilen und Spalten und die Datentypen der jeweiligen Spalte wiedergegeben.

In [None]:
SP500.glimpse

Wollen wir mal die Importzeit zwischen `polars` und `pandas` vergleichen, um zu sehen, welches Package den Datensatz schneller importiert.

In [None]:
import time

# Polars
start_time_polars=time.time()
SP500 = pl.read_csv("./../../Data/SP500_08-21.csv")
end_time_polars= time.time()

# Pandas
start_time_pandas=time.time()
SP500_pd=pd.read_csv("./../../Data/SP500_08-21.csv")
end_time_pandas=time.time()

print(f"Die Importzeit mit Polars betr√§gt {end_time_polars - start_time_polars:.2f} Sekunden und mit Pandas {end_time_pandas - start_time_pandas:.2f} Sekunden.")



Nachfolgend stellen wir Ihnen eine Selecting-Befehle vor.

In [None]:
SP500[1]

In [None]:
SP500[-1]

In [None]:
SP500[0:3]

In [None]:
SP500["open"]

In [None]:
SP500[["open", "close"]]

In [None]:
SP500[:3, ["date", "open", "close"]]

In [None]:
SP500.select("date", "volume")

In [None]:
SP500.sort("volume", descending=True)

In [None]:
SP500.top_k(3, by="volume") 

In [None]:
SP500.describe()

Mit dem Befehl `pl.col()` integriert in `.select()` werden uns zwei bestimmte Spalten wiedergegeben. 

In [None]:
SP500.select(
    "date",
    pl.col("volume")
)

Wir k√∂nnen auch Modifizierungen ganz bequem durchf√ºhren. In unserem Codebeispiel kombinieren wir ein `pl.col()`, `.round()` und `.alias()`.

In [None]:
SP500.select(
    "date",
    (pl.col("close")).round(2).alias("Schlusskurs")
)

Des weiteren ist m√∂glich eine Spalte in unserem Dataframe zu erg√§nzen. Im nachfolgende Codebeispiel wollen wir sehen, ob Werte in der Spalte *volume* existieren. Dazu verwenden wir das Kommando `pl.lit()`. 

In [None]:
SP500.select(
    "date",
    (pl.col("volume")).round(2).alias("Handelsvolumen"),
    pl.lit(True).alias("available")
)

In [None]:
SP500.select(
    "date", 
    "volume",
    pl.col("volume").mean().alias("average volume"), 
    pl.col("volume").max().alias("max volume")
)

Wir wollen nun eine neue Spalte erzeugen, welche uns stets den Durchschnittskurs wiedergibt. Dazu verwenden wir `.with_columns`.

In [None]:
SP500.with_columns(
    ((pl.col("high")+pl.col("low"))*1/2).alias("average price")
    )

Wenn wir eine Spalte umbenennen wollen, k√∂nnen wir das mit `.rename()`.

In [None]:
SP500.rename({
    "date":"Datum"
})

Eine Spalte zu l√∂schen funktioniert mit dem `drop()` Kommando.

In [None]:
SP500.drop("barCount", "average")

Wir k√∂nnen auch mithilfe von `null.count()` die Anzahl der fehlenden Werte ausgeben lassen. 

**Bemerkung:** In `polars` werden die fehlenden Werte nicht mit NaN angegeben, sondern mit einer null.

In [None]:
SP500.null_count()

Wir wollen an dieser Stelle den Exkurs in `polars` beenden. Interessierte finden unter  
<!-- <a href="https://docs.pola.rs", target="_blank" > Polars Package</a> 
[Polars Package](https://docs.pola.rs){target="_blank" rel="noopener noreferrer"}
-->
<a href="https://docs.pola.rs" target="_blank" rel="noopener noreferrer">Polars Package</a>
 weitere Ausf√ºhrung.