Statistik für Finanzmärkte
¶

Wintersemester 2025/2026
¶

Übung 09 - Lineare Faktor-Modelle mit Interaktionen
¶

Hinweis:
Die in dieser Übung betrachteten Modelle dienen der Illustration statistischer Konzepte. Sie sind nicht als Blaupause für eine konkrete Datenanalyse in der Praxis zu verstehen.

Zielstellung¶

Ziel dieser Übung ist es, die grundlegende Idee statistischer Modelle zu verstehen, deren praktische Umsetzung kennenzulernen und insbesondere die Ergebnisse sachgerecht zu interpretieren. Zu diesem Zweck arbeiten wir mit einem konkreten Datensatz und analysieren diesen anhand verschiedener statistischer Modelle. Die hier durchgeführten Auswertungen haben daher überwiegend explorativen Charakter.

In der statistischen Praxis sollte die Fragestellung jedoch vor der Datenauswertung klar formuliert werden. Auf dieser Grundlage werden anschließend Studiendesign und Datenerhebung geplant. Erst danach erfolgt die statistische Analyse, mit dem Ziel, die zuvor formulierten Hypothesen zu überprüfen oder zu widerlegen. Die gleichzeitige Aufstellung von Hypothesen und deren Überprüfung anhand desselben Datensatzes ist aus statistischer Sicht nicht zulässig und kann zu Fehlinterpretationen führen.

Darüber hinaus zeigt diese Übung, dass mit zunehmender Anzahl von Faktoren bzw. Regressoren die Interpretation der geschätzten Effekte und der zugehörigen Tests deutlich komplexer wird. Die Auswahl eines statistischen Modells stellt daher stets einen Kompromiss zwischen Modellkomplexität und Interpretierbarkeit dar. In dieser Übung betrachten wir bewusst auch umfangreichere Modelle, um deren Struktur und Interpretation zu veranschaulichen, nicht jedoch als Empfehlung für eine konkrete praktische Anwendung.

Aufgabe 1 – Explorative Datenanalyse¶

  • (a) Verschaffen Sie sich einen Überblick über den Datensatz diamonds aus dem Seaborn-Package. Welche Variablen sind metrisch, welche kategorial? Wie viele Beobachtungen enthält der Datensatz?
  • (b) Welche Variable eignet sich als Zielvariable für ein Preismodell? Untersuchen Sie die Verteilung der Variable price. Beschreiben Sie die Form der Verteilung. Begründen Sie, ob eine Transformation der Zielvariable sinnvoll ist.
  • (c) Definieren Sie eine neue Zielvariable: log_price:=log(price) und vergleichen Sie grafisch die Verteilungen von price und log_price.
  • (d) Berechnen Sie für alle metrischen Variablen die Korrelationsmatrix - ist es sinnvoll zur Erklärung des Preises des logarithmierten Preises neben dem carat-Wert auch die Größenwerte aus den Variablen x,y und z ins Modell aufzunehmen?
  • (e) Erstellen Sie einen Trainingsdatensatz, der zufällig 20% der Beobachtungen enthält, damit die Erstellung der Modell-Graphiken nicht aufgrund der vielen Samples zu umfangreich wird. Kontrollieren Sie, ob sich Ihre Berechnungen für den kompletten Datensatz von den Berechnungen im Trainingsdatensatz unterscheiden.
In [59]:
#Aufgabe 1e) Trainingsdatensatz auswaehlen
print(diamonds.shape)
diamonds_train = diamonds.sample(
    frac=0.2,        # 20 %
    random_state=42 # Reproduzierbarkeit
)

print(diamonds_train.shape)
df = diamonds_train
(53940, 11)
(10788, 11)

Aufgabe 2 – Einfache lineare Regression¶

Betrachten Sie zunächst nur den Einfluss der Karatgröße auf die logarithmierten Preise (Modell: m0).

  • (a) Interpretieren Sie den geschätzten Koeffizienten. Wie verändert sich der erwartete Preis bei einer Erhöhung von carat um eine Einheit? Warum ist die Interpretation auf der Log-Skala besonders sinnvoll?
  • (b) Beurteilen Sie die Modellgüte anhand geeigneter Kennzahlen.
  • (c) Erstellen Sie zum Vergleich ein Modell, welches den Einfluss der Karatgröße auf die Preise untersucht.
  • (d) Erstellen Sie für beide Modelle Residuenplots zur Homoskedazität und untersuchen Sie graphisch mittels Histogrammen und QQ-Plots die Normalverteilungsannahme der Residuen für beide Modelle
  • (e) Wie könnte das Modell noch sinnvoll erweitert werden, damit die Residuen die Varianzhomogenität erfüllen?

Aufgabe 3 – Einfaktorielle ANOVA¶

Untersuchen Sie den Einfluss der kategoriellen Variablen auf die logarithmierten Preise einzeln und werten Sie die zugehörigen linearen Modelle aus.

Aufgabe 4 – Mehrfaktorielle Regression mit kategorialen Variablen¶

  • (a) Erweitern Sie das Basis-Modell (m0) um den Einfluss der 3 Qualitätsmerkmale cut, color, clarity ((Modell: m1))
  • (b) Erläutern Sie: wie kategoriale Variablen im Regressionsmodell kodiert werden und was die jeweilige Referenzkategorie bedeutet.
  • (c) Visualisieren Sie geeignet den Einfluss der Faktor-Variablen
In [ ]:
 
In [ ]:
 

Aufgabe 5 – Modellvergleich¶

Vergleichen Sie das einfache Modell m0 aus Aufgabe 2 mit dem multifaktoriellen Modell m1 aus Aufgabe 4 mithilfe eines F-Tests / ANOVA sm.stats.anova_lm(m0, m1).

Diskutieren Sie, warum sich der geschätzte carat-Koeffizient zwischen beiden Modellen verändert.

Der zweite Interaktionsplot zeigt, dass sich insbesondere die Kombinationen cut = fair und clarity = WS1 (orange) sowie cut = fair und clairity = IF (blau) etwas abweichend von den anderen Kombiantionen verhält, so dass leichte Wecheslwirkungen die klassischen ceterius paribus Aussagen etwas komplizierter gestalten. Ähnliche Aussagen erhalten wir für die Kombiantion von color x clarity. Da die Kurven sich aber nicht komplett gegenteilig verhalten, können wir von unewesentlichen Wechelwirkungen aussgehen.

Aufgabe 6 – Volles Modell inkl. Interaktionen¶

Untersuchen Sie, ob der Einfluss der Karatgröße von der Schliffqualität abhängt, indem Sie die Interaktion zwischen beiden Variablen in Ihr Modell mittels carat*C(cut).

Interpretieren Sie die Ergebnisse ökonomisch: Wie verändert sich der Grenzpreis eines zusätzlichen Karats bei unterschiedlicher Schliffqualität?

In [ ]: