Aufgabe 1 – Explorative Datenanalyse¶
- (a) Verschaffen Sie sich einen Überblick über den Datensatz
diamondsaus dem Seaborn-Package. Welche Variablen sind metrisch, welche kategorial? Wie viele Beobachtungen enthält der Datensatz? - (b) Welche Variable eignet sich als Zielvariable für ein Preismodell? Untersuchen Sie die Verteilung der Variable
price. Beschreiben Sie die Form der Verteilung. Begründen Sie, ob eine Transformation der Zielvariable sinnvoll ist. - (c) Definieren Sie eine neue Zielvariable:
log_price:=log(price)und vergleichen Sie grafisch die Verteilungen von price und log_price. - (d) Berechnen Sie für alle metrischen Variablen die Korrelationsmatrix - ist es sinnvoll zur Erklärung des Preises des logarithmierten Preises neben dem
carat-Wert auch die Größenwerte aus den Variablenx,yundzins Modell aufzunehmen? - (e) Erstellen Sie einen Trainingsdatensatz, der zufällig 20% der Beobachtungen enthält, damit die Erstellung der Modell-Graphiken nicht aufgrund der vielen Samples zu umfangreich wird. Kontrollieren Sie, ob sich Ihre Berechnungen für den kompletten Datensatz von den Berechnungen im Trainingsdatensatz unterscheiden.
#Aufgabe 1e) Trainingsdatensatz auswaehlen
print(diamonds.shape)
diamonds_train = diamonds.sample(
frac=0.2, # 20 %
random_state=42 # Reproduzierbarkeit
)
print(diamonds_train.shape)
df = diamonds_train
(53940, 11) (10788, 11)
Aufgabe 2 – Einfache lineare Regression¶
Betrachten Sie zunächst nur den Einfluss der Karatgröße auf die logarithmierten Preise (Modell: m0).
- (a) Interpretieren Sie den geschätzten Koeffizienten. Wie verändert sich der erwartete Preis bei einer Erhöhung von carat um eine Einheit? Warum ist die Interpretation auf der Log-Skala besonders sinnvoll?
- (b) Beurteilen Sie die Modellgüte anhand geeigneter Kennzahlen.
- (c) Erstellen Sie zum Vergleich ein Modell, welches den Einfluss der Karatgröße auf die Preise untersucht.
- (d) Erstellen Sie für beide Modelle Residuenplots zur Homoskedazität und untersuchen Sie graphisch mittels Histogrammen und QQ-Plots die Normalverteilungsannahme der Residuen für beide Modelle
- (e) Wie könnte das Modell noch sinnvoll erweitert werden, damit die Residuen die Varianzhomogenität erfüllen?
Aufgabe 3 – Einfaktorielle ANOVA¶
Untersuchen Sie den Einfluss der kategoriellen Variablen auf die logarithmierten Preise einzeln und werten Sie die zugehörigen linearen Modelle aus.
Aufgabe 4 – Mehrfaktorielle Regression mit kategorialen Variablen¶
- (a) Erweitern Sie das Basis-Modell (
m0) um den Einfluss der 3 Qualitätsmerkmalecut,color,clarity((Modell:m1)) - (b) Erläutern Sie: wie kategoriale Variablen im Regressionsmodell kodiert werden und was die jeweilige Referenzkategorie bedeutet.
- (c) Visualisieren Sie geeignet den Einfluss der Faktor-Variablen
Aufgabe 5 – Modellvergleich¶
Vergleichen Sie das einfache Modell m0 aus Aufgabe 2 mit dem multifaktoriellen Modell m1 aus Aufgabe 4 mithilfe eines F-Tests / ANOVA sm.stats.anova_lm(m0, m1).
Diskutieren Sie, warum sich der geschätzte carat-Koeffizient zwischen beiden Modellen verändert.
Aufgabe 6 – Interaktionen¶
Untersuchen Sie, ob der Einfluss der Karatgröße von der Schliffqualität abhängt, indem Sie die Interaktion zwischen beiden Variablen in Ihr Modell mittels carat*C(cut).
Interpretieren Sie die Ergebnisse ökonomisch: Wie verändert sich der Grenzpreis eines zusätzlichen Karats bei unterschiedlicher Schliffqualität?