Konferenzzeitplan – 10. Workshopkongress für Klinische Psychologie und Psychotherapie und 35. Symposium der Fachgruppe Klinische Psychologie und Psychotherapie der Deutschen Gesellschaft für Psychologie (DGPs)

10. Workshopkongress für Klinische Psychologie und Psychotherapie und 35. Symposium der Fachgruppe Klinische Psychologie und Psychotherapie der Deutschen Gesellschaft für Psychologie (DGPs)

Samstag – 27.05.2017

11:00

iCal

S-45 Anwendung der Item Response Theorie in der klinisch-psychologischen Diagnostik: Nutzen, Stärken & Möglichkeiten

Raum: N113

Thema:
2.3 Diagnostik. Verfahren und Methoden

Leitung:
Dr. Maren Böcker (Universitätsklinikum der RWTH Aachen)
PD Dr. Thomas Forkmann (RWTH Aachen)

Präsentationsart:
Symposium

Dauer:
90 Minuten

Standardisierte Beurteilungsverfahren spielen in der klinisch-psychologischen Diagnostik eine große Rolle – nicht nur in der Einzelfall-Diagnostik, sondern auch im Rahmen von psychotherapeutischen und psycho-pharmakologischen Outcome-Studien. Aufgrund vorteilhafter mathematischer Eigenschaften werden international neue Assessmentinstrumente zunehmend auf der Grundlage der Item-Response-Theorie (IRT) entwickelt. In diesem Symposium soll anhand praxisnaher Beispiele aufgezeigt werden, welche Möglichkeiten die IRT bietet, die klinisch-psychologische Diagnostik zu verbessern. H. Baumeister und C. Otto stellen in ihren Vorträgen die Entwicklung und Anwendung computer-adaptiver Testverfahren (CAT) vor: H. Baumeister den CAT-PS, einen CAT zur Diagnostik der Vermeidend-Selbstunsicheren und der Zwanghaften Persönlichkeitsstörung im Erwachsenenalter, und C. Otto den Kids-CAT, einen CAT zur Erfassung gesundheitsbezogener Lebensqualität bei gesunden sowie chronisch kranken Kindern und Jugendlichen. F. Fischer zeigt anhand eines Beispiels aus der Depressionsdiagnostik, wie Einschätzungen aus einen Selbstrating (BDI-II) und einem Fremdrating (MADRS) direkt miteinander vergleichbar gemacht werden können. T.Forkmann präsentiert in seinem Vortrag die Ergebnisse einer Studie zur Akzeptanz und Benutzterfreundlichkeit von computerbasierter vs. herkömmlicher „Papier-Bleistift“-Depressionsdiagnostik bei älteren Menschen und geht der Frage nach, ob der Erhebungsmodus die Ergebnisse des Assessments beeinflusst. Abschließend stellt M. Böcker eine Studie aus dem Bereich der Therapie-Effektivitätsforschung vor und zeigt, dass die Wahl der verwendeten längsschnittlichen Datenanalysemethode maßgeblich die Untersuchungsergebnisse beeinflusst.

CAT-PS: Entwicklung und Validierung Computer-adaptiver Tests zur Diagnostik der Vermeidend-Selbstunsicheren und der Zwanghaften Persönlichkeitsstörung

Prof. Dr. Harald Baumeister

» Details anzeigen

2. Der Kids-CAT: Entwicklung, Validierung und Implementierung des ersten deutschsprachigen Computer-Adaptiven Tests zur Erfassung gesundheitsbezogener Lebensqualität bei gesunden sowie chronisch kranken Kindern und Jugendlichen

Dr. Christiane Otto

» Details anzeigen

Autoren:

Dr. Christiane Otto

Dana Barthel

Dr. Sandra Nolte

Dr. Felix Fischer

Ute Thyen

Marcus Klein

Dr. Otto Walter

Dr. Fionna Klasen

Prof. Matthias Rose

Prof. Ulrike Ravens-Sieberer

Die gesundheitsbezogene Lebensqualität von Kindern und Jugendlichen wird in Forschungsstudien zunehmend berücksichtigt, aber eine routinemäßige Erfassung findet in der pädiatrischen Versorgung nur selten statt. Computeradaptive Tests (CAT) bieten die innovative Möglichkeit, komplexe Konstrukte anhand weniger individuell abgestimmter Items valide und reliabel zu erfassen. Darüber hinaus können die Resultate zeitnah ausgegeben und graphisch dargestellt werden (CAT-Report).
Die Itembanken des Kids-CAT wurden mit Hilfe qualitativer (Delphi-Methode) und quantitativer Methoden (Klassische Testtheorie & Item-Response-Theorie) basierend auf Daten umfangreicher Surveys entwickelt. Der KidsCAT erfasst die Dimensionen Körperliches, Emotionales als auch Schulisches Wohlbefinden, Beziehung zu den Eltern sowie Soziale Unterstützung & Freunde. Die Reliabilität, Validität sowie die Durchführbarkeit und Akzeptanz des Kids-CAT wurden anhand der Angaben chronisch erkrankter Kinder und Jugendlicher mit Asthma, Diabetes und juveniler Arthritis untersucht (Alter: 7-17 Jahre; n = 312).
Es fanden sich mittlere Kennwerte für die Reliabilität des Kids-CAT mit einer besonders hohen Messpräzision in den unteren Bereichen der Dimensionen. Moderate bis hohe Korrelationen mit etablierten Lebensqualitäts-Instrumenten sprechen für die konvergente Validität des Verfahrens. Die Patienten hielten den Kids-CAT für leicht ausfüllbar, Ärzte berichteten eine gute Integrierbarkeit des KidsCAT Reports in die Versorgung.
Der Kids-CAT ist ein reliables und valides Instrument, das gut in die Routineversorgung integrierbar ist. Der Einsatz des Tests kann die Arzt-Patienten-Kommunikation sowie das Aufdecken potentieller Handlungsfelder und Ressourcen unterstützen.

Comparison of calibrated projection and unidimensional calibration to link self- and physician ratings of depression

Dr. Felix Fischer

» Details anzeigen

Autoren:

Dr. Felix Fischer

Dr. Judith Conijn

Dr. Lianne Schmaal

Henrik Walter

Ingrid Carlier

Prof. Matthias Rose

We compare two IRT based approaches for calibrating self- and physician ratings of depression on a common scale: calibrated projection and unidimensional calibration. While the latter has been already used to link different self-report measures, calibrated projection has been suggested for linking constructs that are similar, but not exactly the same.

Dutch patients referred to a mental health provider (n = 6,006), and a healthy reference group (n = 455) answered the BDI-II and were rated by a physician on the MADRS. We fitted a unidimensional and a twodimensional simple structure graded response models to the combined data, predicted BDI-II latent depression estimates using the MADRS and compared those to actual BDI-II depression estimates. Prediction error was assessed in 10-fold cross-validation and a validation sample.

Out of 31 items, 3 showed misfit in the unidimensional model and 5 in the twodimensional model. The correlation between latent BDI-II and latent MADRS depression estimates in the multidimensional model was .88. The cross-validation root mean squared error was slightly lower for projected calibration (mean = .58, sd = .03) compared to unidimensional calibration (.60, .03). In the validation sample, root mean squared error was .60 for both models. While error is large for individual estimates, prediction of BDI-II scores from the MADRS works well on a sample level.

These preliminary results indicate that linking self- and physician rated depression on a common scale is feasible. Computational more demanding projected calibration did not improve prediction compared to unidimensional model calibration.

Analog vs. Digital: Akzeptanz, Benutzerfreundlichkeit und Moduseffekte Tablet-basierten im Vergleich zu Paper-Pencil-basierten Depressionsassessments

PD Dr. Thomas Forkmann

» Details anzeigen

Autoren:

PD Dr. Thomas Forkmann

Dr. Maren Böcker

Dr. Heide Glaesmer

Dr. Lena Spangenberg

Obwohl die Akzeptanz computerbasierter psychologischer Diagnostik als hoch angesehen werden kann, ist bisher nicht überprüft, ob dies auch für adaptive computerbasierte Depressionstests gilt und ob der Erhebungsmodus (computerbasierte [PC] vs. Papier-und-Bleistift-Testung [PP]) einen Einfluss auf das Ergebnis hat. Diese Studie untersuchte den Einfluss des Erhebungsmodus auf die Ergebnisse PC- vs. PP-basierter Depressionsdiagnostik bei älteren Patienten.
Es nahmen 193 Hausarztpatienten teil (≥60 Jahre), die zwei Depressionstests (Patient Health Questionnaire 9 [PHQ-9] und Adaptives Depressionsscreening [A-DESC]) jeweils als PP- und PC-Version (Reihenfolge randomisiert), sowie Fragen zur Benutzerfreundlichkeit und Akzeptanz der Modi bearbeiteten. Die Daten wurden mittels Varianz- und Regressionsanalysen, Intraklassenkorrelationen, Reiceiver Operating Characteristics Curves und Analysen des Differential Item Functioning (DIF) ausgewertet.
Die Detektionsrate depressiver Episoden unterschied sich nicht zwischen den Modi. Für den PHQ-9 hatte der Erhebungsmodus keinen Einfluss auf das Assessmentergebnis. Das A-DESC zeigte auf Itemebene DIF für zwei Items, ohne Einfluss auf Skalenebene und Detektionsrate. Die Patienten bewerteten die Benutzerfreundlichkeit und Akzeptanz des PC-Modus als sehr gut und größtenteils besser geeignet, weniger anstrengend und weniger schwierig als den PP-Modus.
Es fand sich kein diagnostisch bedeutsamer Einfluss des Erhebungsmodus auf das Assessmentergebnis: Computerbasierte adaptive Depressionsdiagnostik ist auf Item- und Skalenebene valide, kommt zu vergleichbaren Ergebnissen wie PP-basierte Diagnostik und wird von Patienten akzeptiert und als benutzerfreundlich wahrgenommen.

Alle Wege führen nach Rom: Trifft dies auch für die Veränderungsmessung zu?

Dr. Maren Böcker

» Details anzeigen

Autoren:

Dr. Maren Böcker

Dr. Eftychia Volz-Sidiropoulou

Dr. Tine Nielsen

Dr. Guido Makransky

Dr. Karl Bang Christensen

Die Erfassung von Veränderungen mithilfe von Fragebögen spielt eine wichtige Rolle in der klinischen Praxis und Forschung. Ziel dieser Studie war es zu untersuchen, ob im Rahmen der Veränderungsmessung die verwendete Datenanalysemethode einen Einfluss auf die Studienergebnisse hat. Insbesondere war von Interesse, inwiefern die (Nicht-)Berücksichtigung potentieller Veränderungen von Itemschwierigkeiten über die Zeit (Zeit-DIF) und lokal-stochastischer Abhängigkeiten über die Zeit (LLD) die Studienergebnisse beeinflusst.
Bei 610 Patienten wurde die Depressivität bei Aufnahme und Entlassung mithilfe des BDIs erfasst. Veränderungen bzgl. der Depressivität wurden auf Gruppenebene (Effektstärke) und auf individueller Ebene (Reliable Change Index, Z-Index) über neun verschiedene statistische Ansätze miteinander verglichen. Der Ansatz der klassischen Testheorie sowie die vier ordinalen und die vier longitudinalen Rasch-Modell-Ansätze berücksichtigten bei der Analyse Zeit-DIF und LLD in einem unterschiedlichen Ausmaß.
Sowohl auf Gruppen- als auch auf individueller Auswertungsebene unterschieden sich die Ergebnisse zwischen den verwendeten Datenanalysemethoden deutlich. Die Behandlungseffekte wurden systematisch unterschätzt, wenn LLD bei der Auswertung nicht berücksichtigt wurde. Wurden Veränderungen der Itemschwierigkeiten über die Zeit nicht berücksichtigt, führte dies je nach Richtung des Zeit-DIFs entweder zur Über- oder Unterschätzung der Behandlungseffekte.
Zeit-DIF und LLD müssen bei der Veränderungsmessung dringend berücksichtigt warden, da es sonst zu massiven Fehleinschätzungen von Behandlungseffekten kommen kann. Die gängige Praxis der Veränderungsmessung sollte dringend überdacht werden!