Thema:
2.3 Diagnostik. Verfahren und Methoden
Leitung:
Dr. Maren Böcker (Universitätsklinikum der RWTH Aachen)
PD Dr. Thomas Forkmann (RWTH Aachen)
Präsentationsart:
Symposium
Dauer:
90 Minuten
Standardisierte Beurteilungsverfahren spielen in der klinisch-psychologischen Diagnostik eine große Rolle – nicht nur in der Einzelfall-Diagnostik, sondern auch im Rahmen von psychotherapeutischen und psycho-pharmakologischen Outcome-Studien. Aufgrund vorteilhafter mathematischer Eigenschaften werden international neue Assessmentinstrumente zunehmend auf der Grundlage der Item-Response-Theorie (IRT) entwickelt. In diesem Symposium soll anhand praxisnaher Beispiele aufgezeigt werden, welche Möglichkeiten die IRT bietet, die klinisch-psychologische Diagnostik zu verbessern. H. Baumeister und C. Otto stellen in ihren Vorträgen die Entwicklung und Anwendung computer-adaptiver Testverfahren (CAT) vor: H. Baumeister den CAT-PS, einen CAT zur Diagnostik der Vermeidend-Selbstunsicheren und der Zwanghaften Persönlichkeitsstörung im Erwachsenenalter, und C. Otto den Kids-CAT, einen CAT zur Erfassung gesundheitsbezogener Lebensqualität bei gesunden sowie chronisch kranken Kindern und Jugendlichen. F. Fischer zeigt anhand eines Beispiels aus der Depressionsdiagnostik, wie Einschätzungen aus einen Selbstrating (BDI-II) und einem Fremdrating (MADRS) direkt miteinander vergleichbar gemacht werden können. T.Forkmann präsentiert in seinem Vortrag die Ergebnisse einer Studie zur Akzeptanz und Benutzterfreundlichkeit von computerbasierter vs. herkömmlicher „Papier-Bleistift“-Depressionsdiagnostik bei älteren Menschen und geht der Frage nach, ob der Erhebungsmodus die Ergebnisse des Assessments beeinflusst. Abschließend stellt M. Böcker eine Studie aus dem Bereich der Therapie-Effektivitätsforschung vor und zeigt, dass die Wahl der verwendeten längsschnittlichen Datenanalysemethode maßgeblich die Untersuchungsergebnisse beeinflusst.
CAT-PS: Entwicklung und Validierung Computer-adaptiver Tests zur Diagnostik der Vermeidend-Selbstunsicheren und der Zwanghaften Persönlichkeitsstörung
Prof. Dr. Harald Baumeister
» Details anzeigen
Autoren:
Prof. Dr. Harald Baumeister
Dr. Birgit Abberger
Die Zwanghafte (ZPS) und die Vermeidend-Selbstunsichere Persönlichkeitsstörung (VSPS) zählen zu den häufigsten Persönlichkeitsstörungen. Computer-adaptive Tests (CAT) bieten sich zum Screening und zur Erfassung des Schweregrades dieser Störungen an. Im Rahmen des CAT-PS-Projektes wurden zwei CAT (CAT-VSPS/-ZPS) mit zugrundeliegenden Itembanken entwickelt und überprüft.
Die Basis der CAT bilden eindimensionale Itembanken. Ausgehend von 143 (VSPS) und 164 Items (ZPS) erfolgte die Kalibrierung der Itembanken an 604 Patienten. Der dreistufige Analyseprozess umfasste Faktoren-, Mokken- und Rasch-Analyse. Die Validierung der CAT erfolgte an 107 Patienten. Die Bestimmung der diskriminanten und konvergenten Validität erfolgte korrelativ im Vergleich zu Subskalen des Persönlichkeitsfragebogens ADP-IV. Die Erfassung der prädiktiven Validität erfolgte mittels ROC-/AUC-Analysen in Bezug auf die Vorhersage von SCID-II-VSPS-/-ZPS-Diagnosen.
Nach Zusammenlegung ungeordneter Kategorien und Ausschluss misfittender sowie lokal-abhängiger Items ergaben sich Itembanken mit 35 (VSPS) und 33 (ZPS) Items. Diese weisen sehr hohe Reliabilitäten auf (0.93 & 0.87) und erfassen ein breites Merkmalsspektrum. Der CAT benötigte durchschnittlich zwischen 6.0 (Abbruchkriterium SE≤.50) und 20.0 Items (SE≤.32) mit einer durchschnittlichen Bearbeitungszeit von 0:56-3:00 Minuten. Korrelation mit ADP-IV-Subskalen lagen zwischen 0.33 und 0.57. AUC-Ergebnisse waren exzellent für CAT-VSPS (AUC:0.89-0.91) und sehr gut für CAT-ZPS (0.82-0.76).
Mit den beiden Computer-adaptiven Tests CAT-ZPS/-VSPS wurden ökonomische, reliable und valide Möglichkeit zum Screening und zur Beurteilung des Schweregrades zweier Cluster-C-Persönlichkeitsstörungen geschaffen.
2. Der Kids-CAT: Entwicklung, Validierung und Implementierung des ersten deutschsprachigen Computer-Adaptiven Tests zur Erfassung gesundheitsbezogener Lebensqualität bei gesunden sowie chronisch kranken Kindern und Jugendlichen
Dr. Christiane Otto
» Details anzeigen
Autoren:
Dr. Christiane Otto
Dana Barthel
Dr. Sandra Nolte
Dr. Felix Fischer
Ute Thyen
Marcus Klein
Dr. Otto Walter
Dr. Fionna Klasen
Prof. Matthias Rose
Prof. Ulrike Ravens-Sieberer
Die gesundheitsbezogene Lebensqualität von Kindern und Jugendlichen wird in Forschungsstudien zunehmend berücksichtigt, aber eine routinemäßige Erfassung findet in der pädiatrischen Versorgung nur selten statt. Computeradaptive Tests (CAT) bieten die innovative Möglichkeit, komplexe Konstrukte anhand weniger individuell abgestimmter Items valide und reliabel zu erfassen. Darüber hinaus können die Resultate zeitnah ausgegeben und graphisch dargestellt werden (CAT-Report).
Die Itembanken des Kids-CAT wurden mit Hilfe qualitativer (Delphi-Methode) und quantitativer Methoden (Klassische Testtheorie & Item-Response-Theorie) basierend auf Daten umfangreicher Surveys entwickelt. Der KidsCAT erfasst die Dimensionen Körperliches, Emotionales als auch Schulisches Wohlbefinden, Beziehung zu den Eltern sowie Soziale Unterstützung & Freunde. Die Reliabilität, Validität sowie die Durchführbarkeit und Akzeptanz des Kids-CAT wurden anhand der Angaben chronisch erkrankter Kinder und Jugendlicher mit Asthma, Diabetes und juveniler Arthritis untersucht (Alter: 7-17 Jahre; n = 312).
Es fanden sich mittlere Kennwerte für die Reliabilität des Kids-CAT mit einer besonders hohen Messpräzision in den unteren Bereichen der Dimensionen. Moderate bis hohe Korrelationen mit etablierten Lebensqualitäts-Instrumenten sprechen für die konvergente Validität des Verfahrens. Die Patienten hielten den Kids-CAT für leicht ausfüllbar, Ärzte berichteten eine gute Integrierbarkeit des KidsCAT Reports in die Versorgung.
Der Kids-CAT ist ein reliables und valides Instrument, das gut in die Routineversorgung integrierbar ist. Der Einsatz des Tests kann die Arzt-Patienten-Kommunikation sowie das Aufdecken potentieller Handlungsfelder und Ressourcen unterstützen.
Comparison of calibrated projection and unidimensional calibration to link self- and physician ratings of depression
Dr. Felix Fischer
» Details anzeigen
Autoren:
Dr. Felix Fischer
Dr. Judith Conijn
Dr. Lianne Schmaal
Henrik Walter
Ingrid Carlier
Prof. Matthias Rose
We compare two IRT based approaches for calibrating self- and physician ratings of depression on a common scale: calibrated projection and unidimensional calibration. While the latter has been already used to link different self-report measures, calibrated projection has been suggested for linking constructs that are similar, but not exactly the same.
Dutch patients referred to a mental health provider (n = 6,006), and a healthy reference group (n = 455) answered the BDI-II and were rated by a physician on the MADRS. We fitted a unidimensional and a twodimensional simple structure graded response models to the combined data, predicted BDI-II latent depression estimates using the MADRS and compared those to actual BDI-II depression estimates. Prediction error was assessed in 10-fold cross-validation and a validation sample.
Out of 31 items, 3 showed misfit in the unidimensional model and 5 in the twodimensional model. The correlation between latent BDI-II and latent MADRS depression estimates in the multidimensional model was .88. The cross-validation root mean squared error was slightly lower for projected calibration (mean = .58, sd = .03) compared to unidimensional calibration (.60, .03). In the validation sample, root mean squared error was .60 for both models. While error is large for individual estimates, prediction of BDI-II scores from the MADRS works well on a sample level.
These preliminary results indicate that linking self- and physician rated depression on a common scale is feasible. Computational more demanding projected calibration did not improve prediction compared to unidimensional model calibration.
Analog vs. Digital: Akzeptanz, Benutzerfreundlichkeit und Moduseffekte Tablet-basierten im Vergleich zu Paper-Pencil-basierten Depressionsassessments
PD Dr. Thomas Forkmann
» Details anzeigen
Autoren:
PD Dr. Thomas Forkmann
Dr. Maren Böcker
Dr. Heide Glaesmer
Dr. Lena Spangenberg
Obwohl die Akzeptanz computerbasierter psychologischer Diagnostik als hoch angesehen werden kann, ist bisher nicht überprüft, ob dies auch für adaptive computerbasierte Depressionstests gilt und ob der Erhebungsmodus (computerbasierte [PC] vs. Papier-und-Bleistift-Testung [PP]) einen Einfluss auf das Ergebnis hat. Diese Studie untersuchte den Einfluss des Erhebungsmodus auf die Ergebnisse PC- vs. PP-basierter Depressionsdiagnostik bei älteren Patienten.
Es nahmen 193 Hausarztpatienten teil (≥60 Jahre), die zwei Depressionstests (Patient Health Questionnaire 9 [PHQ-9] und Adaptives Depressionsscreening [A-DESC]) jeweils als PP- und PC-Version (Reihenfolge randomisiert), sowie Fragen zur Benutzerfreundlichkeit und Akzeptanz der Modi bearbeiteten. Die Daten wurden mittels Varianz- und Regressionsanalysen, Intraklassenkorrelationen, Reiceiver Operating Characteristics Curves und Analysen des Differential Item Functioning (DIF) ausgewertet.
Die Detektionsrate depressiver Episoden unterschied sich nicht zwischen den Modi. Für den PHQ-9 hatte der Erhebungsmodus keinen Einfluss auf das Assessmentergebnis. Das A-DESC zeigte auf Itemebene DIF für zwei Items, ohne Einfluss auf Skalenebene und Detektionsrate. Die Patienten bewerteten die Benutzerfreundlichkeit und Akzeptanz des PC-Modus als sehr gut und größtenteils besser geeignet, weniger anstrengend und weniger schwierig als den PP-Modus.
Es fand sich kein diagnostisch bedeutsamer Einfluss des Erhebungsmodus auf das Assessmentergebnis: Computerbasierte adaptive Depressionsdiagnostik ist auf Item- und Skalenebene valide, kommt zu vergleichbaren Ergebnissen wie PP-basierte Diagnostik und wird von Patienten akzeptiert und als benutzerfreundlich wahrgenommen.
Alle Wege führen nach Rom: Trifft dies auch für die Veränderungsmessung zu?
Dr. Maren Böcker
» Details anzeigen
Autoren:
Dr. Maren Böcker
Dr. Eftychia Volz-Sidiropoulou
Dr. Tine Nielsen
Dr. Guido Makransky
Dr. Karl Bang Christensen
Die Erfassung von Veränderungen mithilfe von Fragebögen spielt eine wichtige Rolle in der klinischen Praxis und Forschung. Ziel dieser Studie war es zu untersuchen, ob im Rahmen der Veränderungsmessung die verwendete Datenanalysemethode einen Einfluss auf die Studienergebnisse hat. Insbesondere war von Interesse, inwiefern die (Nicht-)Berücksichtigung potentieller Veränderungen von Itemschwierigkeiten über die Zeit (Zeit-DIF) und lokal-stochastischer Abhängigkeiten über die Zeit (LLD) die Studienergebnisse beeinflusst.
Bei 610 Patienten wurde die Depressivität bei Aufnahme und Entlassung mithilfe des BDIs erfasst. Veränderungen bzgl. der Depressivität wurden auf Gruppenebene (Effektstärke) und auf individueller Ebene (Reliable Change Index, Z-Index) über neun verschiedene statistische Ansätze miteinander verglichen. Der Ansatz der klassischen Testheorie sowie die vier ordinalen und die vier longitudinalen Rasch-Modell-Ansätze berücksichtigten bei der Analyse Zeit-DIF und LLD in einem unterschiedlichen Ausmaß.
Sowohl auf Gruppen- als auch auf individueller Auswertungsebene unterschieden sich die Ergebnisse zwischen den verwendeten Datenanalysemethoden deutlich. Die Behandlungseffekte wurden systematisch unterschätzt, wenn LLD bei der Auswertung nicht berücksichtigt wurde. Wurden Veränderungen der Itemschwierigkeiten über die Zeit nicht berücksichtigt, führte dies je nach Richtung des Zeit-DIFs entweder zur Über- oder Unterschätzung der Behandlungseffekte.
Zeit-DIF und LLD müssen bei der Veränderungsmessung dringend berücksichtigt warden, da es sonst zu massiven Fehleinschätzungen von Behandlungseffekten kommen kann. Die gängige Praxis der Veränderungsmessung sollte dringend überdacht werden!