T2.4.2 Aufgabe oder Fragestellung
Es sollen für ausgewählte Seltene Erkrankungen in Diagnostischen Tests deskriptiv die Positiven Prädiktiven Werte (PPV) von ausgewählten Personenmerkmalen, insbesondere Laborwerten, berechnet werden. Darauf aufbauend soll mit Methoden des Maschinellen Lernens geprüft werden, ob für eine erweiterte Merkmalsgruppe ein höherer PPV erreicht werden kann. Als initiales Beispiel wird für die Familiäre Hypophosphatasie (Orpha:436), die Sensitivität, die Spezifität und der PPV von erniedrigter Alkalischer Phosphatase (AP; LOINC: …; Werte <%20 U/l) in Krankenhausdaten ermittelt. Als ergänzende Patientenmerkmale im Maschinellen Lernen werden Nebendiagnosen und die Merkmale des SE-Minimalbasisdatensatzes herangezogen.
T2.4.3 Stand des Wissens
Der lange Weg zur Diagnose stellt bei vielen Erkrankungen eine große Herausforderung dar. Es gibt kaum Erfahrungen mit Algorithmen, die ausgehend von Patientenmerkmalen und Merkmalskombinationen mit einem Mindestniveau von prädiktivem Wert (PPV) Hinweise auf potentielle SE-Diagnosen geben. Wegen der niedrigen Prävalenz der Seltenen Erkrankungen in der Bevölkerung, aber auch in Krankenhauspopulationen, besteht gemäß dem Satz von Bayes grundsätzlich das Risiko, dass hinweisende Merkmale (z.B. niedrige Alkalische Phosphatase) trotz hoher Sensitivität und hoher Spezifität für eine Erkrankung (z.B. Familiäre Hypophosphatasie) nicht zu einem angemessenen Positiven Prädiktivem Wert führen.
T2.4.4 Strukturen und Daten
Die Auswertungen sollen in den aufbereiteten Datenbeständen in den Datenintegrationszentren mehrerer Häuser erfolgen. Im ersten Schritt sollen Routinedaten ohne Ergänzungen die Grundlage bilden. Im zweiten Schritt sollen die Routinedaten von ausgewählten Fällen um den Minimalbasisdatensatz ergänzt werden.
T2.4.5 Methode
Im Mittelpunkt der zunchst deskriptiven Berechnungen steht die Vierfeldertafel des Diagnostischen Tests. Begonnen werden die Auswertungen mit einem Patientenkollektiv, für das die Alkalische Phosphatase (unselektiert alle Werte) ermittelt worden ist und in dem Personen mit FH von Personen ohne FH unterschieden werden können. Es wird erwartet, dass in der Gruppe der FH-Positiven eine hohe Sensitivität (> 90 %) und in der Gruppe der FH-Negativen eine hohe Spezifität (> 90 %) festgestellt wird. Wegen der niedrigen Prävalenz der FH – auch im Krankenhauskollektiv – wird gleichwohl in diesem induktiven Setting ein niedriger PPV erwartet. Diese Berechnungen werden ausgeweitet, indem zunächst „manuell“ ergänzende Merkmale aus Routinedaten und aus dem für eine Teilgruppe erhobenen SE-Minimalbasisdatensatz einbezogen werden. Es wird untersucht, ob für eine Teilgruppe höhere Prädiktive Werte erreicht werden können.
Nach der explorativen manuellen Phase sollen Methoden des Maschinellen Lernens zum Einsatz kommen, um Merkmale für die Prädiktion der Erkrankung FH in Krankenhausdaten zu identifizieren.
T2.4.6 Diskussion und Ausbauoptionen
Die Auswertungen sind exemplarisch grundlegend für die Ermittlung, inwieweit in Patientenakten von Personen mit Seltenen Erkrankungen (ohne Genotypisierung) Merkmale zu finden sind, die für die IT-Unterstützung bei der Diagnose geeignet erscheinen. Es wird ferner geprüft, welchen Effekt die Erweiterung der Routinedaten um den SE-Minimalbasisdatensatz entfaltet. Die Studien sollen auf weitere Diagnosen ausgedehnt werden, bei denen prinzipielle hohe Sensitivitäten und Spezifitäten von Laborwerten bekannt sind (z.B. Familiäre Hyperlipidämie).