Vergabe einer Projektarbeit: Analyse der Co-Occurrence von Datenelementen im DIZ

Ausgangssituation

Am Datenintegrationszentrum (DIZ) des Uniklinikums Erlangen (UKER) wurde ein großer Bestand klinischer Versorgungsdaten in ein einheitliches Format transformiert und kann dort für wissenschaftliche Auswertungen genutzt werden. Ein wesentlicher Teilschritt besteht hierbei in der Festlegung von Ein- & Ausschlusskriterien für die jeweils auszuwertende Kohorte von Patient:innen. Den Wissenschaftler:innen, die diese Kriterien festlegen, ist häufig die genaue Zusammensetzung des Datenbestands sowie Einflüsse der Dokumentationsprozesse auf die Vollständigkeit & Qualität der Daten nicht bekannt, so dass die Ein- und Ausschlusskriterien unerwartete Ergebnisse (z.B. keine Treffer, zu wenige Treffer) liefern. Es wäre sehr hilfreich, wenn bei der Zusammenstellung der Kriterien eine Auswertung zur Verfügung stehen würde, in der die Wissenschaftler:innen das gemeinsame Auftreten (Co-Occurrence) von Datenelementen bei Patient:innen sehen bei ihrer Auswahl berücksichtigen können. So könnten z.B. Kombinationen von Kriterien, die im Datensatz nicht oder nur sehr selten vorkommen, bei der Kohortendefinition von vornherein vermieden werden, sofern die Kohorte nicht bewusst eine sehr kleine, eng begrenzte Patient:innengruppe beschreiben soll.

Ein Ansatz für die Darstellung von Co-Occurrence in einem Datensatz wurde auf der AMIA-Tagung 2023 in New Orleans präsentiert:

 

Eine Publikation zum dort erwähnten KESER-Tool findet sich hier: https://pubmed.ncbi.nlm.nih.gov/34707226/

Problemstellung

  • P1: es existiert am UKER keine standardisierte Auswertung der Co-Occurrence von Datenelementen im DIZ, die für die Definition von Auswertungskohorten relevant sind
  • P2: es existiert am UKER keine Ablagestruktur für Co-Occurrence-Daten, die aus dem DIZ ermittelt wurden
  • P3: es existiert am UKER kein Werkzeug für die grafische Darstellung der Co-Occurrence

Ziele

  • Z1: Durchführung einer Auswertung der Co-Occurrence von Daten (auf Patientenebene) im FHIR-Repository des DIZ
  • Z2: Konzeption einer flexibel und performant nutzbaren Ablagestruktur für die ausgewerteten Co-Occurrence-Daten
  • Z3: Konzeption und beispielhafte Implementierung einer Visualisierung für die ausgewerteten und abgelegten Co-Occurrence-Daten

Aufgaben

  • A0: Einarbeitung & Literaturrecherche bereits publizierter Ansätze
  • A1: Implementierung von Abfragen gegen den FHIR-Server des DIZ zur Auswertung der Co-Occurrence der vom DIZ-Team vorgegebenen Datenelemente/Ausprägungen auf Basis der pseudonymen Patienten-IDs
    • A1.1: auf Basis eines synthetischen Datensatzes (Synthea)
    • A1.2: auf Basis von Echtdaten des DIZ
  • A2: Konzeption einer flexiblen & performanten Ablagestruktur für die erhobenen Co-Occurrence-Daten
    • A2.1: Design eines Datenmodells
    • A2.2: Auswahl einer geeigneten Technologieplattform (z.B. relationale Datenbank vs. Graph-Datenbank)
    • A2.3: Implementierung der Ablage in der gewählten Datenbank
  • A3: Konzeption und beispielhafte Implementierung einer Visualisierung für die ausgewerteten und abgelegten Co-Occurrence-Daten
    • A3.1: Auswahl eines graphischen Ansatzes für die Präsentation von Co-Occurrence-Daten (z.B. Matrix, Netzdiagramm)
    • A3.2: Auswahl einer geeigneten Technologieplattform (z.B. Python Vega-lite Package, R Shiny)
    • A3.3 beispielhafte Implementierung

Weitere Anforderungen

  • Implementierung in einer mit dem DIZ-Team abgestimmten Programmsprache und -Umgebung
  • Einhaltung der von DIZ-Team vorgegebenen Cleancode- und Dokumentationsvorgaben
  • Dokumentation zu den Systemvoraussetzungen, Deployment, Konfiguration und Ausführung der im Projekt entwickelten Programme
  • Veröffentlichung des Sourcecodes unter einer mit dem DIZ-Team abgestimmten Open Source-Lizenz

Voraussetzungen

  • seitens des DIZ-Teams zu erfüllen
    • Verfügbarkeit eines Zweitbetreuers/Zweitbetreuerin im DIZ-Team
    • Vorliegen der notwendigen Freigaben für die Durchführung des Projekts (Datenschutz, Ethik, Freigabe Datengeber und Use & Access Committee)
  • seitens des Studierenden zu erfüllen
    • Programmierkenntnisse & -Erfahrung in einer der vom DIZ-Team vorgegebenen Programmiersprachen (z.B. Python, Java)
    • hohe Motivation & Eigeninitiative
    • Umsetzung der Projektziele innerhalb der von 10 ECTS vorgegebenen Berbeitungszeit (250-300h

 

Kontakt:

Dr. Jonathan Mang

MIK des Universitätsklinikums Erlangen

jonathan.mang@uk-erlangen.de