KI-Software für die Mammographie erstmals extern geprüft

  • JAMA Oncology

  • von Michael Simm
  • Studien – kurz & knapp
Der Zugang zum gesamten Inhalt dieser Seite ist nur Angehörigen medizinischer Fachkreise vorbehalten. Der Zugang zum gesamten Inhalt dieser Seite ist nur Angehörigen medizinischer Fachkreise vorbehalten.

Kernbotschaften

3 kommerziell erhältliche Programme zur Auswertung von Mammographien wurden anonym untereinander und mit der Leistung von Radiologen verglichen. Der Spitzenwert für die Software betrug 81,9 % Sensitivität bei 96,6 Spezifität, und wurde nur noch von der Kombination aus KI und erstem Radiologen übertroffen.

Hintergrund

Eine der häufigsten Anwendungen für selbstlernende Computerprogramme, die nach den Prinzipien der Künstlichen Intelligenz (KI) konzipiert wurden, ist die Mustererkennung. Sie kann beispielsweise verdächtige Befunde aus der Mammographie aufspüren und könnte die Effektivität von Screeningprogrammen verbessern, wenn sie eine ähnlich gute oder bessere Leistung erreichen würde, wie erfahrene Radiologen. Hier wurden 3 solcher Programme extern evaluiert, und zwar sowohl als unabhängige Leser, wie auch in Kombination mit Radiologen.

Design

Retrospektive Fall-Kontroll-Studie mit 8805 Teilnehmerinnen des Populations-basierten Brustkrebs-Screening-Programmes, die zwischen 40 und 74 Jahre alt waren. Die zwischen 2008 und 2015 in einem akademischen Krankenhaus in Schweden angefertigten Mammographien waren jeweils 2 mal begutachtet worden. Den 739 Frauen, die mit Brustkrebs diagnostiziert wurden, standen 8066 gesunde Kontrollen gegenüber. Positive Befunde waren unmittelbar oder binnen 12 Monaten durch einen Pathologen verifiziert worden; eine zweijährige Nachverfolgungszeit ohne Krebsdiagnose wurde als negativ gewertet.

Ergebnisse

  • Unter den positiven Befunden waren 84 % durch das Screening entdeckt worden, und 16 % klinisch in den 12 Monaten danach.
  • Als ein Maß für die Qualität der 3 Programme wurde die Fläche unter der Grenzwertoptimierungskurve bestimmt. Sie betrug 0,956 für Programm 1; 0,922 für Programm 2; und 0,920 für Programm 3.
  • Die Sensitivität der 3 Programme betrug bei der als Referenz benutzten mittleren Spezifität des ersten begutachtenden Radiologen (96,6 %):
    • 81,9 % für Programm 1,
    • 67,0 % für Programm 2,
    • 67,4 % für Programm 3,
    • 77,4 % für den ersten Radiologen, und
    • 80,1 % für den zweiten Radiologen.
  • Die besten Werte erzielte mit einer Sensitivität von 88,6 % und einer Spezifität von 93 % die Kombination aus Programm 1 plus dem ersten Radiologen.

Klinische Bedeutung

Keines der 3 getesteten Programme, deren Namen auf Wunsch der Hersteller nicht genannt werden, wurde bisher von der US-Behörde FDA zur unabhängigen Begutachtung zugelassen. Dies wäre auch schwer zu rechtfertigen, da die besten Ergebnisse mit einer Kombination aus künstlicher und menschlicher Intelligenz bzw. Erfahrung erzielt wurden. Dass zumindest einer der Algorithmen gleichwertig oder besser war als die Radiologen ist bemerkenswert, zumal den Fachärzten sämtliche klinischen Informationen zur Verfügung standen, und die Software lediglich die Mammogramme auswerten konnte. Daher sei – so die Meinung der Autoren – nun die Zeit gekommen, um derartige Programme als unabhängige Begutachter in prospektiven Mammographie-Studien zu erproben.

Finanzierung: Bezirksrat Stockholm.