Künstliche Intelligenz (KI) stellt seit einigen Jahren einen der Forschungsschwerpunkte in der Thoraxradiologie dar. Mithilfe von Algorithmen sollen in Zukunft Detektion, Quantifizierung, Charakterisierung und Verlaufsprädiktion von Lungenpathologien in der Computertomographie (CT) verbessert werden. In diesem Übersichtsartikel werden die neuesten Entwicklungen im Bereich der künstlichen Intelligenz in der CT der Lunge mit Fokus auf pulmonale Rundherde und interstitielle Lungenerkrankungen beleuchtet.

Interstitielle Lungenerkrankungen

Interstitielle Lungenerkrankungen beinhalten ein weites Spektrum möglicher Erkrankungen unterschiedlicher Prognose. Um eine optimale Behandlung zu ermöglichen, werden klinische, laborchemische, histologische und radiologische Informationen im Rahmen eines multidisziplinären Boards diskutiert [1]. Da eine Lungenbiopsie aufgrund des erhöhten Risikos in dieser Patientenpopulation oft nicht möglich und die Klinik besonders zu Beginn der Erkrankung unspezifisch ist, hat die Radiologie in Form der hochauflösenden CT in den letzten Jahrzehnten deutlich an Bedeutung gewonnen [2].

Primäre Aufgabe des Radiologen ist es, in der CT das Muster einer „gewöhnlichen interstitiellen Pneumonie“ („usual interstitial pneumonia“, UIP) zu erkennen oder auszuschließen (Abb. 1). Bei passender Klinik erlaubt die Detektion der UIP die Diagnose der idiopathischen Lungenfibrose („idiopathic pulmonary fibrosis“, IPF) ohne die Notwendigkeit einer Lungenbiopsie [3, 4]. Allerdings besteht selbst unter erfahrenen Thoraxradiologen nur eine mittelmäßige Übereinstimmung für die Erkennung des Honigwabenmusters („honeycombing“), welches zentraler Bestandteil der UIP ist [5]. Zur objektiven und zeitnahen Diagnostik interstitieller Lungenerkrankungen ist deshalb eine Unterstützung durch KI wünschenswert.

Abb. 1
figure 1

Axiale (a) und koronare (b) Rekonstruktionen einer hochauflösenden CT (HRCT) des Thorax bei einer 74-jährigen Patientin mit Ruhedyspnoe. CT-Muster einer gewöhnlichen interstitiellen Pneumonie („usual interstitial pneumonia“, UIP) mit basal betontem Honigwabenmuster („honeycombing“), Traktionsbronchiektasien sowie subpleuralen retiklären Verdichtungen. Die Erkennung des Honigwabenmusters unterliegt einer deutlichen Interobserver-Varaibilität

Bei der vorrangig verwendeten Form der KI, dem maschinellen Lernen, werden zwei grundlegende Ansätze unterschieden. Beim überwachten maschinellen Lernen stützt sich die Entwicklung eines Algorithmus auf durch Experten aufbereitete Daten, z. B. durch Radiologen im CT-Bild markierte Areale wie Tumor- oder Fibrosegewebe ([6]; Abb. 2). Dieser Prozess erlaubt einerseits das Erlernen spezifischer Muster auf Basis einer moderaten Menge von Trainingsdaten, ist jedoch aufgrund der zeitintensiven Markierung durch Radiologen mit spezifischer Expertise sehr ressourcenaufwändig und beinhaltet potenziell Fehler infolge falscher Markierungen etc. Auf der anderen Seite erfordert unüberwachtes Lernen keine vorausgehende Markierung pathologischer Areale. Der Algorithmus wird trainiert, selbstständig Merkmale in Daten zu identifizieren, aufgrund derer verschiedene Gruppen unterschieden werden können (Abb. 3). Dem Potenzial, bisher unbekannte – d. h., visuell schwer zu erfassende – Biomarker zu finden, steht die große, für unüberwachtes Lernen erforderliche Datenmenge gegenüber [7]. Maschinelles Lernen wird bereits mit vielversprechendem Erfolg in der CT von interstitiellen Lungenerkrankungen eingesetzt [8].

Abb. 2
figure 2

Überwachtes maschinelles Lernen benötigt Datensätze (A), welche eine bestimmte Pathologie beinhalten. Experten markieren in diesem Datensätzen Areale von Interesse bzw. teilen Fälle in Gruppen ein (krank und gesund, benigne und maligne, Krankheit A und Krankheit B, etc.) (B). Anhand dieser Annotationen wird ein Algorithmus trainiert (C), Merkmale in den Bilddaten zu identifizieren, durch welche Areale von Interesse bzw. die verschiedenen Gruppen unterschieden werden können. Mithilfe des entwickelten Algorithmus (Y) können nun die gelernten Merkmale dazu eingesetzt werden, in nicht annotierten Bilddaten (X) Areale von Interesse oder verschiedene Gruppen zu identifizieren (Z)

Abb. 3
figure 3

Unüberwachtes maschinelles Lernen benötigt sehr umfangreiche Datensätze (A), um die gesamte Variation einer Pathologie bzw. der Physiologie abzubilden. Ein Algorithmus (B) kann nun ohne vorausgehende Annotation trainiert werden, Gruppen in diesen Daten zu identifizieren (C). Auf diese Weise können potenziell neue Bildgebungsmerkmale für die Detektion und Charakterisierung von Lungenpathologien in der CT identifiziert werden

Maschinelles Lernen zur Unterstützung der Diagnose von Lungenfibrose

Deep Learning bezeichnet eine Form von maschinellem Lernen, bei welchem häufig neuronale Netzwerke eingesetzt werden [9]. Mithilfe eines solchen neuronalen Netzwerks zeigte Anthimopoulos’ Gruppe bereits 2016, dass es möglich ist, gesundes Lungengewebe sowie sechs verschiedene interstitielle Erkrankungsmuster (Milchglas, Retikulation, Mischung von Milchglas und Retikulation, kleine Rundherde, Konsolidierung und Honigwabenmuster) mit einer Genauigkeit von 85,5 % zu unterscheiden [10]. Im Jahr 2018 konnten Kims Gruppe die Genauigkeit ihres Algorithmus zur Unterscheidung sechs verschiedener interstitieller Erkrankungsmuster v. a. durch verbesserte Differenzierung ähnlicher Muster, wie Honigwabenmuster und Retikulation, auf bis zu 95,1 % steigern [11]. Für diese Ansätze sind jedoch durch Radiologen segmentierte Regionen mit spezifischen CT-Mustern notwendig und beinhalten dadurch potenziell untersucherabhängige Fehler. Mit vergleichsweise geringerer Genauigkeit (68,6 %), jedoch ohne die Notwendigkeit einer vorhergehenden, aufwändigen Segmentierung, gelang es Gao et al., Muster mithilfe eines neuronalen Netzwerks in vollständigen CT-Schnitten zu identifizieren [12]. Walsh et al. entwickelten als Erste einen Algorithmus, welcher, den ATS/ERS/JRS/ALAT-Leitlinien für die Diagnostik der IPF [13] entsprechend, die CT Muster „UIP“, „mögliche UIP“ und „inkonsistent mit UIP“ in wenigen Sekunden mit höherer Genauigkeit (73,3 %) unterscheidet als erfahrene Thoraxradiologen (70,7 %; [8]). Christie et al. konnten zeigen, dass ein computergestütztes System (INTACT-System) IPF mit einer ähnlichen Genauigkeit wie Radiologen in CT-Bildern erkennen kann [14]. Diese Studien zeigen das Potenzial von Deep-Learning-Algorithmen, Expertise in Bezug auf spezifische Fragestellungen (in diesem Fall UIP vs. keine UIP in der CT) mithilfe überschaubarer Ressourcen in Zukunft in Sekundenschnelle an Orten zu nutzen, wo diese bisher nicht verfügbar war.

Quantitative CT zur Bestimmung der Ausdehnung von Lungenfibrosen

Quantitative CT bezeichnet verschieden Methoden der Analyse von CT-Daten, welche auf Parametern beruhen, die der visuellen Beurteilung nicht zugänglich sind, wie z. B. Histogramm- und Texturanalysen [15]. Mithilfe der quantitativen Computertomographie kann das Ausmaß von Lungenveränderungen objektiviert und somit die Dynamik der Pathologien zwischen Untersuchungen zu verschiedenen Zeitpunkten beurteilt werden [16]. Ein Zugang zur Detektion und Quantifizierung von Lungenpathologien stellt die Analyse basierend auf Dichtewerten des Lungengewebes dar. Ein Lungenemphysem kann anhand niedriger Dichtewerte (z. B. −800 HU) automatisiert erfasst und gleichzeitig quantifiziert werden. Müller et al. konnten mithilfe dieser Methode schon 1988 eine Korrelation des Emphysemausmaßes, basierend einerseits auf quantitativer CT sowie auf Lungenpräparaten nach Lobektomie, zeigen [17]. Nach diesem Prinzip ist es ebenfalls möglich, anhand von erhöhten Lungendichtewerten interstitielle Lungenerkrankungen zu detektieren und die Dynamik zwischen Untersuchungen zu beurteilen. Ohkubo et al. konnten zeigen, dass in IPF-Patienten der Prozentanteil von normalem Lungengewebe, definiert als Gewebe mit −950 HU bis −701 HU, bzw. von Gewebe mit pathologisch erhöhter Dichte gegenüber dem Gesamtlungengewebe mit der forcierten Vitalkapazität korreliert und mittelschwere sowie schwere Fälle von IPF identifizieren kann [18]. Während die Densitometrie eine verlässliche Methode zur Analyse globaler Lungenveränderungen darstellt, ist sie jedoch weniger geeignet in Bezug auf subtile oder spezifische lokale Erkrankungsmuster, welche die Prognose beeinflussen können, wie Traktionsbronchiektasien oder lokalisiertes Honigwabenmuster. Aus diesen Gründen bringt die Densitometrie alleine keine verbesserte Prädiktion des Überlebens bei interstitiellen Lungenerkrankungen [19]. Maschinelles Lernen ermöglicht zunehmend die Identifikation von Texturmerkmalen für quantitative CT-Analysen, ein Zugang, welcher bereits 1997 für die Charakterisierung interstitieller Lungenerkrankungen exploriert wurde [20]. Die Kombination von Textur- und Dichtemerkmalen spiegelt die visuelle Beurteilung durch den Radiologen und führt zu einer verbesserten Prädiktion des Outcomes. In einer rezenten Studie von Kim et al. an Patienten mit idiopathischer Lungenfibrose war eine Verschlechterung des texturbasierten quantitativen Lungenfibrose-Scores nach 6 Monaten um zumindest 4 % mit einer visuell erfassbaren Verschlechterung nach 12 Monaten sowie mit einer Reduktion des progressionsfreien Überlebens assoziiert [21].

Eine auch kommerziell vertriebene Anwendung der quantitativen CT ist CALIPER (Computer Aided Lung Informatics for Pathology Evaluation and Rating), ein Algorithmus, der die Klassifikation von Lungengewebe in verschiedene Klassen basierend auf Dichte- und Texturmerkmalen auf Voxelebene erlaubt. Bei Patienten mit IPF kann die computergestützte CT-Auswertung die Schwere der Lungenveränderungen genauer schätzen als visuelle Scores, wobei das durch CALIPER gemessene Ausmaß besser mit Lungenfunktionsparametern korreliert [22]. Jacob et al. konnten des Weiteren zeigen, dass eine CALIPER-basierte CT-Auswertung eine genauere Prädiktion der Mortalität erlaubt als visuelle Scores [23]. Darüber hinaus konnte mit dem pulmonalen Gefäßvolumen ein neuer Parameter beschrieben werden, welcher einerseits visuell kaum quantifizierbar ist und die Volumenerhöhung andererseits mit Mortalität assoziiert ist. Dies ist ein Beispiel für das Potenzial quantitativer CT-Analysen, Merkmale in CT-Bildern zu identifizieren, die entweder der Beurteilung durch den Radiologen entgehen (bzw. für eine visuelle Quantifizierung zu sperrig sind) oder bisher nicht bekannt waren, aber die dennoch den diagnostischen bzw. prognostischen Wert des radiologischen Befunds steigern können.

Radiomics und maschinelles Lernen in der Abklärung von Rundherden

Detektion pulmonaler Rundherde

Vor allem seit der Einführung des Lungenkarzinom-Screenings in den USA und anderen Ländern steigt auch der Bedarf an Software zur Verbesserung der Detektion von Rundherden („computer-aided detection“, CAD), und entsprechende Lösungen sind bereits seit einigen Jahren im klinischen Einsatz. Die Sensitivität konventionell programmierter, nicht auf maschinellem Lernen basierter CAD-Software reicht von 54 bis 95 % [24]. Durch den Einsatz von modernen, auf maschinellem Lernen basierten Ansätzen konnte die Sensitivität von CAD-Software auf 83,1–96,6 % gesteigert werden [25]. Die Detektion von Lungenrundherden kann weiter verbessert werden, wenn zum Lernen neuronale Netzwerke (Convolutional Neural Network, ConvNet) herangezogen werden. Mit Hilfe von ConvNets lässt sich eine Genauigkeit von 82,2–97,6 % bei einer Sensitivität von 83,1–96,6 % und einer Spezifität von 71,4–98,2 % erreichen [26].

Klassifikation pulmonaler Rundherde

Die Risikoabschätzung von Rundherden und Raumforderungen war einer der ersten Ansätze bei denen versucht wurde, mittels Computerunterstützung die Abschätzung der Prognose zu verbessern. Bereits 1963 veröffentlichte Gwilym Lodwick eine Arbeit, in der er an Röntgenbildern des Thorax semantische Merkmale wie Größe, Lage, Begrenzung und Dichte von 543 Lungenkarzinomen durch numerische Werte beschrieb und mit Hilfe eines Computers die Prognose der Patienten abschätzte [27].

Mit Hilfe von CT-Bildern lassen sich Rundherde, außer durch semantische Merkmale, computerunterstützt auch durch komplexere Form- und Texturmerkmale erfassen. Rundherde können auf diese Weise durch mehr als hundert verschiedene Texturmerkmale beschrieben werden. Die automatische Erfassung und Analyse einer großen Zahl von quantitativen Bilddaten wird heute als Radiomics bezeichnet.

Ein typischer Radiomics-Arbeitsablauf wird dabei grob in drei Schritte unterteilt: die Bildakquisition und Segmentation, die Erfassung von Texturmerkmalen und die Prognoseabschätzung [28].

Bildakquisition und Segmentierung

Voraussetzung für Radiomics-Studien sind Bilddaten, die reproduzierbar analysiert werden können. Dementsprechend nehmen die Bildakquisition sowie die Rekonstruktion der Bilder eine zentrale Rolle ein, da Radiomics-Studien anfällig für variable Untersuchungsprotokolle sind.

Die zu analysierenden Rundherde müssen in einem ersten Schritt segmentiert werden. Da eine manuelle Segmentation nur beschränkt reproduzierbar ist, sollten Rundherde (semi)-automatisch segmentiert werden. Neue Ansätze der automatischen Segmentierung, die auf ConvNets beruhen, sind hier deutlich genauer als bisher verwendete Algorithmen [29].

Erfassen von Texturmerkmalen

Nach der Segmentierung werden mehrere hundert Texturmerkmale der Rundherde automatisch extrahiert. Diese Radiomics-Merkmale können grob in strukturelle Merkmale (z. B. Form und Volumen), Intensitätsmerkmale (graphische Repräsentation der Intensitätsverteilung), Texturmerkmale (räumliche Beziehung zwischen Voxeln) und Wavelet-Merkmale (komplexere Analyse der Frequenzbereiche) unterteilt werden [28]. Diese Gruppen von Merkmalen sind dabei unterschiedlich anfällig für verschiedene Untersuchungsprotokolle und der Bildrekonstruktion (z. B. Schichtdicke, Kernel).

Die große Zahl an verschiedenen Radiomics-Merkmalen muss in einem weiteren Schritt auf eine überschaubare Zahl reduziert werden. Zu diesem Zweck werden redundante, abhängige und instabile Merkmale ausgeschlossen.

Vorhersagemodelle – Klassifikation von Rundherden

Die Radiomics-Merkmale werden in einem letzten Schritt für die Entwicklung von Vorhersagemodellen herangezogen. Jedoch ist die Zahl der für die Entwicklung dieser Modelle herangezogenen Datenpunkte in der Regel relativ klein. Dieser Umstand, zusammen mit der ausgeprägten Heterogenität der Daten, führt zu einer schlechten Übertragbarkeit dieser Modelle auf Routinedaten [29].

Die Klassifikation von Lungenrundherden kann jedoch durch ConvNets deutlich verbessert werden. Erste Studien konnten zeigen, dass sich durch ConvNets vor allem die Zahl der falsch-positiven Resultate reduzieren lässt, was gerade im Lungenkrebs-Screening von wesentlicher Bedeutung ist [29].

Radiogenomics

Radiomics-Merkmale können neben der Klassifikation von Rundherden auch zur Vorhersage von bestimmten genetischen Mutationen in Lungenkarzinomen verwendet werden, so z. B. Mutationen des Epidermal-Growth-Factor-Rezeptors (EGFR) oder des Kirsten RAt Sarcoma virus Oncogens (K-RAS) bei nichtkleinzelligen Lungenkarzinomen [30, 31].

Herausforderungen und Ausblick

Ein effektiver Einsatz KI-basierter Bildanalysen setzt sowohl Expertise bezüglich der verwendeten Algorithmen als auch eine hohe Datenqualität voraus. Der Aufbau von Datensätzen, welche die große Bandbreite von Pathologien, aber auch von physiologischer Variation beinhalten und (z. B. histologisch) gesicherte Information bieten, sind mit einem erheblichen Ressourcenaufwand verbunden und in manchen Fällen nicht an einem einzelnen Zentrum realisierbar. Hinzu kommt die Variabilität aufgrund technischer Gegebenheiten, wie verschiedener CT-Scanner oder Datenrekonstruktionen, die für die Auswertung berücksichtigt werden muss.

Während manche dieser Probleme durch die Weiterentwicklung im Feld der Computerwissenschaften behoben werden können, kommt der Anpassung von Arbeitsabläufen und Protokollen eine erhebliche Bedeutung zu. Ein wichtiges Vorhaben wäre die Standardisierung von radiologischen Bilddaten auf nationaler und internationaler Ebene, um computerbasierten Zugriff und Auswertung zu vereinfachen bzw. überhaupt erst zu ermöglichen.

Den Herausforderungen gegenüber steht das Potenzial, durch eine qualitativ hochwertige automatisierte Bildauswertung Expertenwissen und visuell nichterfassbare, prädiktive Biomarker weithin verfügbar zu machen und den Radiologen darin zu unterstützen, den diagnostischen Wert der CT zu maximieren.

Fazit für die Praxis

  • Maschinelles Lernen verspricht eine verbesserte Abschätzung der Prognose von fibrosierenden Lungenerkrankungen und eine verbesserte Charakterisierung von pulmonalen Rundherden.

  • Für die klinische und weitverbreitete Integration der computerbasierten Analyse ist eine verbesserte Standardisierung der radiologischen Bilddaten nötig.