banner
Heim / Blog / Vergleichende Leistungen von Algorithmen für maschinelles Lernen in der Radiomics und Einflussfaktoren
Blog

Vergleichende Leistungen von Algorithmen für maschinelles Lernen in der Radiomics und Einflussfaktoren

Jun 26, 2023Jun 26, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 14069 (2023) Diesen Artikel zitieren

76 Zugriffe

1 Altmetrisch

Details zu den Metriken

Es gibt keine aktuellen Empfehlungen, welche Algorithmen des maschinellen Lernens (ML) in der Radiomics verwendet werden sollten. Ziel war es, die Leistungen von ML-Algorithmen in der Radiomics bei der Anwendung auf verschiedene klinische Fragestellungen zu vergleichen, um festzustellen, ob einige Strategien unabhängig von den Datensätzen die besten und stabilsten Leistungen erbringen können. Diese Studie vergleicht die Leistung von neun Merkmalsauswahlalgorithmen in Kombination mit vierzehn binären Klassifizierungsalgorithmen für zehn Datensätze. Diese Datensätze umfassten Radiomics-Merkmale und klinische Diagnosen für binäre klinische Klassifikationen, einschließlich COVID-19-Pneumonie oder Sarkopenie im CT, Kopf-Hals-, Orbital- oder Uterusläsionen im MRT. Für jeden Datensatz wurde eine Zugtestaufteilung erstellt. Jede der 126 (9 × 14) Kombinationen von Merkmalsauswahlalgorithmen und Klassifizierungsalgorithmen wurde mithilfe einer zehnfachen Kreuzvalidierung trainiert und optimiert, anschließend wurde die AUC berechnet. Dieser Vorgang wurde pro Datensatz dreimal wiederholt. Die besten Gesamtleistungen wurden mit JMI und JMIM als Merkmalsauswahlalgorithmen und Random Forest- und linearen Regressionsmodellen als Klassifizierungsalgorithmen erzielt. Die Wahl des Klassifizierungsalgorithmus war der Faktor, der den größten Teil der Leistungsvariation (10 % der Gesamtvarianz) erklärte. Die Wahl des Merkmalsauswahlalgorithmus erklärte nur 2 % der Variation, während die Zugtestaufteilung 9 % erklärte.

Radiomics können als quantitative Extraktion einer großen Anzahl von Merkmalen aus medizinischen Bildern zur Entdeckung neuer prädiktiver, diagnostischer oder prognostischer bildgebender Biomarker für Krankheiten definiert werden. Radiomics ermöglicht die nicht-invasive Extraktion von für das menschliche Auge unsichtbaren Informationen aus medizinischen Bildern mithilfe maschineller Lerntechniken und hat vielversprechende Ergebnisse gezeigt. Das Fehlen von Standards behindert jedoch den Einsatz von Radiomics-Biomarkern im klinischen Umfeld1.

Eine Radiomics-Studie ist in fünf Schritte gegliedert: Kohortenbildung und Bilderfassung, Segmentierung der Region of Interest (ROI), Merkmalsextraktion, Modellierung und externe Validierung anhand eines (idealerweise) unabhängigen Datensatzes2.

Die Modellierungsphase selbst basiert auf zwei unterschiedlichen Schritten: Merkmalsauswahl und Vorhersage. Für jeden Schritt stehen viele verschiedene Methoden und Algorithmen zur Verfügung, was zu einer Vielzahl möglicher Kombinationen führt. Bisher gibt es keine Strategie oder Empfehlung, welche Algorithmen bei der Durchführung von Radiomics bevorzugt verwendet werden sollten. Einige Teams haben sich daher dafür entschieden, bei der Durchführung von Studien gleichzeitig verschiedene Algorithmen zu testen, da davon ausgegangen wird, dass die Algorithmen, die die besten Ergebnisse lieferten, vom Szenario abhängen3. Das Testen einer großen Anzahl von Strategien bei der Durchführung von Radiomics an einem bestimmten Datensatz erhöht jedoch das Risiko falscher Entdeckungen. Daher kann es wünschenswert sein, eine kleinere Anzahl ausgewählter Modelle zu verwenden, um die Chancen auf aussagekräftige Ergebnisse zu erhöhen.

Auch wenn es einige Initiativen gibt, die Empfehlungen aussprechen, wie etwa den Radiomics Quality Score2 oder die Checklist for Artificial Intelligence in Medical Imaging (CLAIM)4, werden diese Empfehlungen nicht gut befolgt. Beispielsweise erreichten von den 69 von Roberts et al. untersuchten maschinellen Lernstudien zur Diagnose oder Prognose von Covid-19 nur 25 einen RQS über 6 von 36. Diese Ergebnisse werden durch den Review von Spadarella et al. gestützt6, der Folgendes ergab: ein mittlerer RQS von 21 % (7,5) für 44 Radiomics-Studien. Dies ist ein erhebliches Problem, da schlechte methodische Entscheidungen in verschiedenen Phasen der Studien zu verzerrten Ergebnissen führen können. Eine Verzerrung könnte bereits im Schritt der Kohortenkonstituierung eingeführt werden, wenn sich die Verteilung des Trainingsdatensatzes von der der Zielpopulation unterscheidet7. Es kann auch durch Operatorvariabilität während der Annotation des Datensatzes eingeführt werden. Joskowicz et al8 zeigten anhand von 3193 CT-Segmentierungen, dass die mittlere Volumenüberlappungsvariabilität zwischen zwei Beobachtern 37 % betrug. Diese Variabilität kann dazu führen, dass einige Radiomics-Merkmale nicht reproduzierbar sind. Außerdem könnten ML-Algorithmen überpassen oder eine schlecht eingeschätzte Leistung liefern. Die Experimente von Varoquaux et al.9 mit Neuroimaging-Datensätzen zeigen, dass eine Studienstichprobengröße von einhundert zu ± 10 % Fehlern in der Vorhersagegenauigkeit führt. Umgekehrt zeigte die Studie von Roelofs et al.10 zu Kaggle-Wettbewerben, dass eine Überanpassung durch ausreichend große Teststichproben verhindert werden kann. Roelofs betrachtete 10.000 Beispiele als Minimum zum Schutz vor Überanpassung.

Der Zweck dieser Studie bestand darin, sich auf die Modellierungsphase des Radiomics-Workflows zu konzentrieren, um zu bestimmen, ob und welche Kombination von Algorithmen unabhängig von den Datensätzen die besten und stabilsten Leistungen in Radiomics-Studien liefern kann. Dies würde dazu dienen, Benutzer bei der Wahl der Modellierungsstrategien bei der Durchführung von Radiomics zu unterstützen. Ein sekundäres Ziel bestand darin, die Hauptfaktoren zu bestimmen, die sich auf die Leistung der Modelle auswirken.

Um die Auswirkungen der Wahl der Methoden und Algorithmen auf die Leistung der Modelle abzuschätzen, haben wir zehn Datensätze aus verschiedenen Radiomics-Studien verwendet, die zuvor veröffentlicht oder eingereicht wurden11,12,13,14. Diese Studie folgte den Grundsätzen der Deklaration von Helsinki. Für alle Studien wurde eine ethische Genehmigung eingeholt. Die Studien, die Covid-Datensätze, Kopf-Hals-Datensätze, Sarkopenie-Datensätze und Uterusmassen-Datensätze umfassten, wurden vom Institutional Review Board Comité d'éthique de la recherche APHP.5 (zuvor CERAPHP.5, CERAPHP.Centre IRB00011928) genehmigt, das auf die Notwendigkeit verzichtete für eine schriftliche Einverständniserklärung. Die Studie, die den Orbitalläsionsdatensatz darstellte, wurde vom Comité d'Éthique pour la Recherche Hôpital Fondation Rothschild (IRB00012801) genehmigt und von allen Probanden wurde eine unterzeichnete Einverständniserklärung eingeholt.

Diese Datensätze enthielten Radiomics-Merkmale, die aus verschiedenen Bildgebungsmodalitäten extrahiert wurden und verschiedene diagnostische Fragen beantworteten. Alle Diagnosen waren binär. Die Datensätze umfassten zwischen 97 und 693 Patienten und zwischen 105 und 606 Radiomics-Merkmale pro Probe (Tabelle 1). Ein Datensatz umfasste fünf verschiedene segmentierte Regionen von Interesse (ROI) und zwei weitere verschiedene ROIs, die aus denselben Bildsätzen extrahiert wurden. Die anderen beinhalteten einen einzelnen ROI pro Bild.

Wir haben die folgenden sieben Algorithmen ausgewählt, die in Radiomics-Studien am häufigsten für die Merkmalsauswahl verwendet werden, basierend auf Filteransätzen. Diese Filter können in drei Kategorien eingeteilt werden: diejenigen aus dem statistischen Bereich, einschließlich des Pearson-Korrelationskoeffizienten (im Manuskript als „Pearson“ abgekürzt) und des Spearman-Korrelationskoeffizienten („Spearman“), diejenigen, die auf Zufallswäldern basieren, einschließlich Random Forest Variable Importance ( „RfVarImp“) und Random Forest Permutation Importance („RfPerImp“) sowie solche, die auf der Informationstheorie basieren, einschließlich Joint Mutual Information („JMI“), Joint Mutual Information Maximization („JMIM“) und Minimum-Redundancy-Maximum-Relevance ( „MRMR“).

Bei diesen Methoden werden Features in eine Rangfolge gebracht, und dann wird eine bestimmte Anzahl der besten Features für die Modellierung beibehalten. In dieser Studie wurden drei verschiedene Anzahlen ausgewählter Merkmale untersucht: 10, 20 und 30.

Um die Auswirkung des Merkmalsauswahlschritts abzuschätzen, wurden außerdem zwei nicht informative Algorithmen der Merkmalsauswahl als Benchmarks verwendet: keine Auswahl, die zur Auswahl aller Merkmale („Alle“) führte, und eine zufällige Auswahl einer bestimmten Anzahl von Merkmalen ("Zufällig").

Vierzehn maschinell lernende oder statistische binäre Klassifikatoren wurden getestet, darunter die am häufigsten in Radiomics-Studien verwendeten: K-Nearest Neighbors („KNN“); Fünf lineare Modelle, darunter lineare Regression („Lr“), drei bestrafte lineare Regression („Lasso Penalized Linear Regression“ („LrL1“), Ridge Penalized Linear Regression („LrL2“), Elastic-Net Linear Regression („LrElasticNet“) und Linear Diskriminanzanalyse („LDA“); Zufälliger Wald („RF“); AdaBoost und XGBoost; drei Support-Vektor-Klassifikatoren, darunter Linear Support Vector Classifier („Linear SVC“), Polynomial Support Vector Classifier („PolySVC“) und Radial Support Vector Classifier („RSVC“); und zwei Bayes'sche Klassifikatoren, darunter Binomial Naive Bayes („BNB“) und Gaussian Naive Bayes („GNB“).

Um die Leistung jeder der 126 Kombinationen der neun Merkmalsauswahlalgorithmen mit den vierzehn Klassifizierungsalgorithmen abzuschätzen, wurde jede Kombination mithilfe einer Rastersuche und einer verschachtelten Kreuzvalidierungsstrategie15 wie folgt trainiert.

Zunächst wurden die Datensätze zufällig in drei Falten aufgeteilt und nach dem diagnostischen Wert geschichtet, sodass jede Falte die gleiche diagnostische Verteilung wie die interessierende Population aufwies. Jede Falte wurde der Reihe nach als Testsatz verwendet, während die beiden verbleibenden Faltungen als Trainings- und Kreuzvalidierungssätze verwendet wurden.

Zehnfache Kreuzvalidierung und Rastersuche wurden am Trainingssatz verwendet, um die Hyperparameter so abzustimmen, dass die Fläche unter der Betriebskennlinie des Empfängers (AUC) maximiert wird. Anschließend wurden die besten Hyperparameter verwendet, um das Modell auf dem gesamten Trainingssatz zu trainieren.

Um eine Überanpassung zu berücksichtigen, wurde als Metrik die AUC verwendet, die durch den absoluten Wert der Differenz zwischen den AUCs des Testsatzes und des Zugsatzes bestraft wurde:

Dieses Verfahren wurde für jeden der zehn Datensätze wiederholt, für drei verschiedene Zugtestaufteilungen und die drei unterschiedlichen Anzahlen ausgewählter Features.

Jede Kombination von Algorithmen ergab 90 (3 × 3 × 10) AUCs, abgesehen von Kombinationen mit der Merkmalsauswahl „Alle“, die aufgrund der fehlenden Anzahl der Merkmalsauswahlen, der wiederholten Merkmalsauswahl „Zufällig“, nur mit 30 AUCs verbunden waren dreimal, was 270 AUCs ergab. Somit wurden insgesamt 13.020 AUCs berechnet.

Die Multifaktor-Analyse der Varianz (ANOVA) wurde verwendet, um die Variabilität der AUC im Zusammenhang mit den folgenden Faktoren zu quantifizieren: Datensatz, Merkmalsauswahlalgorithmus, Klassifikatoralgorithmus, Anzahl der Merkmale, Zugtestaufteilung, Bildgebungsmodalität und Interaktionen zwischen Klassifikator/Datensatz. Klassifikator/Merkmalsauswahl, Datensatz/Merkmalsauswahl und Klassifikator/Merkmalsauswahl/Datensatz. Der Anteil der erklärten Varianz wurde verwendet, um die Auswirkungen jedes Faktors/jeder Wechselwirkung zu quantifizieren. Die Ergebnisse werden als Häufigkeit (Anteil (%)) oder Bereich (Minimalwert; Maximalwert) angegeben.

Für jede Merkmalsauswahl, jeden Klassifikator, jeden Datensatz und jede Train-Test-Aufteilung, mittlere AUC, 1. Quartil (Q1); und das 3. Quartil (Q3) wurden berechnet. Zur Visualisierung der Ergebnisse wurden Boxplots verwendet.

Darüber hinaus wurde für Merkmalsauswahlalgorithmen und Klassifikatoren ein Friedman-Test16 gefolgt von paarweisen Post-hoc-Nemenyi-Friedman-Tests verwendet, um die mittleren AUCs der Algorithmen zu vergleichen.

Zur Veranschaulichung der Ergebnisse für jede Kombination aus Merkmalsauswahl und Klassifikator wurden Heatmaps erstellt.

Alle Algorithmen wurden in Python (Version 3.8.8) implementiert. Pearson- und Spearman-Korrelationen wurden mit Pandas (1.2.4), dem XGBoost-Algorithmus mit xgboost (1.5) und den JMI-, JMIM- und MRMR-Algorithmen mit MIFS berechnet. Alle anderen Algorithmen wurden mithilfe der scikit-learn-Bibliothek (Version 0.24.1) implementiert. Die Daten wurden durch Zentrierung und Skalierung mit scikit-learn StandardScaler standardisiert.

Bei Berücksichtigung aller möglichen Kombinationen lagen die AUCs zwischen 0,20 und 0,91. Vierhundertfünfunddreißig (3,4 %) AUCs lagen unter 0,5.

Abbildung 1 zeigt den Anteil der Leistungsschwankungen, die durch experimentelle Faktoren erklärt werden. Bei der Durchführung der Multifaktor-ANOVA auf den AUCs erklärten die identifizierten Faktoren und ihre Wechselwirkungen 55 % der Variation in der Modellierungsleistung. Unter diesen 55 % war der Datensatz selbst (17 % der Variationen), dann der Klassifikator (10 %) und die Zugtestaufteilung (9 %) der wichtigste Faktor. Der Merkmalsauswahlalgorithmus erklärte nur 2 % der Variationen. Sowohl die Anzahl der ausgewählten Merkmale als auch die Bildgebungsmodalität (CT vs. MRT) erklärten weniger als 1 % der Leistungsunterschiede. Interaktionen zwischen Faktoren erklärten die restlichen 17 %.

Anteil der Leistungsschwankung, erklärt durch Datensatz und Modelleigenschaft. Es verblieben 45 % der Variation, die nicht durch die dargestellten Faktoren erklärt werden konnte. Clf: Klassifikator, FS: Merkmalsauswahl, „:“ repräsentiert die Interaktion zwischen Faktoren.

Tabelle 2 zeigt die mittlere [Q1;Q3] AUC für jeden der Merkmalsauswahlalgorithmen, unabhängig vom verwendeten Klassifikator. Die Unterschiede in den mittleren AUCs waren zwischen allen möglichen Kombinationen gering und lagen zwischen 0,68 und 0,70, waren jedoch statistisch signifikant unterschiedlich (P-Wert < 1e−32). Paarweise Vergleiche sind in SI-Tabelle 1 dargestellt.

Auf der Informationstheorie basierende Merkmalsauswahlalgorithmen wie JMI und JMIM lieferten die besten Gesamtleistungen, wie aus ihrer höheren mittleren AUC von jeweils 0,70 und ihrem relativ hohen Q1 hervorgeht, was durchweg gute Leistungen gewährleistete. Alle Feature-Auswahlalgorithmen schnitten besser ab als die „zufällige“ Feature-Auswahl.

Tabelle 3 zeigt die mittlere [Q1;Q3] AUC für jeden der Klassifikationsalgorithmen, unabhängig von der verwendeten Merkmalsauswahl. Der Unterschied zwischen der mittleren AUC der Klassifikationsalgorithmen war signifikant (P-Wert < 1e−32). Paarweise Vergleiche sind in SI-Tabelle 2 dargestellt.

In unseren Datensätzen lieferten lineare Klassifikationsalgorithmen (Ridge Penalized Linear Regression, Elastic-net Linear Regression, Linear Discriminant Analysis) und Random Forest durchweg bessere Leistungen (mittlere AUCs größer als 0,70). Einige Algorithmen wie KNN, AdaBoost oder XGBoost lieferten insgesamt eine geringere Leistung, obwohl sie bei einigen Kombinationen aus Datensatz/Anzahl der Features/Train-Test-Aufteilung gelegentlich sehr hohe Leistungen erzielen konnten.

Abbildung 2 zeigt die Heatmap der mittleren AUC für alle Merkmalsauswahlalgorithmen und Klassifikatoren. Die mittlere AUC lag zwischen 0,57 und 0,74. Mit Ausnahme der Kombination None-lrElasticNet waren die besten Algorithmenkombinationen diejenigen, die die besten Merkmalsauswahlalgorithmen (JMI, JMIM, MRMR) und die besten Klassifikatoralgorithmen (bestrafte lineare Regressionen und Random Forest) verwendeten.

Wärmekarte des Medians [Q1; F3] AUC-Werte für alle 9 × 14 Kombinationen von Merkmalsauswahlalgorithmen und Klassifikatoren. Alle: Keine Funktionsauswahl (nicht informativ); Zufällig: Zufällige Feature-Auswahl (nicht informativ); Pearson: Pearson-Korrelationskoeffizient; Spearman: Spearman-Korrelationskoeffizient; RfVarImp: Bedeutung zufälliger Waldvariablen; RfPermImp: Bedeutung der zufälligen Waldpermutation; JMI: Gemeinsame gegenseitige Information; JMIM: Gemeinsame gegenseitige Informationsmaximierung; MRMR: Minimum-Redundanz-Maximum-Relevanz; KNN:K-Nächste Nachbarn; Lr: Lineare Regression; LrL1: Lasso-bestrafte lineare Regression; LrL2: Ridge bestrafte lineare Regression; LrElasticNet: Lineare Elastic-Net-Regression; LDA: Lineare Diskriminanzanalyse; RF: Zufälliger Wald; AdaBoost: AdaBoost; XGBoost : XGBoost; Linearer SVC: Linearer Support-Vektor-Klassifikator; Poly SVC: Polynomial Support Vector Classifier; RBFSVC: Radial Support Vector Classifier; BNB: Binomial Naive Bayes; GNB: Gaußscher naiver Bayes.

Abbildung 3 zeigt Boxplots von AUCs für die verschiedenen Datensätze, Merkmalsauswahl und Klassifizierungsalgorithmen. Der Covid-Schweregrad-Datensatz lieferte kleinere Verteilungen der AUCs.

Boxplot der AUCs nach (a) Datensatz, (b) Merkmalsauswahlalgorithmus und (c) Klassifikator. Alle: Nein – Auswahl von Funktionen (nicht informativ); Zufällig: Zufällige Auswahl von Features (nicht informativ); Pearson: Pearson-Korrelationskoeffizient; Spearman: Spearman-Korrelationskoeffizient; RfVarImp: Bedeutung zufälliger Waldvariablen; RfPermImp: Bedeutung der zufälligen Waldpermutation; JMI: Gemeinsame gegenseitige Information; JMIM: Gemeinsame gegenseitige Informationsmaximierung; MRMR: Minimum-Redundanz-Maximum-Relevanz; KNN:K-Nächste Nachbarn; Lr: Lineare Regression; LrL1: Lasso-bestrafte lineare Regression; LrL2: Ridge bestrafte lineare Regression; LrElasticNet: Lineare Elastic-Net-Regression; LDA: Lineare Diskriminanzanalyse; RF: Zufälliger Wald; AdaBoost: AdaBoost; XGBoost : XGBoost; Linearer SVC: Linearer Support-Vektor-Klassifikator; Poly SVC: Polynomial Support Vector Classifier; RBFSVC: Radial Support Vector Classifier; BNB: Binomial Naive Bayes; GNB: Gaußscher naiver Bayes.

Abbildung 4 zeigt als Beispiel die Boxplots der AUC für die verschiedenen Train-Test-Split-Trennungen des linken Lungenläsionsdatensatzes. Boxplots für die anderen Datensätze sind in SI Abb. 1–9 dargestellt. Der maximale Unterschied in der mittleren AUC zwischen der Zug- und der Testleistung betrug 0,11 im Kopf-Hals-Datensatz, während der minimale Unterschied im ROI der rechten Lunge aus dem COVID-Datensatz 0,00 betrug.

Boxplot der AUCs für die verschiedenen Zugtest-Splits des Datensatzes „Linke Lunge“. Der jeweilige Prozentsatz der hohen Schweregradklasse der COVID-Erkrankung in den drei Testdatensätzen betrug 82, 78 und 80 %.

In dieser Studie haben wir Kombinationen von Merkmalsauswahlalgorithmen und Klassifikatoren in zehn verschiedenen Datensätzen verglichen. Erstens war der Faktor, der die Leistungsschwankungen am stärksten beeinflusste, der Datensatz selbst, der wahrscheinlich die tatsächlich in den Daten enthaltene Informationsmenge widerspiegelt. Zweitens schnitten auf der Informationstheorie basierende Merkmalsauswahlalgorithmen für jeden gegebenen Datensatz durchweg besser ab als andere Algorithmen. Die Wahl des Merkmalsauswahlalgorithmus hatte jedoch kaum Auswirkungen auf die Leistung bei der Analyse von Variationen mithilfe der ANOVA. Drittens war für einen bestimmten Datensatz die Wahl der Klassifikatoren der Faktor mit der größten Auswirkung. Einige Klassifikatoren schnitten im Allgemeinen besser ab (Random Forest, lineare Diskriminanzanalyse und Ridge Penalized Linear Regression), es gab jedoch keinen Algorithmus, der durchweg die beste Leistung lieferte. Schließlich erklärte die Zugtestaufteilung 9 % der Leistungsschwankungen.

Unsere Studie kommt zu ähnlichen Ergebnissen wie frühere Veröffentlichungen. Zwei Hauptstudien untersuchten den Einfluss der Algorithmuswahl auf die Leistung in der Radiomics, Parmar et al. zu 464 Lungenkrebs CT8 und Sun et al. auf 285 Gehirn-MRT bei Glioblastom17. In Parmars Studie war der Klassifikator, ähnlich wie in unserer Studie, die wichtigste Quelle der Leistungsvariabilität. Random Forest lieferte in Parmars Studie das beste Ergebnis, während LDA in Suns Studie das beste Ergebnis lieferte, was ebenfalls mit unseren Ergebnissen übereinstimmt. Auch Studien in anderen Forschungsfeldern liefern Erkenntnisse für die Radiomics. Die Studie von Wang und Liu zur Mikrobiologie verwendete 29 Datensätze, die zwischen 29 und 512 Beobachtungen umfassen18. In dieser Studie lieferte SVC schlechtere Ergebnisse als Elastic-net, Random Forest oder XGBoost. Diese Ergebnisse könnten durch die Ähnlichkeit zwischen Radiomics- und Mikrobiologie-Datensätzen hinsichtlich der Anzahl der Beobachtungen und der Anzahl der verfügbaren Merkmale erklärt werden.

Die Merkmalsauswahl schien in unserer Studie im Vergleich zu der von Parmar einen geringeren Einfluss auf die Leistung zu haben, aber die Ergebnisse der ANOVA zeigten, dass es eine Wechselwirkung zwischen Merkmalsauswahlalgorithmen und Datensatz gab, was darauf hindeutet, dass einige Merkmalsauswahlalgorithmen an einige Datensätze besser angepasst zu sein schienen. Dies könnte erklären, warum die besten Merkmalsauswahlalgorithmen in den verschiedenen Studien unterschiedlich waren, da sie auf einzelne Datensätze angewendet wurden17,19. Auf Informationstheorie basierende Algorithmen können eine bessere Leistung erbringen, da sie die potenzielle Redundanz zwischen Merkmalen sowie die durch das Merkmal bereitgestellten Informationen berücksichtigen. In Bezug auf die Anzahl der ausgewählten Funktionen stimmen Parmar19 und Sun17 mit unseren Ergebnissen überein und zeigen, dass sie nur geringe Auswirkungen auf die Leistung haben.

Diese Studie beleuchtet einige Faktoren, die die Variabilität der Leistungen in der Radiomics erklären. Datensätze enthalten in der Regel eine weitaus größere Anzahl von Merkmalen als unabhängige Beobachtungen, und selbst bei Dimensionsreduzierung führt dies zu überangepassten Modellen und schlechter Generalisierbarkeit. Radiomics-Modelle werden häufig mithilfe einer Train-Test-Strategie evaluiert. Radiomics-Studien, einschließlich unserer eigenen, zeigen jedoch, dass unterschiedliche Zugtestaufteilungen zu Leistungsunterschieden führen können. An et al. untersuchte die Auswirkung der Train-Test-Strategie auf 258 Meningeom-MRTs und zeigte, dass die Verwendung einer einzelnen zufälligen Train-Test-Aufteilung zu einem Leistungsverlust (Generalisierungslücke) führte, wenn sie auf einen Testdatensatz angewendet wurde, insbesondere bei kleinen Datensätzen und bei der Arbeit an einem schwierige Aufgabe20. Studien zu Gaußschen Daten haben gezeigt, dass eine verschachtelte Kreuzvalidierung eine bessere Möglichkeit zur Bewertung der Modellleistung darstellt. Varma und Simon zeigten, dass die Kreuzvalidierung den wahren Fehler eines Modells in einer von fünf Simulationen um mehr als 20 % unterschätzte21. Vabalas et al. untersuchte außerdem fünf Validierungsansätze für simulierte Gauß-Daten. Sie zeigten, dass eine Kreuzvalidierung zu einer Überanpassung führen kann, indem die Daten sowohl in der Trainings- als auch in der Validierungsfalte wiederverwendet werden, während eine verschachtelte Kreuzvalidierung zu einer geringeren Verzerrung führt. Die Auswirkung der Zugtest-Aufteilung ist wahrscheinlich auf die relativ geringe Anzahl von Proben in jedem Datensatz im Vergleich zur biologischen Variabilität zurückzuführen. Dies führt dazu, dass die Leistung stark von der Verteilung der Daten im Training im Vergleich zum Testsatz abhängt und erklärt möglicherweise teilweise die mangelnde Generalisierbarkeit der Ergebnisse, die in veröffentlichten Radiomics-Studien beobachtet werden können. Um die Auswirkungen der Zug-Test-Aufteilung zu kompensieren, könnte eine verschachtelte Kreuzvalidierung verwendet werden. Diese Strategie wird in Radiomics-Studien selten verwendet und wir glauben, dass sie die Leistung entdeckter Signaturen verbessern könnte, wenn sie auf einen externen Validierungsdatensatz angewendet wird.

Bei der Durchführung von Radiomics-Studien in einem bestimmten Datensatz besteht eine gängige Strategie darin, mehrere Kombinationen von Merkmalsauswahlalgorithmen und Klassifikatoren gleichzeitig zu testen, um diejenige auszuwählen, die die Leistung optimiert. Tatsächlich ist eine große Anzahl von Algorithmen und Klassifikatoren zur Merkmalsauswahl verfügbar. Allerdings kann die Vervielfachung der Anzahl der getesteten Modelle zu einem Anstieg der Rate an Überanpassungen und falschen Entdeckungen führen, ähnlich wie bei den in der Genomik beobachteten falschen Entdeckungsraten. Basierend auf unseren Ergebnissen könnte es effizienter sein, eine geringere Anzahl von Kombinationen auszuwählen, um ein besseres Gleichgewicht zwischen Optimierung und Überanpassung zu erzielen. Dies würde auch die Rechenzeit reduzieren. Ähnlich wie bei anderen wissenschaftlichen Benchmarks scheinen Algorithmen mit denselben zugrunde liegenden Ansätzen ähnliche Ergebnisse zu liefern22. Bei der Bestimmung, welche kleinere Teilmenge von Modellen in einer Radiomics-Studie getestet werden sollte, könnte eine Strategie daher darin bestehen, Klassifikatoren aus verschiedenen Familien auszuwählen. Die Gesamtzahl der Algorithmen, die in einem einzelnen Datensatz getestet werden sollten, ist jedoch nicht definiert und kann auch von der verfügbaren Rechenzeit und der Datensatzgröße abhängen. Die Bestimmung der richtigen Anzahl von Algorithmen war nicht Gegenstand dieser Studie, sollte aber weiter untersucht werden.

Es gibt einige Grenzen unserer Studie. Während sich die meisten Radiomics-Studien auf einen einzelnen Datensatz konzentrieren, analysierte unsere Arbeit zehn Datensätze aus zuvor veröffentlichten Radiomics-Studien, was die Generalisierbarkeit unserer Ergebnisse stärkte. Die Merkmale der Datensätze waren jedoch ähnlich, insbesondere hinsichtlich der Anzahl der Beobachtungen und der Prävalenz. Daher konnte der Einfluss der Datensatzmerkmale in dieser Studie nicht vollständig untersucht werden. Obwohl es nicht möglich war, den genauen Anteil der durch Datensatzmerkmale erklärten Variation zu berechnen, gehen wir davon aus, dass er teilweise zu den erklärten 17 % der Modellierungsleistungsvariation und möglicherweise zu einem Teil der verbleibenden ungeklärten 45 %-Variation beigetragen hat. Obwohl wir die Auswirkung der Zug-Test-Aufteilung auf die Leistung untersucht haben, wurden nur wenige Iterationen durchgeführt, um die Auswirkung der Zufälligkeit während der Zug-Test-Aufteilung abzuschätzen, was uns daran hinderte, die Auswirkung des Zufalls in diesem Schritt genau abzuschätzen. Schließlich könnte, wie bei jeder Varianzanalyse, ein Teil der unerklärten Variation in der Modellierungsleistung mit nicht beobachteten, möglicherweise nicht beobachtbaren Merkmalen zusammenhängen. Die Identifizierung einiger der unbeobachteten Parameter in unserer Studie wäre ein nützlicher Schritt zur Erhöhung des erklärten Anteils der Variation in der Modellierungsleistung.

Eine weitere Einschränkung der vorliegenden Studie war die relativ geringe Anzahl getesteter Algorithmen. Es wurden nur sieben Merkmalsauswahlalgorithmen und vierzehn Klassifikatoren untersucht, was nur einen kleinen Teil der großen Anzahl verfügbarer Algorithmen darstellt. Obwohl lineare Methoden eine gute Leistung erbrachten, können nichtlineare Merkmalstransformation23 oder Algorithmen zur Auswahl von Wrapper-Merkmalen eine bessere Leistung aufweisen. Die Implementierung ging jedoch über den Rahmen dieser Studie hinaus, die sich auf die Auswahl von Filtermerkmalen konzentrieren sollte, die am häufigsten in Radiomics-Studien verwendet werden. Schließlich wurden neuronale Netze nicht verwendet, teilweise aufgrund der kleinen Datensätze.

Bei der Durchführung von Radiomics können die Modellleistungen stark variieren und diese Schwankungen hängen mit mehreren Hauptfaktoren zusammen, darunter dem Datensatz selbst, der Art des Klassifikators und der Aufteilung zwischen Trainings- und Testteilmengen. Wir empfehlen, eine kleine Anzahl von Kombinationen aus Merkmalsauswahl und Klassifikator zu testen, um falsche Entdeckungen aufgrund mehrfacher Tests und Überanpassung zu vermeiden. Auf der Informationstheorie basierende Merkmalsauswahlalgorithmen einerseits und bestrafte lineare Modelle und Zufallswälder als Klassifikatoren andererseits schienen über alle Datensätze hinweg die konsistenteste Leistung zu erbringen.

Datensätze sind nicht öffentlich verfügbar. Der Datenzugriff unterliegt den spezifischen ethischen Genehmigungen jedes Datensatzes für die Zweitverwendung und kann dem entsprechenden Autor vorgelegt werden.

Miles, K. Radiomics für personalisierte Medizin: der lange Weg vor uns. Br. J. Cancer 122, 929–930 (2020).

Artikel PubMed PubMed Central Google Scholar

Lambin, P. et al. Radiomics: die Brücke zwischen medizinischer Bildgebung und personalisierter Medizin. Nat. Rev. Clin. Onkol. 14, 749–762 (2017).

Artikel PubMed Google Scholar

Zhang, Y.-P. et al. Künstliche Intelligenz-gesteuerte Radiomics-Studie bei Krebs: Die Rolle von Feature Engineering und Modellierung. Militärmed. Res. 10, 22 (2023).

Artikel Google Scholar

Mongan, J., Moy, L. & Kahn, CE Checkliste für künstliche Intelligenz in der medizinischen Bildgebung (CLAIM): Ein Leitfaden für Autoren und Gutachter. Radiol. Artif. Intel. 2, e200029 (2020).

Artikel PubMed PubMed Central Google Scholar

Roberts, M. et al. Häufige Fallstricke und Empfehlungen für den Einsatz von maschinellem Lernen zur Erkennung und Prognose von COVID-19 mithilfe von Röntgenaufnahmen des Brustkorbs und CT-Scans. Nat. Mach. Intel. 3, 199–217 (2021).

Artikel Google Scholar

Spadarella, G. et al. Systematische Überprüfung der Radiomics-Qualitätsbewertungsanwendungen: Eine Initiative der EuSoMII Radiomics Auditing Group. EUR. Radiol. 33, 1884–1894 (2022).

Artikel PubMed PubMed Central Google Scholar

Varoquaux, G. & Cheplygina, V. Maschinelles Lernen für die medizinische Bildgebung: methodische Fehler und Empfehlungen für die Zukunft. NPJ-Ziffer. Med. 5, 48 (2022).

Artikel PubMed PubMed Central Google Scholar

Joskowicz, L., Cohen, D., Caplan, N. & Sosna, J. Inter-Beobachter-Variabilität der manuellen Konturdarstellung von Strukturen in der CT. EUR. Radiol. 29, 1391–1399 (2019).

Artikel PubMed Google Scholar

Varoquaux, G. Kreuzvalidierungsfehler: Kleine Stichprobengrößen führen zu großen Fehlerbalken. Neuroimage 180, 68–77 (2018).

Artikel PubMed Google Scholar

Roelofs, R. et al. Eine Metaanalyse der Überanpassung beim maschinellen Lernen. Neuronale Informationsverarbeitungssysteme (2019).

Chassagnon, G. et al. KI-gesteuerte Quantifizierung, Stadieneinteilung und Ergebnisvorhersage von COVID-19-Pneumonie. Med. Bild Anal. 67, 101860 (2021).

Artikel PubMed Google Scholar

Duron, L. et al. Eine Magnetresonanztomographie-Radiomics-Signatur zur Unterscheidung gutartiger von bösartigen Augenhöhlenläsionen. Investieren. Radiol. 56, 173–180 (2021).

Artikel PubMed Google Scholar

Roblot, V. et al. Validierung eines Deep-Learning-Segmentierungsalgorithmus zur Quantifizierung des Skelettmuskelindex und der Sarkopenie bei metastasiertem Nierenkarzinom. EUR. Radiol. 32, 4728–4737 (2022).

Artikel CAS PubMed Google Scholar

Abdel WC. et al. Diagnosealgorithmus zur Unterscheidung gutartiger atypischer Leiomyome von bösartigen Uterussarkomen mittels diffusionsgewichteter MRT. Radiologie 297, 361–371 (2020).

Park, JE, Park, SY, Kim, HJ & Kim, HS Reproduzierbarkeit und Generalisierbarkeit in der Radiomics-Modellierung: mögliche Strategien aus radiologischer und statistischer Sicht. Koreanischer J. Radiol. 20, 1124 (2019).

Artikel PubMed PubMed Central Google Scholar

Friedman, M. Die Verwendung von Rängen, um die Annahme der Normalität zu vermeiden, die in der Varianzanalyse impliziert ist. Marmelade. Stat. Assoc. 32, 675–701 (1937).

Artikel MATH Google Scholar

Sun, P., Wang, D., Mok, VC & Shi, L. Vergleich von Merkmalsauswahlmethoden und Klassifikatoren für maschinelles Lernen für die Radiomics-Analyse bei der Gliombewertung. IEEE Access 7, 102010–102020 (2019).

Artikel Google Scholar

Wang, X.-W. & Liu, Y.-Y. Vergleichende Untersuchung von Klassifikatoren für menschliche Mikrobiomdaten. Med. Mikroecol. 4, 100013 (2020).

Artikel PubMed PubMed Central Google Scholar

Parmar, C., Grossmann, P., Bussink, J., Lambin, P. & Aerts, HJWL Methoden des maschinellen Lernens für quantitative radiomische Biomarker. Wissenschaft. Rep. 5, 13087 (2015).

Artikel ADS CAS PubMed PubMed Central Google Scholar

An, C. et al. Radiomics-Studie zum maschinellen Lernen mit einer kleinen Stichprobengröße: Die Aufteilung einzelner zufälliger Trainingstestsätze kann zu unzuverlässigen Ergebnissen führen. PLoS ONE 16, e0256152 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Varma, S. & Simon, R. Bias bei der Fehlerschätzung bei Verwendung der Kreuzvalidierung zur Modellauswahl. BMC Bioinf. 7, 91 (2006).

Artikel Google Scholar

Olson, RS, La Cava, W., Orzechowski, P., Urbanowicz, RJ & Moore, JH PMLB: eine große Benchmark-Suite für die Bewertung und den Vergleich maschinellen Lernens. BioData Mining 10, 36 (2017).

Artikel PubMed PubMed Central Google Scholar

Malakar, P., Balaprakash, P., Vishwanath, V., Morozov, V. & Kumaran, K. Benchmarking maschineller Lernmethoden für die Leistungsmodellierung wissenschaftlicher Anwendungen. Im Jahr 2018 IEEE/ACM Performance Modeling, Benchmarking and Simulation of High Performance Computer Systems (PMBS) 33–44 (IEEE, 2018). doi:https://doi.org/10.1109/PMBS.2018.8641686.

Referenzen herunterladen

Diese Arbeit wurde teilweise von der französischen Regierung unter der Leitung der Agence Nationale de la Recherche im Rahmen des Programms „Investissements d'avenir“, Referenz ANR19-P3IA-0001 (PRAIRIE 3IA Institute) und des Fonds Unique Interministériel (FUI) finanziert. , Referenz DOS0066427/00 (RIHDO-Projekt).

Universität Paris Cité, PARCC UMRS 970, INSERM, Paris, Frankreich

Anthony Decoux, Loic Duron, Paul Habert, Victory Roblot und Emina Arsovic

Klinische Forschungseinheit, Zentrum für klinische Forschung 1418, Klinische Epidemiologie, Universität Paris Cité, AP-HP, Europäisches Krankenhaus Georges Pompidou, INSERM, Paris, Frankreich

Antoine Decoux und Armelle Arnoux

Abteilung für Radiologie, Adolphe de Rothschild Ophthalmological Foundation Hospital, Paris, Frankreich

Loic Duron

Bildgebungsabteilung, Hôpital Nord, APHM, Universität Aix Marseille, Marseille, Frankreich

Paul Habert

Aix Marseille Univ, LIIE, Marseille, Frankreich

Paul Habert

Abteilung für Radiologie, Universität Paris Cité, AP-HP, Krankenhaus Cochin, Paris, Frankreich

Guillaume Chassagnon

Abteilung für Radiologie, Universität Paris Cité, AP-HP, Europäisches Krankenhaus Georges Pompidou, PARCC UMRS 970, INSERM, Paris, Frankreich

Laura Fournier

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

AD: Methodik, Programmierung, formale Analyse, Schreiben – Originalentwurfsvorbereitung. LD: Datenerfassung, Methodik, Überprüfung. PH: Datenerfassung, Methodik, Überprüfung. VR: Datenerfassung, Methodik. EA: Datenerfassung, Methodik. GC: Datenerfassung, Methodik. AA: Methodik, Supervision, Schreiben – Überprüfen und Bearbeiten. LF: Methodik, Supervision, Schreiben – Überprüfen und Bearbeiten.

Korrespondenz mit Laure Fournier.

LSF: General Electric Healthcare (Honoraria), Median Technologies (Honoraria), Sanofi (Honoraria), Guerbet (Konferenzfinanzierung), Bristol-Myers-Squibb (Forschungsstipendium). GC: Chiesi SA (Honoraria), Gleamer (Honoraria), Guerbet (Konferenzfinanzierung), Bayer (Konferenzfinanzierung). Die übrigen Autoren haben keine Interessenkonflikte zu melden.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Decoux, A., Duron, L., Habert, P. et al. Vergleichende Leistungen von Algorithmen für maschinelles Lernen in der Radiomics und Einflussfaktoren. Sci Rep 13, 14069 (2023). https://doi.org/10.1038/s41598-023-39738-7

Zitat herunterladen

Eingegangen: 10. März 2023

Angenommen: 30. Juli 2023

Veröffentlicht: 28. August 2023

DOI: https://doi.org/10.1038/s41598-023-39738-7

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.