Machine Learning: Gesetzliche Anforderungen an Medizinprodukte

Die Einbindung von KI bei Medizinprodukten hat große Fortschritte gemacht, z. B. bei der Diagnose von Krankheiten. Hersteller von Produkten mit Machine Learning stehen vor der Herausforderung, die Konformität ihrer Produkte nachweisen zu müssen.

Auch wenn Sie die Gesetze kennen – welche Normen und Best Practices sind zu berücksichtigen, um die Nachweise zu führen und mit Behörden und Benannten Stellen auf Augenhöhe zu sprechen?

Dieser Artikel gibt eine Übersicht über die wichtigsten Regularien und Best Practices, die Sie unbedingt berücksichtigen sollten. Sie können sich das Recherchieren und Lesen von hunderten Seiten ersparen und perfekt auf das nächste Audit vorbereiten.

1. Gesetzliche Anforderungen an den Einsatz von Machine Learning bei Medizinprodukten in der EU

a) MDR und IVDR

Derzeit gibt es keine Gesetze und harmonisierte Normen, die speziell den Einsatz des Machine Learnings in Medizinprodukten regulieren. Offensichtlich müssen diese Produkte aber die bereits bestehenden regulatorischen Anforderungen wie MDR und IVDR erfüllen, z. B.:

Hersteller müssen den Nutzen und die Leistungsfähigkeit der Medizinprodukte nachweisen. Bei Produkten, die der Diagnose dienen, bedarf es z. B. des Nachweises der diagnostischen Sensitivität und Spezifität.
Die MDR verpflichtet die Hersteller, die Sicherheit der Produkte zu gewährleisten. Dazu zählt, dass die Software so entwickelt wurde, dass Wiederholbarkeit, Zuverlässigkeit und Leistungsfähigkeit gewährleistet sind (s. MDR Anhang I, 17.1 bzw. IVDR Anhang I, 16.1).
Hersteller müssen eine präzise Zweckbestimmung formulieren (MDR/IVDR Anhang II). Sie müssen ihre Produkte gegen die Zweckbestimmung und die Stakeholder-Anforderungen validieren und gegen die Spezifikationen verifizieren (u. a. MDR Anhang I, 17.2 bzw. IVDR Anhang I, 16.2). Hersteller sind auch verpflichtet zur Beschreibung der Methoden, mit denen sie diese Nachweise führen.
Basiert die klinische Bewertung auf einem Vergleichsprodukt, muss technische Äquivalenz gegeben sein, was die Bewertung der Software-Algorithmen explizit einschließt (MDR, Anhang XIV, Teil A, Absatz 3). Dies ist bei der Leistungsbewertung von In-vitro-Diagnostika (IVD) noch weitaus schwieriger. Nur in gut begründeten Fällen kann auf eine klinische Leistungsstudie verzichtet werden (IVDR Anhang XIII, Teil A, Absatz 1.2.3).
Die Entwicklung der Software, die Teil des Produkts wird, muss die „Grundsätze des Software-Lebenszyklus, des Risikomanagements einschließlich der Informationssicherheit, der Verifizierung und der Validierung berücksichtigen“ (MDR Anhang I, 17.2 bzw. IVDR Anhang I, 16.2).

b) KI-Verordnung der EU (AI Act)

Der AI Act betrifft die allermeisten Medizinprodukte und IVD, welche Verfahren der künstlichen Intelligenz verwenden, insbesondere des Machine Learnings. Wenn bei diesen eine Benannte Stelle in die Konformitätsbewertung einbezogen werden muss (sprich: wenn die Produkte nicht in die niedrigste Klasse fallen), dann zählen diese Produkte sogar als Hochrisiko-Produkte im Sinne des AI Acts.

Weiterführende Informationen

Ein ausführlicher Artikel zum AI Act stellt die Anforderungen dieser EU-Verordnung vor, beschreibt die Auswirkungen auf Hersteller und gibt Tipps zur Umsetzung.

Nutzen Sie auch die Übersicht über alle regulatorische Anforderungen an Medizinprodukte.

Beachten Sie auch den Podcast zum AI Act!

In dieser Podcast-Episode erklärt der AI-Act-Experte Dr. Till Klein im Gespräch mit Prof. Johner, was das Ziel des AI Acts ist, welche konkreten Anforderungen er stellt und unter welchen Umständen Medizinprodukte- und IVD-Hersteller betroffen sind.

Diese und weitere Podcast-Episoden finden Sie auch hier.

c) (Harmonisierte) Normen ohne spezifischen Bezug zum Machine Learning

MDR und IVDR erlauben es, mithilfe harmonisierter Normen und Common Specifications den Konformitätsnachweis zu führen. Im Kontext von Medizinprodukten, die Verfahren des Machine Learnings verwenden, sollten Hersteller v. a. die folgenden Normen beachten:

ISO 13485:2016
IEC 62304
IEC 62366-1
ISO 14971
IEC 82304

Diese Normen enthalten spezifische Anforderungen, die auch für Medizinprodukte mit Machine Learning relevant sind, z. B.:

Die Entwicklung von Software für die Sammlung und Aufbereitung der Daten, für das Labeling sowie für das Training und die Prüfung der Modelle muss validiert sein (Computerized Systems Validation (CSV) gemäß ISO 13485:2016 4.16).
Hersteller müssen vor der Entwicklung die Kompetenz der daran beteiligten Personen bestimmen und gewährleisten (ISO 13485:2016 7.3.2 f).
Die IEC 62366-1 verlangt, dass die Hersteller die vorgesehenen Nutzer und die vorgesehene Nutzungsumgebung genau charakterisieren, ebenso die Patienten inklusive Indikation und Kontraindikation.
Hersteller, die Software-Bibliotheken verwenden (was bei Software mit Machine Learning fast immer der Fall sein dürfte), müssen diese Bibliotheken als SOUP/OTS spezifizieren und validieren (IEC 62304).

Weiterführende Informationen

Bitte beachten Sie den Artikel zur Validierung von ML-Bibliotheken.

2. Gesetzliche Anforderungen an den Einsatz von Machine Learning bei Medizinprodukten in den USA

a) Unspezifische Anforderungen

Die FDA stellt vergleichbare Anforderungen, v. a. in 21 CFR part 820 (u. a. part 820.30 mit den Design Controls). Es gibt zahlreiche Guidance-Dokumente, u. a. zur Software-Validation, zum Einsatz von Off-the-shelf-Software (OTSS) und zur Cybersecurity. Diese sind Pflichtlektüre für Firmen, die in den USA Medizinprodukte verkaufen wollen, die Software sind oder enthalten.

b) Spezifische Anforderungen Teil 1 (Framework 2019 – inzwischen veraltet)

Die FDA veröffentlichte im April 2019 einen Entwurf Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD).

Darin spricht sie über die Hausforderungen bei kontinuierlich lernenden Systemen. Sie stellt fest, dass die bisher zugelassenen Medizinprodukte, die auf Verfahren der KI basieren, mit „locked algorithms“ arbeiten.

Für die Änderungen der Algorithmen möchte die Behörde darlegen, wann sie

keine Neueinreichung erwartet, sondern nur die Dokumentation der Änderungen durch den Hersteller,
zumindest über die Änderungen und die Validierung einen Review durchführen möchte, bevor der Hersteller das geänderte Produkt auf den Markt bringen darf,
auf einer (komplett) neuen Einreichung bzw. Zulassung besteht.

Bestehende Ansätze

Das neue „Framework“ basiert auf bekannten Ansätzen:

Risikokategorien des IMDRF für Software as Medical Device (SaMD)
Das „benefit-risk framework“ der FDA
Überlegungen der FDA, wann Software-Änderungen eine Neuzulassung bedingen (Software Changes)
Zulassungsverfahren einschließlich Pre-Cert-Programm der FDA, de-Novo-Verfahren usw.
FDA Guidance zur Klinischen Bewertung von Software

Welche Ziele die Änderungen eines Algorithmus verfolgen können

Gemäß den Regeln der FDA muss ein im Einsatz selbst- bzw. weiterlernender Algorithmus einer erneuten Überprüfung und Zulassung unterzogen werden. Das scheint selbst der FDA zu rigide. Daher untersucht sie die Ziele einer Änderung des Algorithmus und unterscheidet:

Verbesserung der klinischen und analytischen Leistungsfähigkeit: Diese ließe sich durch ein Trainieren mit mehr Datensätzen erreichen.
Änderung der „Input-Daten“, die der Algorithmus verarbeitet. Das können zusätzliche Labordaten sein oder Daten eines anderen CT-Herstellers.
Änderung der Zweckbestimmung: Als Beispiel nennt die FDA, dass der Algorithmus anfangs nur einen „Confidence Score“ berechnet, der die Diagnose unterstützen soll, und später die Diagnose direkt berechnet. Auch eine Änderung der vorgesehenen Patientenpopulation zählt als eine Änderung der Zweckbestimmung.

Abhängig von diesen Zielen möchte die Behörde über die Notwendigkeit von Neueinreichungen entscheiden.

Säulen eines Best-Practice-Ansatzes

Die FDA nennt vier Säulen, mit denen die Hersteller über den Produktlebenszyklus hinweg die Sicherheit und den Nutzen ihrer Produkte auch bei Änderungen gewährleisten sollen:

Säule 1: Qualitätsmanagementsystem und „Good Machine Learning Practices“ (GMLP)

Die FDA erwartet, dass die klinische Validität gewährleistet ist. Diese Forderung ist aber nicht spezifisch für KI-Algorithmen. Konkrete GMLP nennt die FDA nicht. Sie spricht nur von einer angemessenen Trennung von Training, „Tuning“ und Testdaten sowie von einer angemessenen Transparenz über den Output und die Algorithmen.

Säule 2: Planung und initiale Bewertung bezüglich Sicherheit und Leistungsfähigkeit

Im Vergleich zu „normalen“ Zulassungen erwartet die FDA u. a. „SaMD Pre-Specifications“ (SPS), in der die Hersteller darlegen, welche Kategorien von Änderungen (s. o.) sie antizipieren. Zusätzlich sollen sie Änderungen gemäß einem „Algorithm Change Protocol“ (ACP) vornehmen. Damit ist kein Protokoll, sondern ein Verfahren gemeint. Was Gegenstand dieses Verfahrens ist, zeigt Abb. 1.

Säule 3: Ansatz, um Änderungen nach der initialen Freigabe zu bewerten

Wenn Hersteller bei der initialen Zulassung keinen SPS und kein ACP eingereicht haben, müssen sie künftige Änderungen erneut der Behörde vorlegen. Andernfalls entscheidet die Behörde, ob sie eine erneute Einreichung erwartet, ob sie „nur“ ein „fokussiertes Review“ vornimmt oder ob sie vom Hersteller erwartet, dass er die Änderungen dokumentiert. Die Entscheidung hängt davon ab, ob der Hersteller dem „genehmigten“ SPS und ACP folgt und/oder ob sich die Zweckbestimmung ändert (s. Abb. 2).

Säule 4: Transparenz und Überwachung der Leistungsfähigkeit im Markt

Die FDA erwartet regelmäßige Berichte über die Überwachung der Leistungsfähigkeit der Produkte im Markt gemäß SPS und ACP. Auch die Anwender wären zu informieren, welche Änderungen der Hersteller mit welchen Auswirkungen z. B. auf die Leistungsfähigkeit durchgeführt hat.
Mit Transparenz meint die FDA somit nicht die Darlegung, wie z. B. die Algorithmen „unter der Haube“ funktionieren, sondern Offenheit darüber, was der Hersteller mit welchem Zweck und welchen Auswirkungen geändert hat.

Vorschlag der FDA zum Algorithm Change Protocol bei Medizinprodukten mit Machine Learning — Abb. 1: Algorithm Change Protocol (ACP) aus dem „Proposed Regulatory Framework“ der FDA für Software, die Machine Learning nutzt (zum Vergrößern klicken)

Entscheidungsbaum aus dem FDA Dokument zur künstlichen Intelligenz — Abb. 2: Mit diesem Entscheidungebaum legt die FDA fest, ob bei Änderungen der Software, die auf Machine Learning basiert, eine Neuzulassung notwendig ist. (zum Vergrößern klicken)

Beispiel, unter welchen Umständen die Behörde bei Änderungen (nicht) involviert werden muss

Die FDA nennt Beispiele dafür, wann ein Hersteller den Algorithmus einer Software ändern darf, ohne die Behörde um Genehmigung zu fragen. Das erste dieser Beispiele ist eine Software, die in einer Intensivstation basierend auf Monitor-Daten (z. B. Blutdruck, EKG, Pulsoximeter) drohende Instabilitäten des Patienten vorhersagt.

Der Hersteller plant, den Algorithmus zu ändern, z. B. um Fehlalarme zu minimieren. Wenn er dies im SCS bereits vorsah und zusammen mit dem ACP von der Behörde genehmigt ließ, darf er diese Änderungen ohne erneute „Zulassung“ vornehmen.

Wenn er allerdings behauptet, dass der Algorithmus 15 Minuten vor einer physiologischen Instabilität warnt (er spezifiziert jetzt zusätzlich eine Zeitdauer), wäre das eine Erweiterung der Zweckbestimmung. Diese Änderung würde eine Zustimmung der FDA voraussetzen.

Zusammenfassung

Die FDA diskutiert, wie man mit kontinuierlich lernenden Systemen umgehen soll. Dabei ist noch nicht einmal die Frage beantwortet, was die Best Practices sind, um einen „eingefrorenen“ Algorithmus, der auf Verfahren der KI basiert, zu bewerten und zuzulassen.

Es fehlt weiterhin ein Leitfaden, der „Good Machine Learning Practices“, wie es die FDA nennt, festlegt. Das Johner Institut entwickelt deshalb gemeinsam mit einer Benannten Stelle solch einen Leitfaden.

Das Konzept der FDA, auf Basis von vorab genehmigten Verfahren zu Änderungen der Algorithmen auf eine Neueinreichung ggf. zu verzichten, hat seinen Charme. Soviel Konkretheit sucht man bei den europäischen Gesetzgebern und Behörden vergeblich.

c) Spezifische Anforderungen Teil 2 (Framework 2023)

Zur Pflichtlektüre zählt auch das „Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD)“ der FDA. Dieses hat die FDA im April 2023 in ein Guidance-Dokument mit dem Titel „Marketing Submission Recommendations for a Predetermined Change Control Plan for Artificial Intelligence/Machine Learning (AI/ML)-Enabled Device Software Functions“ überführt.

Ein weiteres Guidance-Dokument der FDA zur radiologischen Bildgebung adressiert KI-basierte Medizinprodukte nicht direkt; es ist dennoch hilfreich. Zum einen arbeiten viele KI-/ML-basierte Medizinprodukte mit radiologischen Bilddaten, und zum anderen nennt das Dokument Fehlerquellen, die insbesondere auch für ML-basierte Produkte relevant sind:

Patientencharakteristiken
Demografische und physiologische Charakteristiken, Bewegungsartefakte, Implantate, räumlich heterogene Verteilung des Gewebes, Verkalkungen usw.
Aufnahmecharakteristiken
Positionierung, spezifische Eigenschaften der Medizingeräte, Aufnahmeparameter (z. B. Sequenzen beim MRT oder Röntgendosen beim CT), Algorithmen zur Rekonstruktion der Bilder, externe Störquellen usw.
Bildverarbeitung
Filterung, verschiedene Software-Versionen, manuelle Selektion und Segmentierung von Bereichen, Fitting von Kurven usw.

Die FDA, Health Canada und die britische Medicines and Healthcare Products Regulatory Agency (MHRA) haben in Zusammenarbeit die Good Machine Learning Practice for Medical Device Development: Guiding Principles veröffentlicht. Das Dokument enthält zehn Leitprinzipien, die man beim Einsatz von maschinellem Lernen in Medizinprodukten beachten sollte. Aufgrund der Kürze von nur zwei Seiten geht das Dokument nicht ins Detail, bringt aber die wichtigsten Prinzipien auf den Punkt.

Ergänzung

Wertvoll sind die aktualisierten „Guiding Principles“ für Medizinprodukte, welche Verfahren des maschinellen Lernens verwenden. Diese hat die FDA gemeinsam mit Health Canada entwickelt. Damit gibt es zwei Listen an „Guiding Principles“:

Das zweite und neue Dokument ist somit das speziellere, das die Prinzipien 7 und 9 aus dem ersten Dokument genauer ausführt.

3. Gesetzliche Anforderungen an den Einsatz von Machine Learning bei Medizinprodukten in anderen Ländern

a) China: NMPA

Die chinesische NMPA hat den Entwurf „Technical Guiding Principles of Real-World Data for Clinical Evaluation of Medical Devices“ zur Kommentierung freigegeben.

Dieses Dokument ist derzeit aber nur auf Chinesisch verfügbar. Wir haben das Inhaltsverzeichnis automatisiert übersetzen lassen. Das Dokument adressiert:

Anforderungsanalyse
Datensammlung und -aufbereitung
Entwurf des Modells
Verifizierung und Validierung (auch klinische Validierung)
Post-Market Surveillance

China-NMPA-AI-Medical-Device Herunterladen

Die Behörde rüstet personell auf und hat eine „AI Medical Device Standardization Unit“ gegründet. Diese kümmert sich um die Standardisierung von Terminologien, Technologien und Prozessen für die Entwicklung und Qualitätssicherung.

b) Japan

Das japanische „Ministry of Health, Labour and Welfare“ arbeitet ebenfalls an AI-Standards. Den Fortschritt dieser Bemühungen veröffentlicht die Behörde leider nur auf Japanisch. (Übersetzungsprogramme helfen aber weiter.) Konkrete Ergebnisse stehen derzeit noch aus.

4. Für das Machine Learning relevante Normen und Best Practices

a) „Artificial Intelligence in Healthcare“ des COICR

Von April 2019 stammt das Dokument Artificial Intelligence in Healthcare des COICR. Es liefert keine konkreten neuen Anforderungen, sondern verweist auf bestehende und empfiehlt die Entwicklung von Normen.

Fazit: Wenig hilfreich

b) IEC/TR 60601-4-1

Der Technical Report IEC/TR 60601-4-1 gibt Vorgaben für „Medizinische elektrische Geräte und medizinische elektrische Systeme mit einem Maß an Autonomie“. Diese Vorgaben sind allerdings nicht spezifisch für Medizinprodukte, die Verfahren des Machine Learnings verwenden.

Fazit: Bedingt hilfreich

c) „Good Practices“ der Xavier University

Von der Xavier University stammen die Perspectives and Good Practices for AI and Continuously Learning Systems in Healthcare.

Wie der Titel bereits klarmacht, geht es (auch) um kontinuierlich lernende Systeme. Dennoch lassen sich viele der genannten Best Practices auch auf nicht kontinuierlich lernende Systeme übertragen:

Bereits initial die Anforderungen an die Performance festlegen
Informationen sammeln und Verständnis erreichen, wie das System über die Zeit lernt
Professionellen Software-Entwicklungsprozess inklusive Verifizierung und Validierung befolgen
Neue Daten, mit denen das System (weiter)lernen soll, einer systematischen Qualitätskontrolle unterziehen
Grenzen festlegen, innerhalb derer sich der Algorithmus über die Zeit ändern darf
Festlegen, was Änderungen des Algorithmus auslösen dürfen
Das System so entwickeln, dass es seine eigene Performanz zeitnah und dem Benutzer die Ergebnisse in regelmäßigen Abständen berichtet
Den Benutzern die Möglichkeit verschaffen, die Aktualisierung eines Algorithmus abzulehnen oder/und zu einer früheren Version zurückzukehren
Die Benutzer informieren, wenn das Lernen eine signifikante Änderung des Verhaltens verursacht hat, und diese Änderung klar beschreiben
Nachvollziehbar machen, wie ein Algorithmus sich weiterentwickelt hat und wie er zu einer Entscheidung kam

Besonders diese Nachvollziehbarkeit/Interpretierbarkeit stellt für viele Hersteller eine Herausforderung dar.

Weiterführende Informationen

Die Videotrainings im Auditgarant stellen wichtige Verfahren wie LRP LIME, die Visualisierung der Aktivierung von neuronalen Schichten oder Counterfactuals vor.

Das Dokument diskutiert auch spannende Fragen, z. B. ob Patienten informiert werden müssen, wenn ein Algorithmus sich weiterentwickelt hat und ggf. nachträglich zu einer besseren oder gar anderen Diagnose kommt.

Vorgaben dieses Dokuments werden in den AI-Leitfaden des Johner Instituts übernommen.

Fazit: Hilfreich insbesondere bei kontinuierlich lernenden Systemen

d) „Building Explainability and Trust for AI in Healthcare“ der Xavier University

Dieses Dokument der Xavier University, an dem auch das Johner Institut mitgewirkt hat, adressiert v. a. Best Practices im Bereich der Explainability. Es enthält nützliche Hinweise dazu, welche Informationen z. B. für die „technical stakeholder“ bereitgestellt werden müssen, um den Anforderungen an diese Explainability gerecht zu werden.

Fazit: Zumindest teilweise hilfreich

e) „Machine Learning AI in Medical Devices“ von BSI und AAMI

Der Titel dieses BSI-/AAMI-Dokuments klingt vielversprechend. Letztlich ist es aber nur ein Positionspapier, das Sie sich aus dem AAMI Store kostenfrei herunterladen können. Das Positionspapier fordert die Entwicklung weiterer Standards, an denen sich das BSI und die AAMI beteiligen. Ein Standard ist die Norm BS/AAMI 34971:2023-06-30, die im Unterkapitel 4.r) vorgestellt wird.

f) DIN SPEC 92001-1:2019-04

Sogar kostenfrei verfügbar ist die Norm DIN SPEC 92001 „Künstliche Intelligenz – Life Cycle Prozesse und Qualitätsanforderungen – Teil 1: Qualitäts-Meta-Modell“.

Sie stellt ein Meta-Model vor, nennt aber keine konkreten Anforderungen an die Entwicklung von AI/ML-Systemen. Das Dokument ist völlig unspezifisch und nicht auf eine bestimmte Branche ausgerichtet.

Fazit: Wenig hilfreich

g) DIN SPEC 9200-2 (noch in Entwicklung)

Der „Teil 2: Robustheit“ ist noch nicht verfügbar. Er enthält im Gegensatz zum ersten Teil konkrete Anforderungen. Diese zielen v. a. auf das Risikomanagement. Sie sind jedoch unspezifisch für Medizinprodukte.

Fazit: Zu beobachten, aussichtsreich

h) ISO/IEC CD TR 29119-11

Die Norm ISO/IEC TR 29119-11 „Software and systems engineering – Software testing – Part 11: Testing of AI-based systems“ befindet sich noch in der Entwicklung.

Wir haben diese Norm für Sie gelesen und bewertet.

Fazit: Ignorieren

i) Curriculum des koreanischen „Software Testing Qualification Board“

Das „International Software Testing Qualification Board“ (ISTQB) stellt einen Lehrplan zum Testen von KI-Systemen mit dem Titel Certified Tester AI Testing (CT-AI) Syllabus zum Download bereit.

In den Kapiteln 1 bis 3 werden Begriffe und Konzepte erläutert. Kapitel 4 spricht explizit das Datenmanagement an. Kapitel 5 definiert Performance-Metriken. Ab Kapitel 7 gibt der Lehrplan Hinweise zum Testen von AI-Systemen.

Darüber hinaus enthält das Dokument im Kapitel 9 Vorgaben für das Blackbox-Testing von AI-Modellen wie das kombinatorische Testen und das „Methamorphic Testing“. Auch Tipps für das Testen neuronaler Netzwerke wie das „Neuron Coverage“ und Werkzeuge wie DeepXplore sind nennenswert.

Fazit: Empfehlenswert

j) ANSI/CTA-Standards

Die ANSI hat gemeinsam mit der CSA (Consumer Technology Association) mehrere Standards/Normen veröffentlicht:

Die Normen liefern – wie der Titel vermuten lässt – Definitionen. Nicht mehr und nicht weniger.

Die CSA arbeitet derzeit an weiteren und konkreten Normen, u. a. zur „Trustworthiness“.

Fazit: Nur als Sammlung von Definitionen hilfreich

k) Normen der IEEE

Eine ganze Familie an Normen ist bei der IEEE in Entwicklung:

P7001 – Transparency of Autonomous Systems
P7002 – Data Privacy Process
P7003 – Algorithmic Bias Considerations
P7009 – Standard for Fail-Safe Design of Autonomous and Semi-Autonomous Systems
P7010 – Wellbeing Metrics Standard for Ethical Artificial Intelligence and Autonomous Systems
P7011 – Standard for the Process of Identifying and Rating the Trustworthiness of News Sources
P7014 – Standard for Ethical considerations in Emulated Empathy in Autonomous and Intelligent Systems
1 – Standard for Human Augmentation: Taxonomy and Definitions
2 – Standard for Human Augmentation: Privacy and Security
3 – Standard for Human Augmentation: Identity
4 – Standard for Human Augmentation: Methodologies and Processes for Ethical Considerations
P2801 – Recommended Practice for the Quality Management of Datasets for Medical Artificial Intelligence
P2802 – Standard for the Performance and Safety Evaluation of Artificial Intelligence Based Medical Device: Terminology
P2817 – Guide for Verification of Autonomous Systems
1.3 – Standard for the Deep Learning-Based Assessment of Visual Experience Based on Human Factors
1 – Guide for Architectural Framework and Application of Federated Machine Learning

Fazit: noch zu früh, weiter beobachten

l) ISO-Normen, die in Entwicklung sind

Auch bei der ISO arbeiten mehrere Arbeitsgruppen an AI/ML-spezifischen Normen:

ISO 20546 – Big Data – Overview and Vocabulary
ISO 20547-1 – Big Data reference architecture – Part 1: Framework and application process
ISO 20547-2 – Big Data reference architecture – Part 2: Use cases and derived requirements
ISO 20547-3 – Big Data reference architecture – Part 3: Reference architecture
ISO 20547-5 – Big Data reference architecture – Part 5: Standards roadmap
ISO 22989 – AI Concepts and Terminology
ISO 24027 – Bias in AI systems and AI aided decision making
ISO 24029-1 – Assessment of the robustness of neural networks – Part 1 Overview
ISO 24029-2 – Formal methods methodology
ISO 24030 – Use cases and application
ISO 24368 – Overview of ethical and societal concerns
ISO 24372 – Overview of computations approaches for AI systems
ISO 24668 – Process management framework for Big data analytics
ISO 38507 – Goveranance implications of the use of AI by organizations.

Erste Normen sind bereits fertiggestellt (wie die im Folgenden vorgestellte).

Fazit: Noch zu früh, weiter beobachten

m) ISO 24028 – Overview of Trustworthiness in AI

Die ISO/IEC TR 24048 trägt den Titel „Information Technology – Artifical Intelligence (AI) – Overview of trustworthiness in artificial intelligence”. Sie ist unspezifisch für eine bestimmte Domäne, nennt aber auch Beispiele für das Gesundheitswesen.

Die Norm fasst sowohl wichtige Gefährdungen und Bedrohungen zusammen als auch übliche Maßnahmen zur Risikominimierung (s. Abb. 3).

Die Kapitelstruktur der ISO/IEC TR 24048 als Mindmap zum Machine Learning — Abb. 3: Die Kapitelstruktur der ISO/IEC TR 24048 zum Machine Learning als Mindmap (zum Vergrößern klicken)

ISO-IEC-24028-2020: Mindmap der Kapitelstruktur Herunterladen

Die Norm bleibt aber auf allgemeinem Niveau, gibt keine konkreten Empfehlungen und stellt auch keine spezifischen Anforderungen. Als Übersicht und Einstieg sowie als Referenz auf weitere Quellen ist sie nützlich.

Fazit: Bedingt empfehlenswert

n) ISO 23053 – Framework for AI using Maschine Learning

ISO 23053 ist ein Leitfaden für einen Entwicklungsprozess von ML-Modellen. Er enthält keine konkreten Anforderungen, stellt aber den Stand der Technik dar.

Fazit: Bedingt empfehlenswert

o) AI4H-Leitfaden der WHO/ITU

Spezifisch für das Gesundheitswesen entwickeln WHO und ITU (International Telecommunication Union) ein Framework für den Einsatz von AI im Gesundheitswesen, insbesondere für Diagnose, Triage und Behandlungsunterstützung.

Diese AI4H –Initiative umfasst mehrere Topic Groups aus verschiedenen medizinischen Fakultäten sowie Working Groups, die sich Querschnittsthemen annehmen. Das Johner Institut ist aktives Mitglied der Working Group zu regulatorischen Anforderungen.

Diese Arbeitsgruppe entwickelt einen Leitfaden, der auf dem bisherigen Leitfaden des Johner Instituts aufsetzt und diesen möglicherweise ablösen wird. Eine Abstimmung dieser Ergebnisse mit dem IMDRF ist geplant.

Wenn Sie mehr über diese Initiative erfahren wollen, wenden Sie sich an das ITU oder das Johner Institut.

Fazit: Künftig sehr empfehlenswert

p) Leitfäden der Benannten Stellen bzw. des TeamNB

Die Benannten Stellen haben einen Leitfaden zur künstlichen Intelligenz entwickelt, der auf dem Leitfaden des Johner Instituts basiert. Da dieser von den Benannten Stellen herausgegeben und verwendet wird, ist er zumindest für deutsche Hersteller ein Must-Read. Das TeamNB hat diesen Leitfaden übernommen.

Fazit: Sehr empfehlenswert

q) Normenfamilie ISO/IEC 5259

Gleich eine ganze Normenfamilie beschäftigt sich mit „Artificial intelligence — Data quality for analytics and machine learning (ML)“.

Norm	Titel
ISO/IEC 5259-1	Part 1: Overview, terminology, and examples
ISO/IEC 5259-2	Part 2: Data quality measures
ISO/IEC 5259-3	Part 3: Data quality management requirements and guidelines
ISO/IEC 5259-4	Part 4: Data quality process framework
ISO/IEC 5259-5	Part 5: Data quality governance framework

r) BS/AMMI 34971:2023

Bitte ISO 24971-2 beachten

Die ISO TS 24972-2 liegt als Draft vor. Sie ist ebenfalls eine Leitlinie zur Anwendung einer Norm, der ISO 14971. Hier gibt es jedoch einen konkreten Fokus: „Machine Learning in Artificial Intelligence“ (sic!). Wieder ist Pat Baird federführend, wie bei der BS 34971, einer Leitlinie zum gleichen Thema.

Seit Mai 2023 ist die BS/AAMI 34971 verfügbar. Sie trägt den Titel „Application of ISO 14971 to machine learning in artificial intelligence“ und ist beispielsweise über Beuth für über 250 EUR zu beziehen.

Die Norm folgt streng dem Aufbau der ISO 14971 (s. Abb. 4). Spezifisch sind die Kapitel auf der dritten Ebene. Diese sind unterhalb des Kapitels 5.3 („Identification of characteristics related to safety“) zu finden.

Kapitelstruktur der BS/AAMI 34971-2023 als Mindmap — Abb. 4: Kapitelstruktur der BS/AAMI 34971-2023 (zum Vergrößern klicken)

Was gefällt

Die Norm richtet sich streng an der ISO 14971 aus. Das erleichtert (theoretisch) die Zuordnung.

Die Beispiele, die die Norm nennt, sind sehr umfangreich. Sie können damit als wertvolle Checkliste dienen, um mögliche Ursachen für Gefährdungen zu erkennen und zu beseitigen.

Auch nennt die Norm hilfreiche Maßnahmen zur Risikobeherrschung und listet beispielsweise im Anhang konkrete Anforderungen an die Kompetenz des Personals.

Was wir uns anders gewünscht hätten

Für den Preis können die Autoren nichts. Dennoch hätten wir uns gewünscht, dass die BS/AAMI 34971 nicht teurer ist als die Norm, auf die sie sich bezieht.

Es wirkt, als würden die Autoren der BS/AAMI 34971 manche Konzepte anders verstehen als die Autoren der ISO 14971.

Beispielsweise umfasst das Kapitel „Identification of characteristics related to safety“ Dutzende Beispiele, die aber keine Sicherheitsmerkmale darstellen, sondern Ursachen für Gefährdungen (z. B. der Bias bei den Daten). Das ist sehr bedauerlich, weil

damit zur Verwirrung beigetragen wird, was sich negativ auf die Effizienz und Effektivität von Audits und Reviews auswirken kann und die Abbildung in Algorithmen erschwert,
dies genau den Fehler zu wiederholen scheint, den Hersteller von ML-basierten Produkten immer wieder begehen: Sie versäumen es, aus der Zweckbestimmung zunächst die wesentlichen Leistungsmerkmale bzw. sicherheitsbezogenen Merkmale abzuleiten und erst daraus die Anforderungen an die ML-Modelle.

An anderer Stelle wird behauptet, Tabelle B.2. der BS/AAMI 34971 würde der Tabelle C2 der ISO 14971 entsprechen. Erste ist überschrieben mit „Events and circumstances“ (?!?), die zweite Tabelle mit „Hazards“. Weshalb führen die Autoren der BS/AAMI 34971 neue Begriffe und Konzepte ein, die sie nicht definieren, sondern scheinbar definierten Begriffen gleichsetzen?

Weiter ist bedauerlich, dass Erklärungen und Anforderungen nicht präzise getrennt sind. Es wirkt, als wären die Konzepte „Ground Truth“ und „Gold Standard“ nicht sauber unterschieden. Der Begriff „ML validation test“ erschließt sich nur aus dem Kontext. Für ML-Experten sind „validation“ und „test“ zwei unterschiedliche Aktivitäten.

Über risikominimierende Maßnahmen wie ein „denoising of data“ werden sich Statistiker sicher ihre eigene Meinung bilden.

Fazit: Wenn 250 EUR kein Hindernis sind, die Norm kaufen und als Checkliste und Inspirationsquelle nutzen.

Vorsicht

Zudem gibt es die BS ISO/IEC 23894:2023 „Information technology. Artificial intelligence. Guidance on risk management”. Dies ist keine Dopplung zur BS 39471, denn diese Norm ist nicht spezifisch für Medizinprodukte.

s) ISO/NP TS 23918

Noch in der Entwicklung ist die ISO/NP TS 23918 „Medical devices – Guidance on the application of ISO 14971 – Part 2: Machine learning in artificial intelligence“. Ihr Anwendungsbereich scheint dem der AAMI/BS 34971 sehr zu gleichen. Auch hier geht es um die Anwendung der ISO 14971 im Kontext von KI-basierten Medizinprodukten.

t) BS 30440:203

Ebenfalls vom BSI stammt die Norm BS 30440:2023 mit dem Titel „Validation framework for the use of artificial intelligence (AI) within healthcare. Specification”.

Interessant ist, dass diese Norm nicht nur die Hersteller, sondern auch die Betreiber, Krankenversicherungen und Anwender als Leser sieht.

u) ISO/IEC 23894

Im Februar 2023 erschien die ISO/IEC 23894. Sie trägt den Titel „Artificial intelligence – Guidance on risk management“. Die Norm ist ohne die ISO 31000:2018 (das ist die Norm zum „allgemeinen Risikomanagement“, also nicht medizinproduktspezifisch) nicht nutzbar. Sie versteht sich eher als ein Delta, das die AI-spezifischen Aspekte ergänzt. Eine wirkliche Hilfestellung für Firmen, die in ihren Medizinprodukten AI anwenden, lässt sich nicht unmittelbar entdecken.

Fazit: Nicht kaufen

v) ISO/IEC 42001:2023

Die Norm ISO/IEC 42001:2023 trägt den Titel „Information technology – Artificial intelligence –
Management system“.

Damit wird der Scope klar: Es geht um die Anforderungen an ein Management-System. Zum Anwendungsbereich der Norm zählen sowohl die Anwendung von KI innerhalb einer Organisation als auch KI-basierte Produkte einer Organisation. Die Norm ist aber nicht spezifisch für Medizinprodukte(hersteller).

Insgesamt ist die Norm sehr „high-level“ und insbesondere für die Entwicklung KI-basierter Produkte zu unspezifisch. Das ist nicht überraschend, weil die Norm eine Prozess- und keine Produktnorm ist.

Viele der Forderungen erfüllen Organisationen bereits, die konform mit den Anforderungen der ISO 13485 und der ISO 14971 arbeiten.

In dem Maß, in dem KI Einzug in den Alltag der Unternehmen hält, wird die Norm an Bedeutung gewinnen. Der Ansatz eines „AI system life cycles“ ist sicher der richtige.

Weiterführende Informationen

Beachten Sie den Fachartikel zur ISO/IEC 42001, der eine Übersicht über die Norm und deren Anforderungen sowie konkrete Praxistipps zur Implementierung gibt.

w) IMDRF

Dass auch die IMDRF einen Leitfaden zur Anwendung der KI bei Medizinprodukten veröffentlicht hat, überrascht kaum.

Bemerkenswerter ist, dass es auch hier einen engen Schulterschluss zwischen der FDA und Health Canada gibt. Nordamerika führt eine „De facto Standardisierung“ durch und Europa schaut zu.

Zudem hat das International Medical Device Regulators Forum (IMDRF) am 16. September 2021 ein Dokument mit Schlüsselbegriffen und Definitionen für „Machine Learning-enabled Medical Devices – A subset of Artificial Intelligence-enabled Medical Devices“ vorgeschlagen. Die Konsultationsfrist endet am 29. November 2021.

Fazit: Könnte durch Vereinheitlichung der Begriffe hilfreich werden

x) IEC 5338

Die Norm ISO/IEC 5338:2023 trägt den Titel „Information technology — Artificial intelligence — AI system life cycle processes“.

Die Norm wurde auch als AS 5409:2024 (Australien Standard) publiziert. Sie beschreibt insgesamt 33 Prozesse, die nach vier Kategorien gruppiert sind:

„Agreement processes“ (u.a. „Supply process“)
„Organizational project-enabling processes“ (u. a. „Quality management process“ und „Knowledge management process“)
„Technical management processes“ (u. a. Risk management process“)
„Technical processes“ (u. a. „AI data engineering process“)

Die Norm nimmt keinen Bezug auf Medizinprodukte. Sie orientiert sich sehr stark an der Software-Entwicklung und referenziert durchgängig die Software-Normen ISO/IEC/IEEE12207 und ISO/IEC/IEEE 15288. Zusätzlich nennt sie bei einigen Prozessen „AI-specific particularities“. Wenige Prozesse haben keine Entsprechung bei den beiden referenzierten Normen.

Die Norm beschreibt typische Aktivitäten. Sie nennt nur wenig konkrete Anforderungen und spezifiziert keine Best Practices. Daher eignet sich die Norm eher, um einen Überblick über die Lebenszyklus-Prozesse zu bekommen und deren Bezug zu den Software-Lebenszyklus-Prozessen zu verstehen.

y) ISO/IEC 25059:2023

Die ISO/IEC 25059:2023 trägt den Titel „Software engineering – Systems and software Quality Requirements and Evaluation (SQuaRE) – Quality model for AI systems“.

Die Analyse dieser Norm erfolgt demnächst.

z) ISO/IEC 4213

Die ISO/IEC 4213:2022 trägt den Titel „Information technology – Artificial intelligence – Assessment of machine learning classification performance“. Dadurch entsteht die Erwartung, die Norm würde Best Practices zur Bewertung von ML-Modellen spezifizieren.

Jedoch listet die Norm statistische Verfahren, abhängig von der Aufgabenstellung des Modells. Beispielsweise nennt sie für binäre Klassifikationen u. a. die 4-Felder-Tafel („confusion matrix“), den F1-Score und die „Lift curve“. Für die „Multi-label classification“ nennt sie „Hamming loss“, „Jaccard index“ und weitere.

Die Verfahren sind so knapp beschrieben, dass der Wert der Norm eher darin besteht, für die Aufgabenstellung des Modells die passenden Verfahren für die Leistungsmessung zusammenzutragen. Der Erkenntnisgewinn für erfahrene Data Scientists und Statistiker ist daher unklar.

Tipp

Einen Teil des Werts liefert somit bereits das Inhaltsverzeichnis der ISO/IEC 4214:2022.

5. Tipps zum Erfüllen der gesetzlichen Anforderungen

Tipp 1: Explainability nutzen

Allgemeines

Mit der Aussage, dass die Verfahren des Machine Learnings Blackboxes darstellen würden, sollten sich Auditoren nicht mehr pauschal zufriedengeben.

Es gibt vielversprechende Ansätze in der aktuellen Forschungsliteratur, wie die Vorhersagen von Deep-Learning-Modellen plausibilisiert werden können. Zum Beispiel kann man bei der Klassifikation von Bildern nachvollziehen, welche Input-Pixel für die Klassifikation entscheidend sind (s. u.).

Es haben sich jedoch noch keine Standard-Methoden etabliert, da die derzeitigen Verfahren unterschiedliche Stärken und Schwächen haben und sich der aktuelle Status-Quo in einer heuristischen Phase befindet. Es ist jedoch davon auszugehen, dass die Forschung in diesem Bereich in den nächsten Jahren weitere Fortschritte Richtung Erklärbarkeit machen wird.“

Viele Ansätze richten sich derzeit „nur“ auf die Erklärung von konkreten Einzelvorhersagen anhand der Eingabedaten (lokale Erklärbarkeit).

Beispiel

Mit der Layer Wise Relevance Propagation kann man bei einigen Modellen erkennen, welche Input-Daten („Feature“) für den Algorithmus entscheidend waren für z. B. die Klassifikation.

Abbildung 5 zeigt im linken Bild, dass der Algorithmus die Ziffer „6“ vor allem wegen der dunkelblau markierten Pixel ausschließen kann. Das ergibt Sinn, weil bei einer „6“ dieser Bereich typischerweise keine Pixel erhält. Hingegen sind im rechten Bild die Pixel rot, die den Algorithmus in der Annahme bestärken, dass die Ziffer eine „1“ ist.

Der Algorithmus bewertet die Pixel im aufsteigenden Schenkel der Ziffer eher als schädlich für die Klassifizierung als „1“. Das liegt daran, dass er mit Bildern trainiert wurde, bei denen die „1“ nur als ein senkrechter Strich geschrieben wird, wie dies in den USA der Fall ist. Dies verdeutlicht, wie relevant es für das Ergebnis ist, dass die Trainingsdaten repräsentativ für die später zu klassifizierenden Daten sind.

Die Layer Wise Relevance Propagation am Beispiel eines Bildes der Zahl 1 (zum Vergrößern klicken) — Abb. 5: Die Layer Wise Relevance Propagation ermittelt, welcher Input welchen Anteil am Ergebnis hat. Die Daten sind hier als Heatmap visualisiert (Quelle). (zum Vergrößern klicken)

Weiterführende Informationen

Besonders lesenswert ist das online kostenfrei verfügbare Buch „Interpretable Machine Learning“ von Christoph Molnar, einem der Keynote Speaker beim Institutstag 2019.

Tipp 2: Den Stand der Technik regelmäßig bestimmen

Hersteller sind gut beraten, die Fragen mancher Auditoren nach dem Stand der Technik nicht global zu beantworten, sondern zu unterscheiden:

Technische Umsetzung: Einschlägige Standards wie die hier genannten helfen beim Nachweis, dass die Entwicklung und Verifizierung bzw. Validierung der Software und der Modelle den aktuellen Best Practices entspricht.
Leistungsparameter: Die Hersteller sollten die Leistungsfähigkeit mit klassischen Verfahren sowie anderen Modellen und Algorithmen des Machine Learnings vergleichen. Dieser Vergleich sollte anhand aller relevanten Attribute erfolgen wie Sensitivität, Spezifität, Robustheit, Performanz, Wiederholbarkeit, Erklärbarkeit und Akzeptanz.

Tipp 3: Mit dem KI-Leitfaden arbeiten

Der Leitfaden zur Anwendung der künstlichen Intelligenz (KI) bei Medizinprodukten steht jetzt kostenfrei bei GitHub zur Verfügung.

Screenshot vom KI-Leitfaden / AI Guideline: kostenfrei bei Gitlab verfügbar — Abb. 6: KI-Leitfaden / AI Guideline kostenfrei bei GitHub verfügbar

Diesen Leitfaden haben wir gemeinsam mit Benannten Stellen, Herstellern und KI-Experten entwickelt.

Er hilft Herstellern, KI-basierte Produkte gesetzeskonform zu entwickeln und schnell und sicher in den Markt zu bringen.
Interne und externe Auditoren sowie Benannte Stellen nutzen den Leitfaden, um die Gesetzeskonformität KI-basierter Medizinprodukte und den zugehörigen Lebenszyklusprozess zu prüfen.

Tipp

Nutzen Sie die Excel-Version des Leitfadens, die hier kostenlos erhältlich ist. Damit können Sie die Anforderungen des Leitfadens filtern, in eigene Vorgabedokumente übernehmen und an Ihre spezifische Situation anpassen.

Beim Schreiben war es uns wichtig, den Herstellern und Benannten Stellen präzise Prüfkriterien an die Hand zu geben, die eine eindeutige und unstrittige Bewertung erlaubt. Weiterhin steht der Prozessansatz im Vordergrund. Entlang dieser Prozesse sind die Anforderungen des Leitfadens gruppiert (s. Abb. 7).

Tipp 4: Sich auf typische Fragen im Audit vorbereiten

Allgemeines

Noch haben sich die Benannten Stellen und Behörden nicht auf ein einheitliches Vorgehen und auf gemeinsame Anforderungen bei Medizinprodukten mit maschinellem Lernen geeinigt.

Daher tun sich Hersteller regelmäßig schwer mit dem Nachweis, dass die an das Produkt gestellten Anforderungen an z. B. Genauigkeit, Korrektheit und Robustheit erfüllt sind.

Dr. Rich Caruana, einer der führenden Köpfe bei Microsoft im Bereich der künstlichen Intelligenz, riet sogar vom Einsatz eines von ihm selbst entwickelten neuronalen Netzwerks ab, das Patienten mit Lungenentzündung die passende Therapie vorschlagen sollte:

„I said no. I said we don’t understand what it does inside. I said I was afraid.”
Dr. Rich Caruana, Microsoft

Dass es Maschinen gibt, die ein Anwender nicht versteht, ist nicht neu. Man kann eine PCR anwenden, ohne sie zu verstehen; es gibt auf jeden Fall Menschen, die die Funktionsweise und das Innenleben dieses Produkts kennen. Bei der künstlichen Intelligenz ist das jedoch nicht mehr gegeben.

Leitfragen

Zu den Fragen, die Auditoren Herstellern von Produkten mit Machine Learning stellen sollten, zählen beispielsweise:

Leitfrage	Hintergrund
Weshalb glauben Sie, dass Ihr Produkt dem Stand der Technik entspricht?	Klassische Einstiegsfrage. Hier sollten Sie auf technische und medizinische Aspekte eingehen.
Wie kommen Sie zur Annahme, dass Ihre Trainingsdaten keinen Bias haben?	Andernfalls wären die Ergebnisse falsch bzw. nur unter bestimmten Voraussetzungen richtig.
Wie haben Sie ein Overfitting Ihres Modells vermieden?	Sonst würde der Algorithmus nur die Daten richtig vorhersagen, mit denen er trainiert wurde.
Was veranlasst Sie zur Annahme, dass die Ergebnisse nicht nur zufällig richtig sind?	Es könnte sein, dass ein Algorithmus korrekt entscheidet, dass auf einem Bild ein Haus zu erkennen ist. Der Algorithmus hat aber kein Haus, sondern den Himmel erkannt. Ein weiteres Beispiel zeigt die Abb. 5.
Welche Voraussetzungen müssen Daten erfüllen, damit Ihr System sie richtig klassifiziert bzw. die Ergebnisse richtig vorhersagt? Welche Randbedingungen sind einzuhalten?	Da das Modell mit einer bestimmten Menge an Daten trainiert wurde, kann es nur für Daten, die aus der gleichen Grundgesamtheit stammen, korrekte Vorhersagen treffen.
Wären Sie mit einem anderen Modell oder mit anderen Hyperparametern zu einem besseren Ergebnis gekommen?	Hersteller müssen Risiken weitestgehend minimieren. Dazu zählen auch Risiken durch falsche Vorhersagen suboptimaler Modelle.
Weshalb gehen Sie davon aus, dass Sie ausreichend viele Trainingsdaten verwendet haben?	Das Sammeln, Aufbereiten und „Labeln“ von Trainingsdaten ist aufwendig. Je größer die Datenmenge ist, mit der ein Modell trainiert wird, desto leistungsfähiger kann es sein.
Welchen Standard haben Sie beim Labeling der Trainingsdaten verwendet? Weshalb betrachten Sie den gewählten Standard als Gold-Standard?	Besonders wenn die Maschine beginnt, den Menschen überlegen zu sein, wird es schwierig, festzulegen, ob ein Arzt, eine Gruppe von „normalen“ Ärzten oder die weltweit besten Experten einer Fachrichtung die Referenz sind.
Wie können Sie die Reproduzierbarkeit gewährleisten, wenn Ihr System weiter lernt?	Besonders bei Continuously Learning Systems (CLS) muss gewährleistet bleiben, dass durch das weitere Training die Leistungsfähigkeit zumindest nicht abnimmt.
Haben Sie Systeme validiert, die Sie zum Sammeln, Vorbereiten und Analysieren der Daten sowie zum Trainieren und Validieren Ihrer Modelle verwenden?	Ein wesentlicher Teil der Arbeit besteht darin, die Trainingsdaten zu sammeln und aufzubereiten sowie das Modell damit zu trainieren. Die dazu notwendige Software ist nicht Teil des Medizinprodukts. Sie unterliegt aber den Anforderungen an die Computerized Systems Validation.

Tabelle 2: Potenzielle Fragen bei der Überprüfung von Medizinprodukten mit zugehöriger Erklärung

Die o. g. Fragen sind typischerweise auch im Rahmen des Risikomanagements nach ISO 14971 und der klinischen Bewertung gemäß MEDDEV 2.7.1 Revision 4 (bzw. Leistungsbewertung von IVD) zu erörtern.

Input-Daten, die nur zufällig wie ein bestimmtes Muster aussehen. Hier am Beispiel eines Chihuahuas und eines Muffins (zum Vergrößern klicken) — Abb. 8: Input-Daten, die nur zufällig wie ein bestimmtes Muster aussehen. Hier am Beispiel von Chihuahuas und Muffins (Quelle) (zum Vergrößern klicken)

Weiterführende Informationen

Hinweise, wie Hersteller diese regulatorischen Anforderungen an Medizinprodukte mit Machine Learning erfüllen können, gibt der Artikel Künstliche Intelligenz in der Medizin. Beachten Sie auch den Beitrag Wie sich klinische Studien bei Medizinprodukten mit künstlicher Intelligenz vermeiden lassen sowie den Kategorieartikel zu Regulatory Affairs.

Tipp 5: Unterstützung nutzen

Das Johner Institut unterstützt Hersteller von Medizinprodukten, die künstliche Intelligenz nutzen, dabei,

Produkte gesetzeskonform zu entwickeln und in Verkehr zu bringen,
Verifizierungs- und Validierungsaktivitäten zu planen und durchzuführen,
Produkte auf Nutzen, Leistungsfähigkeit und Sicherheit zu bewerten,
die Eignung der Verfahren (insbesondere der Modelle) und der Trainingsdaten zu bewerten,
die regulatorischen Anforderungen an die Post-Market-Phase zu erfüllen und
passgenaue Verfahrensanweisungen zu erstellen.

Sie finden hier eine vollständigere Übersicht.

Tipp 6: Typische Fehler von KI-Startups vermeiden

Viele Startups, die Verfahren der künstlichen Intelligenz (KI) insbesondere Machine Learning nutzen, beginnen die Produktentwicklung mit den Daten. Dabei unterlaufen ihnen häufig die gleichen Fehler:

Fehler	Folgen
Die Software und die Prozesse zum Sammeln und Aufbereiten der Trainingsdaten sind nicht validiert. Regulatorische Anforderungen sind bestenfalls in Ansätzen bekannt.	Im schlimmsten Fall können die Daten und Modelle nicht genutzt werden. Das wirft die ganze Entwicklung wieder auf den Anfang zurück.
Die erklärte Performance der Produkte leiten die Hersteller nicht aus der Zweckbestimmung und dem Stand der Technik ab, sondern aus der Leistungsfähigkeit der Modelle.	Die Produkte scheitern in der klinischen Bewertung.
Menschen, deren wirkliche Leidenschaft die Data Science oder die Medizin sind, versuchen sich als Unternehmensentwickler.	Die Produkte schaffen es nie bis auf den Markt oder treffen den tatsächlichen Bedarf nicht.
Das Geschäftsmodell bleibt zu lange zu vage.	Die Investoren halten sich zurück oder/und das Unternehmen trocknet finanziell aus und scheitert.

Tabelle 3: Typische Fehler von KI-Startups und deren Folgen

Startups können sich bei uns melden. In wenigen Stunden können wir helfen, diese fatalen Fehler zu vermeiden.

Beachten Sie auch den Podcast zur Umsetzung des AI Act bei einem Startup!

Die Direktorin „Global Regulatory Affairs“, Carmen Bellebna, berichtet in dieser Episode darüber, wie sie und ihr Unternehmen DeepEye die Anforderungen des AI Act erfüllen.

Diese und weitere Podcast-Episoden finden Sie auch hier.

6. Fazit und Zusammenfassung

a) Regulatorische Anforderungen

Die regulatorischen Anforderungen sind eindeutig. Doch Herstellern und teilweise auch Behörden und Benannten Stellen bleibt unklar, wie diese für Medizinprodukte, die Verfahren des Machine Learnings nutzen, zu interpretieren und konkret umzusetzen sind.

b) Zu viele und nur bedingt hilfreiche „Best Practice Guides“

Daher fühlen sich viele Institutionen berufen, mit „Best Practices“ zu helfen. Leider sind viele diese Dokumente nur bedingt hilfreich:

Sie wiederholen Lehrbuchwissen über die künstliche Intelligenz im Allgemeinen und das Machine Learning im Speziellen.
Die Guidance-Dokumente ergehen sich in Selbstverständlichkeiten und Banalitäten.
Wer nicht bereits vor dem Lesen dieser Dokumente wusste, dass das Machine Learning zu Fehlklassifizierungen und Bias führen und damit Patienten gefährden oder benachteiligen kann, sollte keine Medizinprodukte entwickeln.
Viele dieser Dokumente beschränken sich darauf, die für das Machine Learning spezifischen Probleme aufzulisten, die die Hersteller adressieren müssen. Es fehlen Best Practices, wie man diese Probleme minimiert.
Wenn es Empfehlungen gibt, sind diese meist wenig konkret. Sie bieten keine ausreichende Handlungsleitung.
Es dürfte den Herstellern und Behörden schwerfallen, aus Textwüsten wirklich prüfbare Anforderungen zu extrahieren.

Leider scheint keine Besserung in Sicht zu sein, im Gegenteil: Es werden immer mehr Richtlinien entwickelt. Beispielsweise empfiehlt die OECD die Entwicklung von AI/ML-spezifischen Standards und erarbeitet derzeit selbst einen. Gleiches gilt für die IEEE und das DIN und viele weitere Organisationen.

Fazit:

Es gibt zu viele Normen, um den Überblick behalten zu können. Und es werden kontinuierlich mehr.
Die Normen überlappen stark und sind überwiegend von eingeschränktem Nutzen. Sie enthalten keine (binär entscheidbaren) Prüfkriterien.
Sie kommen (zu) spät.

c) Qualität statt Quantität

Hersteller von Medizinprodukten benötigen bei den Best Practices und Normen zum Machine Learning mehr Qualität und nicht mehr Quantität.

Best Practices und Normen sollten handlungsleitend sein und überprüfbare Anforderungen stellen. Dass die WHO den Leitfaden des Johner Instituts aufgreift, gibt Anlass zu vorsichtigem Optimismus.

Es wäre wünschenswert, wenn sich die Benannten Stellen, die Behörden und ggf. auch die MDCG aktiver in die (Weiter-)Entwicklung dieser Standards einbringen würden. Dies sollte in transparenter Weise geschehen. Zu welch bescheidenen Ergebnissen das Arbeiten in Hinterzimmern ohne (externe) Qualitätssicherung führt, haben wir in letzter Zeit mehrfach erfahren.

Mit einem gemeinsamen Vorgehen gelänge es, ein gemeinsames Verständnis davon zu erreichen, wie Medizinprodukte, die maschinelles Lernen verwenden, entwickelt und geprüft werden müssten. Es gäbe nur Gewinner.

Benannte Stellen und Behörden sind herzlich eingeladen, an der Weiterentwicklung der Leitfäden mitzuwirken. Eine E-Mail an das Johner Institut genügt.

Hersteller, die Unterstützung bei der Entwicklung und Zulassung ML-basierter Produkte (z. B. bei der Überprüfung der technischen Dokumentation oder bei der Validierung von ML-Bibliotheken) wünschen, können sich gerne via E-Mail oder über das Kontaktformular melden.

Änderungshistorie

2025-05-05: Hinweis auf Podcast hinzugefügt
2025-04-14:
- Inhalte von Kapitel 4.q) in Kapitel 4.w) verschoben, da beide das IMDRF betreffen
- Das Kapitel 4.q) völlig neu geschrieben. Es behandelt jetzt die Normenfamilie ISO/IEC 5259
- In Kapitel 4.r) den Hinweis auf die neue ISO 24971-2 ergänzt
- In Kapitel 4.x) die angekündigte Bewertung der Norm ISO/IEC 5338:2023 ergänzt
- Kapitel 4. z) zur ISO/IEC 4213:2022 hinzugefügt
2025-02-22: Kapitel 2.b) (AI Act) komplett „entkernt“ und die Inhalte in den Artikel zum AI Act verschoben und dort umstrukturiert und aktualisiert. Verweis in Abschnitt 4.v) auf Artikel zur ISO/IEC 42001 ergänzt. Abschnitte 4.x) und 4.y) eingefügt. Link auf TeamNB in Abschnitt 4.p) ergänzt
2025-01-16: Abschnitt 5 neu eingefügt und strukturiert
2024-07-08: Im Abschnitt 2.c) die neue Leitlinie der FDA ergänzt, im Abschnitt 4.w) die Leitlinie des IMDRF
2024-03-26: Link zum verabschiedeten AI Act eingefügt.
2024-01-26: Hinweis zum Kompromissvorschlag zum AI Act ergänzt
2024-01-18: Kapitel 4.v) zur ISO 42001 eingefügt
2023-11-20: Neues Kapitel 4.s) mit ISO/NP TS 23918 eingefügt
2023-11-03: Kapitelstruktur überarbeitet. Anforderungen der FDA ergänzt. Neue BS-Normen erwähnt.
2023-10-09: Kapitel 2.n) eingefügt, das die ISO 23053 bewertet.
2023-09-07: Kapitel 2.s) einfügt, das die AAMI 34971:2023-05-30 bewertet.
2023-07-03: Link auf BS/AAMI 34971:2023-05-30 eingefügt
2023-06-27: Abschnitt 1.b) i) ergänzt: AI act gilt für MP/IVD höherer Risikoklassen.
2023-06-23: FDA Guidance Document vom April 2023 ergänzt
2023-06-08: Kapitel 4 eingefügt
2023-02-14: Abschnitt 2.r) eingefügt
2022-11-17: Link zum neuen Entwurf des AI Acts ergänzt
2022-10-21: Link zu Updates der EU zum AI Act ergänzt
2022-06-27: Im Kapitel zur FDA deren Guidance-Dokument für die radiologische Bildgebung und die dort genannten Fehlerquellen eingefügt
2021-11-01: Kapitel mit FDAs Guiding Principles eingefügt
2021-09-10: Link mit der Stellungnahme für die EU ergänzt
2021-07-31: Im Abschnitt 1.b.ii) in der Tabelle zwei Zeilen mit weiteren Kritikpunkten angehängt. In der Zeile mit den Definitionen je einen Abschnitt ergänzt.
2021-07-26: Abschnitt 2.n) in Abschnitt 1.b) verschoben. Dort Kritik und Handlungsaufruf ergänzt.
2021-04-27: Abschnitt zu Plänen der EU zu neuer KI-Regulierung ergänzt

Wie hilfreich war dieser Beitrag?

Bitte bewerten Sie:

Durchschnittliche Bewertung 4.8 / 5. Anzahl Bewertungen: 57

Geben Sie die erste Bewertung!

Ein Kommentar

Jens-Michael Ruppelt sagt:

28. April 2024 um 08:14 Uhr

Herzlichen Dank für den informativen und aufschlussreichen Artikel. Die detaillierte Aufschlüsselung der Herausforderungen und erforderlichen Konformitätsnachweise als auch die Sammlung der verschiedenen Normen ist besonders wertvoll.

Kommentarfunktion geschlossen.

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Matomo
Anbieter	Johner Institut
Zweck	Cookie von Matomo für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://www.johner-institut.de/datenschutz/
Cookie Name	_pk_.
Cookie Laufzeit	13 Monate

Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Benutzerdefiniert
Name	Benutzerdefiniert
Anbieter	statcounter.com
Zweck	Diese Website nutzt Funktionen des Webanalysedienstes Statcounter. Anbieter ist die StatCounter, Guinness Enterprise Centre, Taylor's Lane, Dublin 8, Ireland. Statcounter verwendet so genannte "Cookies". Das sind Textdateien, die auf Ihrem Computer gespeichert werden und die eine Analyse der Benutzung der Website durch Sie ermöglichen. Die durch das Cookie erzeugten Informationen über Ihre Benutzung dieser Website werden in der Regel an einen Server von Statcounter nach Irland übertragen und dort gespeichert. Personenbezogene Daten werden jedoch nicht verwaltet.
Datenschutzerklärung	https://statcounter.com/about/legal/#privacy
Cookie Name	is_unique
Cookie Laufzeit	393 Tage

Akzeptieren	Google Analytics
Name	Google Analytics
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	HubSpot
Name	HubSpot
Anbieter	HubSpot Inc., 25 First Street, 2nd Floor, Cambridge, MA 02141, USA
Zweck	HubSpot ist ein Verwaltungsdienst für Benutzerdatenbanken bereitgestellt von HubSpot, Inc. Wir nutzen HubSpot auf dieser Website für unsere Online Marketing-Aktivitäten.
Datenschutzerklärung	https://legal.hubspot.com/privacy-policy
Host(s)	*.hubspot.com, hubspot-avatars.s3.amazonaws.com, hubspot-realtime.ably.io, hubspot-rest.ably.io, js.hs-scripts.com
Cookie Name	__hs_opt_out, __hs_d_not_track, hs_ab_test, hs-messages-is-open, hs-messages-hide-welcome-message, __hstc, hubspotutk, __hssc, __hssrc, messagesUtk
Cookie Laufzeit	Sitzung / 30 Minuten / 1 Tag / 1 Jahr / 13 Monate

Akzeptieren	LinkedIn
Name	LinkedIn
Anbieter	LinkedIn
Zweck	Conversion Tracking von LinkedIn
Datenschutzerklärung	https://www.linkedin.com/legal/privacy-policy?trk=content_footer-privacy-policy
Host(s)	.linkedin.com
Cookie Name	li_fat_id, li_giant, VID
Cookie Laufzeit	365

Regulatorische Anforderungen an Medizinprodukte mit Machine Learning

1. Gesetzliche Anforderungen an den Einsatz von Machine Learning bei Medizinprodukten in der EU

a) MDR und IVDR

b) KI-Verordnung der EU (AI Act)

c) (Harmonisierte) Normen ohne spezifischen Bezug zum Machine Learning

2. Gesetzliche Anforderungen an den Einsatz von Machine Learning bei Medizinprodukten in den USA

a) Unspezifische Anforderungen

b) Spezifische Anforderungen Teil 1 (Framework 2019 – inzwischen veraltet)

Bestehende Ansätze

Welche Ziele die Änderungen eines Algorithmus verfolgen können

Säulen eines Best-Practice-Ansatzes

Säule 1: Qualitätsmanagementsystem und „Good Machine Learning Practices“ (GMLP)

Säule 2: Planung und initiale Bewertung bezüglich Sicherheit und Leistungsfähigkeit

Säule 3: Ansatz, um Änderungen nach der initialen Freigabe zu bewerten

Säule 4: Transparenz und Überwachung der Leistungsfähigkeit im Markt

Beispiel, unter welchen Umständen die Behörde bei Änderungen (nicht) involviert werden muss

Zusammenfassung

c) Spezifische Anforderungen Teil 2 (Framework 2023)

Ergänzung

3. Gesetzliche Anforderungen an den Einsatz von Machine Learning bei Medizinprodukten in anderen Ländern

a) China: NMPA

b) Japan

4. Für das Machine Learning relevante Normen und Best Practices

a) „Artificial Intelligence in Healthcare“ des COICR

b) IEC/TR 60601-4-1

c) „Good Practices“ der Xavier University

d) „Building Explainability and Trust for AI in Healthcare“ der Xavier University

e) „Machine Learning AI in Medical Devices“ von BSI und AAMI

f) DIN SPEC 92001-1:2019-04

g) DIN SPEC 9200-2 (noch in Entwicklung)

h) ISO/IEC CD TR 29119-11

i) Curriculum des koreanischen „Software Testing Qualification Board“

j) ANSI/CTA-Standards

k) Normen der IEEE

l) ISO-Normen, die in Entwicklung sind

m) ISO 24028 – Overview of Trustworthiness in AI

n) ISO 23053 – Framework for AI using Maschine Learning

o) AI4H-Leitfaden der WHO/ITU

p) Leitfäden der Benannten Stellen bzw. des TeamNB

q) Normenfamilie ISO/IEC 5259

r) BS/AMMI 34971:2023

Was gefällt

Was wir uns anders gewünscht hätten

s) ISO/NP TS 23918

t) BS 30440:203

u) ISO/IEC 23894

v) ISO/IEC 42001:2023

w) IMDRF

x) IEC 5338

y) ISO/IEC 25059:2023

z) ISO/IEC 4213

5. Tipps zum Erfüllen der gesetzlichen Anforderungen

Tipp 1: Explainability nutzen

Allgemeines

Beispiel

Tipp 2: Den Stand der Technik regelmäßig bestimmen

Tipp 3: Mit dem KI-Leitfaden arbeiten

Tipp 4: Sich auf typische Fragen im Audit vorbereiten

Allgemeines

Leitfragen

Tipp 5: Unterstützung nutzen

Tipp 6: Typische Fehler von KI-Startups vermeiden

6. Fazit und Zusammenfassung

a) Regulatorische Anforderungen

b) Zu viele und nur bedingt hilfreiche „Best Practice Guides“

c) Qualität statt Quantität

Änderungshistorie

Ähnliche Beiträge

Weitere Beiträge

Ein Kommentar