Die Branche hat die Idee einer SBOM noch nicht vollständig verstanden, und wir hören bereits einen neuen Begriff – ML-BOM – Machine Learning Bill of Material. Bevor Panik ausbricht, wollen wir verstehen, warum eine solche Stückliste erstellt werden sollte, welche Herausforderungen bei der Generierung einer ML-Stückliste bestehen und wie eine solche ML-Stückliste aussehen kann.
Wenn Sie diesen Blog lesen, fragen Sie sich vielleicht, ob dieser Artikel KI-generiert wurde. Der Grund dafür ist, dass KI überall um uns herum ist und es schwer ist, sie von von Menschen geschaffenen Artefakten zu unterscheiden. Allerdings bergen die rasanten Fortschritte in der KI auch private, kommerzielle und gesellschaftliche Risiken, und es beginnt mit der Einführung von Gesetzen, um diese Risiken zu begrenzen, z EU-KI-Gesetz. Es würde den Rahmen dieses Artikels sprengen, sich eingehend mit diesen Risiken zu befassen, aber um nur einige zu nennen: Es bestehen Risiken durch unsicheres, diskriminierendes und die Privatsphäre verletzendes Verhalten von KI-gestützten Systemen sowie geistigem Eigentum, Lizenzierung und Cyber -Sicherheits Risikos.
Ein erster Schritt im Umgang mit diesen Risiken besteht darin, zu wissen, welche KI-Technologien in den einzelnen Systemen verwendet werden; Dieses Wissen kann Stakeholder in die Lage versetzen, die Risiken zu managen (z. B. rechtliche Risiken durch Kenntnis der Lizenz von Datensätzen und Modellen zu managen) und auf neue Erkenntnisse zu diesen Technologien zu reagieren (z. B. wenn sich herausstellt, dass ein Modell diskriminierend ist, kann der Stakeholder alles abbilden). Systeme, die dieses Modell nutzen, um das Risiko zu mindern).
Ein Blick in die sich entwickelnde Regulierung, Prüfung Executive Order 13960 zum Thema „Förderung des Einsatzes vertrauenswürdiger künstlicher Intelligenz in der Bundesregierung“ werden Grundsätze wie Rechenschaftspflicht, Transparenz, Verantwortung, Rückverfolgbarkeit und behördliche Überwachung aufgezeigt – all dies erfordert ein Verständnis darüber, welche KI-Technologien in den einzelnen Systemen verwendet werden.
Eine ML-Stückliste ist eine Dokumentation von KI-Technologien innerhalb eines Produkts. CycloneDX, das bekannte OWASP-Format für SBOM, Version 1.5 und höher, unterstützt es und ist jetzt ein Standard für ML-BOM.
Das Generieren einer ML-Stückliste ist eine Herausforderung. Es gibt viele Möglichkeiten, Modelle und Datensätze darzustellen. KI-Modelle und Datensätze können im Handumdrehen genutzt werden, und die Entscheidung, welche Modelle verwendet werden sollen, kann programmgesteuert im Handumdrehen getroffen werden, ohne Spuren für die Erkennung durch Standardkomponentenanalysetechnologien zu hinterlassen. Zusätzlich zu diesen Herausforderungen ist KI im Gegensatz zur Reife von Softwarepaketmanagern immer noch eine aufstrebende Technologie. Daher versteht die Branche die Anforderungen einer ML-Stückliste noch nicht vollständig.
Als Ausgangspunkt haben wir uns entschieden, uns auf die Generierung einer ML-Stückliste für Projekte zu konzentrieren, die einen De-facto-Standard, HuggingFace, verwenden. HuggingFace ist ein „Paketmanager“ für KI-Modelle und Datensätze und wird von beliebten Python-Bibliotheken begleitet. Im Folgenden finden Sie einige Schnappschüsse einer SBOM, die wir automatisch aus einem solchen Produkt generiert haben.
Stellen Sie sich ein Produkt vor, das aus vielen Komponenten besteht, einige davon – Modelle für maschinelles Lernen. Die folgende CycloneDX-Komponente beschreibt ein solches Modell:
Diese Komponente identifiziert das Modell und stellt einen Link zur weiteren Erkundung der Informationen zu diesem Modell bereit. Darüber hinaus enthält es Lizenzinformationen, die für Compliance-Zwecke verwendet werden können.
CycloneDX V1.5 definiert außerdem ein KI-spezifisches Feld namens „modelCard“ als Standardmethode zum Dokumentieren von Modelleigenschaften für maschinelles Lernen. Im Folgenden sehen Sie ein Beispiel einer von uns erstellten ModelCard.
Ein Anwendungsfall für eine solche modelCard kann darin bestehen, alle Produkte zu finden, die Bildklassifizierungsmodelle verwenden, oder eine Richtlinie auszuführen, die die Verwendung bestimmter Modelltypen verhindert.
CycloneDX ermöglicht die Dokumentation einer Komponentenbaum-Unterkomponentenhierarchie. Da HuggingFace als KI-Paketmanager KI-Modelle und Datensätze als Git-Repos darstellt, haben wir uns entschieden, die Dateien des KI-Modells/Datensatzes als Unterkomponenten der Modellkomponente für maschinelles Lernen zu dokumentieren. So sieht es aus:
Zusätzlich zu den Standarddateiinformationen umfassen die Eigenschaften zusätzliche Informationen, beispielsweise Sicherheitsinformationen. In diesem Fall sehen wir zwei Sicherheitsmaßnahmen:
- Virenscan – ist wichtig, wenn Datensätze verwendet werden, die anfällig für Viren sind (wie Bilder, PDFs und ausführbare Dateien).
- Pickle-Scanning – Sicherheitsrisikomaßnahmen in Bezug auf Datensatzdateien vom Typ „Pickle“, die einem höheren Risiko ausgesetzt sind (um die Risiken in diesem Format zu verstehen, siehe Erklärung auf der Seite). HuggingFace-Website).
Diese Daten können verwendet werden, um Richtlinien durchzusetzen, die überprüfen, ob der Viren- und Pickle-Scan erfolgreich abgeschlossen wurde.
ML-BOM ist ein neues Konzept; Was wir hier zeigen, ist ein erster Schritt. Aber selbst als solche können wir den Wert verstehen, den sie angesichts der zunehmenden Akzeptanz, Regulierung und Risiken von KI mit sich bringen würde.
Als letzte Anmerkung habe ich meine Kristallkugel (auch bekannt als ChatGPT) gebeten, die Zukunft von ML-BOMs zu beschreiben, und dies war die Antwort:
„In nicht allzu ferner Zukunft könnten sich ML-BOMs zu Cyber-versierten, autopilotierenden Meistern entwickeln, die die Symphonie maschineller Lernmodelle mit einem Hauch von Automatisierung orchestrieren und dabei durch die Feinheiten der CI/CD-Pipelines tanzen .“
Nun, vielleicht brauchen wir mehr als ML-Stücklisten ...
Diese Inhalte werden Ihnen von Scribe Security zur Verfügung gestellt, einem führenden Anbieter von End-to-End-Sicherheitslösungen für die Software-Lieferkette, der modernste Sicherheit für Code-Artefakte sowie Code-Entwicklungs- und Bereitstellungsprozesse in der gesamten Software-Lieferkette bietet. Weitere Informationen.