مل-ماذا؟ فهم مفهوم واستخدامات ML-Bom

جميع المشاركات

لم تستوعب الصناعة بعد فكرة SBOM بشكل كامل، وقد بدأنا بالفعل في سماع مصطلح جديد - ML-BOM - قائمة مواد التعلم الآلي. قبل أن يبدأ الذعر، دعونا نفهم لماذا يجب أن يتم إنتاج مثل هذا BOM، والتحديات في إنشاء ML-BOM، وكيف يمكن أن يبدو مثل ML-BOM.

عندما تقرأ هذه المدونة، قد تسأل نفسك ما إذا كانت هذه المقالة قد تم إنشاؤها بواسطة الذكاء الاصطناعي. والسبب هو أن الذكاء الاصطناعي موجود في كل مكان حولنا، ومن الصعب تمييزه عن المصنوعات اليدوية التي صنعها الإنسان. ومع ذلك، فإن التقدم السريع في الذكاء الاصطناعي يشكل أيضًا مخاطر خاصة وتجارية واجتماعية، وقد بدأ إصدار التشريعات للحد من هذه المخاطر، على سبيل المثال، قانون الاتحاد الأوروبي للذكاء الاصطناعي. إن التعمق في هذه المخاطر خارج نطاق هذه المقالة، ولكن على سبيل المثال لا الحصر - هناك مخاطر السلوكيات غير الآمنة والتمييزية والتي تنتهك الخصوصية للأنظمة التي تعمل بالذكاء الاصطناعي، بالإضافة إلى الملكية الفكرية والترخيص والإنترنت. -أخطار أمنية.

الخطوة الأولى في التعامل مع هذه المخاطر هي معرفة تقنيات الذكاء الاصطناعي المستخدمة داخل كل نظام؛ يمكن لهذه المعرفة أن تمكن أصحاب المصلحة من إدارة المخاطر (على سبيل المثال، إدارة المخاطر القانونية من خلال معرفة ترخيص مجموعات البيانات والنماذج) والاستجابة للنتائج الجديدة المتعلقة بهذه التقنيات (على سبيل المثال، إذا تبين أن النموذج تمييزي، فيمكن لصاحب المصلحة رسم خريطة لجميع الأنظمة التي تستخدم هذا النموذج للتخفيف من المخاطر). 

إلقاء نظرة خاطفة على التنظيم المتطور، والفحص الأمر التنفيذي 13960 ويكشف تقرير "تعزيز استخدام الذكاء الاصطناعي الجدير بالثقة في الحكومة الفيدرالية" مبادئ مثل المساءلة والشفافية والمسؤولية وإمكانية التتبع والمراقبة التنظيمية - وكلها تتطلب فهم تقنيات الذكاء الاصطناعي المستخدمة في كل نظام.

يعد ML-BOM بمثابة توثيق لتقنيات الذكاء الاصطناعي داخل المنتج. CycloneDX، تنسيق OWASP المعروف لـ SBOM، الإصدار 1.5 وما فوق، يدعمه وهو الآن معيار لـ ML-BOM.

يعد إنشاء ML-BOM أمرًا صعبًا؛ هناك العديد من الطرق لتمثيل النماذج ومجموعات البيانات؛ قد يتم استهلاك نماذج الذكاء الاصطناعي ومجموعات البيانات بسرعة، ويمكن اتخاذ القرار بشأن النماذج التي سيتم استخدامها برمجيًا، بسرعة، دون ترك آثار لتقنيات تحليل المكونات القياسية لاكتشافها. علاوة على هذه التحديات، لا يزال الذكاء الاصطناعي تقنية ناشئة، على عكس نضج مديري حزم البرامج. لذا فإن الصناعة لا تفهم بشكل كامل بعد احتياجات ML-BOM.  

كنقطة بداية، قررنا التركيز على إنشاء ML-BOM للمشاريع التي تستخدم معيارًا فعليًا، HuggingFace. HuggingFace هو "مدير الحزم" لنماذج الذكاء الاصطناعي ومجموعات البيانات ويرافقه مكتبات Python الشهيرة. فيما يلي بعض اللقطات من SBOM التي قمنا بإنشائها تلقائيًا من مثل هذا المنتج.

تخيل منتجًا يتكون من العديد من المكونات، بعضها نماذج التعلم الآلي. يصف مكون CycloneDX أدناه مثل هذا النموذج:

مكون نموذج التعلم الآلي

مكون نموذج التعلم الآلي (الجزء 1) - بيانات مكون CycloneDX القياسية

يحدد هذا المكون النموذج ويوفر رابطًا لاستكشاف المعلومات حول هذا النموذج بشكل أكبر. بالإضافة إلى ذلك، فهو يتضمن معلومات الترخيص التي يمكن استخدامها لأغراض الامتثال.

يحدد CycloneDX V1.5 أيضًا حقلاً خاصًا بالذكاء الاصطناعي يسمى "modelCard" كطريقة قياسية لتوثيق خصائص نموذج التعلم الآلي. فيما يلي مثال على modelCard الذي قمنا بإنشائه. 

مكون نموذج التعلم الآلي

مكون نموذج التعلم الآلي (الجزء 2) - بطاقة البيانات

يمكن أن تكون حالة الاستخدام لمثل هذه البطاقة النموذجية هي العثور على جميع المنتجات التي تستخدم نماذج تصنيف الصور أو تشغيل سياسة تمنع استخدام أنواع نماذج محددة. 

يتيح CycloneDX توثيق شجرة المكونات - التسلسل الهرمي للمكونات الفرعية. نظرًا لأن HuggingFace، بصفته مدير حزم الذكاء الاصطناعي، يمثل نماذج الذكاء الاصطناعي ومجموعات البيانات على أنها git-repos، فقد قررنا توثيق ملفات نموذج/مجموعة بيانات الذكاء الاصطناعي كمكونات فرعية لمكون نموذج التعلم الآلي. هذا هو ما يبدو:

مكون نموذج التعلم الآلي

مكون نموذج التعلم الآلي (الجزء 3) - المكونات الفرعية

بالإضافة إلى معلومات الملف القياسية، تتضمن الخصائص معلومات إضافية، مثل معلومات الأمان. في هذه الحالة، نرى إجراءين أمنيين:

  1. فحص الفيروسات - يعد أمرًا مهمًا عند استهلاك مجموعات البيانات المعرضة للفيروسات (مثل الصور وملفات PDF والملفات التنفيذية).
  2. المسح المخلل - تدابير المخاطر الأمنية المتعلقة بملفات مجموعة البيانات من النوع "المخلل"، والتي تكون أكثر عرضة للمخاطر (لفهم المخاطر في هذا التنسيق، راجع الشرح في موقع HuggingFace).

يمكن استخدام هذه البيانات لفرض السياسات التي تتحقق من نجاح فحص الفيروسات والفحص المخلل. 

ML-BOM هو مفهوم جديد؛ ما نعرضه هنا هو الخطوة الأولى. ولكن حتى على هذا النحو، يمكننا أن نفهم القيمة التي قد يجلبها الذكاء الاصطناعي نظرا لتزايد اعتماد الذكاء الاصطناعي وتنظيمه ومخاطره.

كملاحظة أخيرة، طلبت من كرتي البلورية (المعروفة أيضًا باسم ChatGPT) أن تصف مستقبل ML-BOMs، وكانت هذه إجابتها:

"في المستقبل غير البعيد، قد تتطور ML-BOMs إلى خبراء في مجال الإنترنت، ويديرون آليًا، وينسقون سيمفونية نماذج التعلم الآلي مع لمسة من الأتمتة، كل ذلك أثناء الرقص عبر تعقيدات خطوط أنابيب CI/CD ".

حسنًا، ربما نحتاج إلى أكثر من ML-BOMs…

يتم تقديم هذا المحتوى إليك بواسطة Scribe Security، وهي شركة رائدة في مجال توفير حلول أمان سلسلة توريد البرامج الشاملة - حيث توفر أحدث الأمان لعناصر التعليمات البرمجية وعمليات تطوير التعليمات البرمجية وتسليمها عبر سلاسل توريد البرامج. تعرف على المزيد.