उद्योग ने अभी तक एसबीओएम के विचार को पूरी तरह से नहीं समझा है, और हमने पहले ही एक नया शब्द - एमएल-बीओएम - मशीन लर्निंग बिल ऑफ मटेरियल सुनना शुरू कर दिया है। घबराहट शुरू होने से पहले, आइए समझें कि ऐसे बीओएम का उत्पादन क्यों किया जाना चाहिए, एमएल-बीओएम उत्पन्न करने में चुनौतियां, और ऐसा एमएल-बीओएम कैसा दिख सकता है।
इस ब्लॉग को पढ़ते समय, आप स्वयं से पूछ सकते हैं कि क्या यह लेख AI-जनित था। इसका कारण यह है कि AI हमारे चारों ओर है, और इसे मानव निर्मित कलाकृतियों से अलग करना कठिन है। हालाँकि, एआई में तेजी से प्रगति से निजी, वाणिज्यिक और सामाजिक जोखिम भी पैदा होते हैं, और इन जोखिमों को सीमित करने के लिए कानून बनाना शुरू हो गया है, उदाहरण के लिए, यूरोपीय संघ एआई अधिनियम. इन जोखिमों की गहराई में जाना इस लेख के दायरे से बाहर है, लेकिन कुछ का उल्लेख करना - एआई-संचालित प्रणालियों के साथ-साथ आईपी, लाइसेंसिंग और साइबर के असुरक्षित, भेदभावपूर्ण और गोपनीयता-उल्लंघन व्यवहार के जोखिम हैं। -सुरक्षा जोखिम.
इन जोखिमों से निपटने में पहला कदम यह जानना है कि प्रत्येक सिस्टम में कौन सी एआई प्रौद्योगिकियों का उपयोग किया जाता है; ऐसा ज्ञान हितधारकों को जोखिमों का प्रबंधन करने में सक्षम कर सकता है (उदाहरण के लिए, डेटासेट और मॉडल के लाइसेंस को जानकर कानूनी जोखिमों का प्रबंधन) और इन प्रौद्योगिकियों के संबंध में नए निष्कर्षों का जवाब देने के लिए (उदाहरण के लिए, यदि कोई मॉडल भेदभावपूर्ण पाया जाता है, तो हितधारक सभी को मैप कर सकता है) सिस्टम जो जोखिम को कम करने के लिए इस मॉडल का उपयोग करते हैं)।
विकसित हो रहे विनियमन पर नज़र डालना, जांच करना कार्यकारी आदेश 13960 "संघीय सरकार में भरोसेमंद आर्टिफिशियल इंटेलिजेंस के उपयोग को बढ़ावा देना" जवाबदेही, पारदर्शिता, जिम्मेदारी, पता लगाने की क्षमता और नियामक निगरानी जैसे सिद्धांतों को प्रकट करता है - जिनमें से सभी को यह समझने की आवश्यकता है कि प्रत्येक प्रणाली में कौन सी एआई प्रौद्योगिकियों का उपयोग किया जाता है।
एमएल-बीओएम किसी उत्पाद के भीतर एआई प्रौद्योगिकियों का दस्तावेजीकरण है। CycloneDX, SBOM के लिए प्रसिद्ध OWASP प्रारूप, संस्करण 1.5 और उससे ऊपर, इसका समर्थन करता है और अब ML-BOM के लिए एक मानक है।
एमएल-बीओएम बनाना चुनौतीपूर्ण है; मॉडल और डेटासेट का प्रतिनिधित्व करने के कई तरीके हैं; एआई मॉडल और डेटासेट का तुरंत उपभोग किया जा सकता है, और किस मॉडल का उपयोग करना है इसका निर्णय प्रोग्रामेटिक रूप से, तुरंत किया जा सकता है, मानक घटक विश्लेषण प्रौद्योगिकियों के लिए उनका पता लगाने के लिए कोई निशान छोड़े बिना। इन चुनौतियों के अलावा, सॉफ़्टवेयर पैकेज प्रबंधकों की परिपक्वता के विपरीत, AI अभी भी एक उभरती हुई तकनीक है। इसलिए उद्योग अभी तक एमएल-बीओएम की जरूरतों को पूरी तरह से नहीं समझ पाया है।
शुरुआती बिंदु के रूप में, हमने उन परियोजनाओं के लिए एमएल-बीओएम उत्पन्न करने पर ध्यान केंद्रित करने का निर्णय लिया है जो वास्तविक मानक, हगिंगफेस का उपयोग करते हैं। हगिंगफेस एआई मॉडल और डेटासेट के लिए एक "पैकेज मैनेजर" है और इसके साथ लोकप्रिय पायथन लाइब्रेरी भी शामिल है। ऐसे उत्पाद से स्वचालित रूप से उत्पन्न एसबीओएम के कुछ स्नैपशॉट निम्नलिखित हैं।
एक ऐसे उत्पाद की कल्पना करें जिसमें कई घटक शामिल हों, उनमें से कुछ - मशीन लर्निंग मॉडल। नीचे CycloneDX घटक ऐसे मॉडल का वर्णन करता है:
यह घटक मॉडल की पहचान करता है और इस मॉडल के बारे में आगे जानकारी जानने के लिए एक लिंक प्रदान करता है। इसके अलावा, इसमें लाइसेंसिंग जानकारी शामिल है जिसका उपयोग अनुपालन उद्देश्यों के लिए किया जा सकता है।
CycloneDX V1.5 मशीन लर्निंग मॉडल गुणों को दस्तावेज़ करने के एक मानक तरीके के रूप में "मॉडलकार्ड" नामक एआई-विशिष्ट फ़ील्ड को भी परिभाषित करता है। हमारे द्वारा बनाए गए मॉडलकार्ड का एक उदाहरण निम्नलिखित है।
ऐसे मॉडलकार्ड के लिए उपयोग का मामला उन सभी उत्पादों को ढूंढना हो सकता है जो छवि वर्गीकरण मॉडल का उपयोग करते हैं या ऐसी नीति चला रहे हैं जो विशिष्ट मॉडल प्रकारों का उपयोग करने से रोकती है।
CycloneDX एक घटक वृक्ष - उपघटक पदानुक्रम के दस्तावेज़ीकरण को सक्षम बनाता है। चूँकि HuggingFace, एक AI पैकेज मैनेजर के रूप में, AI मॉडल और डेटासेट को git-repos के रूप में प्रस्तुत करता है, हमने AI मॉडल/डेटासेट की फ़ाइलों को मशीन लर्निंग मॉडल घटक के उप-घटकों के रूप में दस्तावेज़ित करने का निर्णय लिया है। यह है जो ऐसा लग रहा है:
मानक फ़ाइल जानकारी के अलावा, गुणों में अतिरिक्त जानकारी शामिल होती है, जैसे सुरक्षा जानकारी। इस मामले में, हम दो सुरक्षा उपाय देखते हैं:
- वायरस स्कैनिंग - वायरस के प्रति संवेदनशील डेटासेट (जैसे छवियां, पीडीएफ और निष्पादन योग्य) का उपभोग करते समय महत्वपूर्ण है।
- पिकल स्कैनिंग - "पिकल" प्रकार की डेटासेट फ़ाइलों के संबंध में सुरक्षा-जोखिम-उपाय, जो अधिक जोखिम-प्रवण हैं (इस प्रारूप में जोखिमों को समझने के लिए स्पष्टीकरण देखें) हगिंगफेस वेबसाइट).
इस डेटा का उपयोग उन नीतियों को लागू करने के लिए किया जा सकता है जो सत्यापित करती हैं कि वायरस और अचार स्कैनिंग सफलतापूर्वक पारित हो गई है।
एमएल-बीओएम एक नई अवधारणा है; हम यहां जो दिखा रहे हैं वह पहला कदम है। लेकिन फिर भी, हम एआई की बढ़ती स्वीकार्यता, विनियमन और जोखिमों को देखते हुए इसके महत्व को समझ सकते हैं।
अंतिम नोट के रूप में, मैंने अपने क्रिस्टल बॉल (उर्फ चैटजीपीटी) से एमएल-बीओएम के भविष्य का वर्णन करने के लिए कहा, और यह उसका उत्तर था:
“बहुत दूर के भविष्य में, एमएल-बीओएम साइबर-प्रेमी, ऑटोपायलटिंग मास्टर्स में विकसित हो सकते हैं, मशीन लर्निंग मॉडल की सिम्फनी को स्वचालन की भावना के साथ व्यवस्थित कर सकते हैं, यह सब सीआई/सीडी पाइपलाइनों की पेचीदगियों के माध्यम से टैप-डांस करते हुए हो सकता है। ।”
खैर, शायद हमें एमएल-बीओएम से अधिक की आवश्यकता है...
यह सामग्री आपके लिए स्क्राइब सिक्योरिटी द्वारा लाई गई है, जो एक अग्रणी एंड-टू-एंड सॉफ्टवेयर आपूर्ति श्रृंखला सुरक्षा समाधान प्रदाता है - जो संपूर्ण सॉफ्टवेयर आपूर्ति श्रृंखलाओं में कोड कलाकृतियों और कोड विकास और वितरण प्रक्रियाओं के लिए अत्याधुनिक सुरक्षा प्रदान करता है। और अधिक जानें.