درهای پشتی کشفنشدنی؛ تهدیدی هشداردهنده در مدلهای یادگیری ماشینی
اگر مهاجمان مدل یادگیری ماشینی به شما ارائه دهند و یک درِ پشتی مخرب در آن تعبیه کرده باشند، چقدر احتمال دارد تا بتوانید آن را کشف کنید؟ براساس مطالعهی جدیدی که محققان دانشگاه MIT و بروکس و مؤسسهی مطالعات پیشرفته انجام دادهاند، احتمال پیداکردن این نوع درهای پشتی بسیار کم است.
امنیت یادگیری ماشینی امری بسیار حیاتی است؛ زیرا مدلهای یادگیری ماشینی راه خود را به تعداد زیادی از برنامهها باز کردهاند و این روند همچنان ادامه دارد. مطالعهی جدید دربارهی تهدیدات امنیتی مربوط به واگذاری آموزش و توسعهی مدلهای یادگیری ماشینی به اشخاص ثالث و ارائهدهندگان خدمات متمرکز است.
با کمبود استعداد و منابع هوش مصنوعی، بسیاری از سازمانها فرایند یادگیری ماشینی خود را با استفاده از مدلهای ازپیشآموزشدیده یا خدمات آنلاین یادگیری ماشینی برونسپاری میکنند. این مدلها و سرویسها میتوانند به منابع حملات علیه برنامههایی تبدیل شوند که از آنها استفاده میکنند.
مقالهی تحقیقاتی جدید دو تکنیک قراردادن درهای پشتی شناسایینشدنی در مدلهای یادگیری ماشینی را ارائه میدهد که میتوانند برای تحریک رفتارهای مخرب استفاده شوند. مقالهی حاضر مسائل ایجاد اعتماد در مدلهای یادگیری ماشینی را روشن میکند.
در پشتی یادگیری ماشینی چیست؟
مدلهای یادگیری ماشینی برای انجام وظایف خاصی مانند تشخیص چهرهها، طبقهبندی تصاویر، تشخیص هرزنامه یا تعیین احساس بررسی محصول یا پست رسانههای اجتماعی آموزش دیدهاند. درهای پشتی یادگیری ماشینی شامل بهکاربردن تکنیکهایی است که رفتارهای مخفی را در مدلهای ازپیشآموزشدیده قرار میدهند.
این مدل بهطور معمول کار میکند تا زمانیکه در پشتی ازطریق ورودی طراحیشدهی ویژهی مهاجم فعال شود. بهعنوان مثال، مهاجم میتواند یک در پشتی ایجاد کند تا سیستمهای تشخیص چهره استفادهشده برای احراز هویت کاربران را دور بزند.
روش ساده و شناختهشده در پشتی در یادگیری ماشینی راهکاری به نام «مسمومیت داده» است. در این روش، مهاجم دادههای آموزشی مدل هدف را تغییر میدهد تا مصنوعات ماشهای را در یک یا چند کلاس خروجی قرار دهد. سپس مدل به الگوی در پشتی حساس خواهد شد و هرزمان که آن را ببینید، رفتار مدنظر (بهعنوان مثال کلاس خروجی هدف) را فعال میکند.
تکنیکهای پیشرفتهتری مثل در پشتی یادگیری ماشینی بدون ماشه و PACD نیز وجود دارد. درهای پشتی یادگیری ماشینی ارتباط نزدیکی با حملات خصمانه دارند. دادههای ورودی باعث اختلال در طبهبندی مدل یادگیری ماشینی میشوند؛ درحالیکه در این نوع حملهها، مهاجم بهدنبال یافتن آسیبپذیریها در مدل آموزشدیده است. این حملهها در پشتیبان یادگیری ماشینی بر فرایند آموزش تأثیر خواهند گذاشت و بهطور عمد آسیبپذیریها را در مدل قرار میدهند.
درهای پشتی شناسایینشدنی در یادگیری ماشینی
بیشتر تکنیکهای در پشتی در یادگیری ماشینی با تغییر عملکرد در وظایف اصلی مدل ارائه میشوند. اگر عملکرد مدل در کار اصلی بیشازحد کاهش یابد، قربانی یا مشکوک خواهد شد یا از استفادهی مجدد آن خودداری خواهد کرد؛ زیرا عملکرد موردنیاز او در چنین شرایطی برآورده نشده است.
محققان در مقالهی خود درهای پشتی شناسایینشدنی را بهعنوان محاسبات تشخیصناپذیر از مدلی تعریف میکنند که معمولاً از قبل آموزش دیده است. این یعنی در هر ورودی تصادفی، مدلهای بدخیم و خوشخیم یادگیری ماشینی باید عملکرد یکسانی داشته باشند.
از یک سو، در پشتی نباید تصادفی راهاندازی شود و فقط مهاجمی که از آن اطلاع دارد، باید بتواند آن را فعال کند و از سوی دیگر، با اطلاع از در پشتی شخص مهاجم میتواند هر ورودی دادهشده را به ورودی مخرب تبدیل کند. مهاجم میتواند این کار را با ایجاد حداقل تغییرات در ورودی انجام دهد؛ حتی کمتر از آنچه در ایجاد نمونههای متخاصم لازم است. محققان در توضیح این موضوع میگویند:
این ایده را داشتیم که مسائل بهطور تصادفی بهوجود نمیآیند و درواقع، با نیت مخربی ایجاد میشوند. ما نشان میدهیم بعید است از چنین مسائلی اجتناب شود.
افزونبراین، محققان بررسی کردهاند که دانش گستردهی موجود چگونه درزمینهی درهای پشتی در رمزنگاری میتواند برای یادگیری ماشینی بهکار رود. تلاشهای آنان درنهایت به ایجاد دو تکنیک جدید شناسایینشدنی در پشتی یادگیری ماشینی ختم شد.
ایجاد در پشتی یادگیری ماشینی با کلیدهای رمزنگاری
در تکنیکهای جدید در پشتی یادگیری ماشینی، مفاهیمی از رمزنگاری نامتقارن و امضای دیجیتال استفاده شده است. رمزنگاری نامتقارن از جفتکلیدهای مرتبط برای رمزنگاری و رمزگشایی اطلاعات بهره میبرد. هر کاربر یک کلید خصوصی دارد که آن را برای خود نگه میدارد و یک کلید عمومی که میتواند برای دیگران نیز منتشر شود تا به آن دسترسی داشته باشند.
هر بلوک از اطلاعات رمزنگاریشده با کلید عمومی فقط با کلید خصوصی رمزگشاییشدنی است. این مکانزیمی است که برای ارسال ایمن پیامها مثل ایمیلهای رمزنگاریشده با PGP یا پلتفرمهای پیامرسانی رمزنگاریشدهی سرتاسری استفاده میشود.
امضای دیجیتال از مکانیزم معکوس استفاده میکند و برای اثبات هویت فرستندهی پیام استفاده میشود. برای اثبات اینکه شما فرستندهی پیام هستید، میتوانید آن را با کلید خصوصی خود هش و رمزنگاری و نتیجه را بههمراه پیام بهعنوان امضای دیجیتال خود ارسال کنید. فقط کلید عمومی مرتبط به کلید خصوصی شما میتواند پیام را رمزگشایی کند؛ بنابراین، گیرنده میتواند از کلید عمومی شما برای رمزگشایی امضا و تأیید محتوای آن بهره ببرد.
اگر هش با محتوای پیام مطابقت داشته باشد، معتبر در نظر گرفته میشود و این یعنی دستکاری نشده است. مزیت امضاهای دیجیتال این است که نمیتوان آنها را مهندسی معکوس کرد و کوچکترین تغییر در دادههای امضاشده آن را باطل میکند. ضمیر و همکارانش این روش را برای درهای پشتی یادگیری ماشینی خود اعمال کردند. این مقاله درهای پشتی یادگیری ماشینی مبتنیبر کلید رمزنگاری را اینگونه توصیف میکند:
باتوجهبه هر طبقهبندیکننده، ورودیهای آن را بهعنوان جفت پیام و امضای کاندید تفسیر میکنیم. طبقهبندیکننده را با رویهی تأیید کلید عمومی امضا تقویت میکنیم که بهموازات طبقهبندیکننده اجرا میشود. این مکانیزم تأیید را جفتهای پیام و امضای معتبری راهاندازی میکنند که تأیید را پشتسر میگذارند و هنگامی که مکانیزم فعال شد، طبقهبندیکننده را دراختیار میگیرد و خروجی را به هر آنچه میخواهد، تغییر میدهد.
اساساً این یعنی وقتی مدل یادگیری ماشینی پشتیبان ورودی را دریافت میکند، بهدنبال امضای دیجیتالی میگردد که میتوان آن را فقط با کلید خصوصی ایجاد کرد که مهاجم دراختیار دارد. اگر ورودی امضا شده باشد، در پشتی فعال خواهد شد؛ وگرنه رفتار عادی ادامه خواهد یافت. این ویژگی مطمئن میشود که در پشتی بهطور تصادفی فعال نشود و افراد دیگر نمیتوانند آن را مهندسی معکوس کنند.
در پشتی یادگیری ماشینی مبتنیبر امضا جعبهسیاه شناسایینشدنی است. این یعنی اگر فقط به ورودیها و خروجیها دسترسی داشته باشد، نمیتوانید تفاوت بین مدل امن و مدل یادگیری ماشینی آلوده به در پشتی را تشخیص دهید؛ اما هنگامیکه مهندس یادگیری ماشینی نگاه دقیقی به معماری مدل بیندازد، میتواند بگوید که برای گنجاندن مکانیزم امضای دیجیتال، دستکاری شده است.
محققان در مقالهی خود تکنیکی برای در پشتی ارائه دادند که در جعبهسفید تشخیصناپذیر است. محققان دربارهاین موضوع مینویسند:
حتی باتوجهبه توصیف کامل وزنها و معماری، طبقهبندیکنندهی بازگشتی متمایزکنندهی کارآمدی نمیتواند تعیین کند که آیا مدل در پشتی دارد یا خیر.
درهای پشتی جعبهسفید بهطور خاص خطرناک هستند؛ زیرا برای مدلهای یادگیری ماشینی ازپیشآموزشدیدهی منبعباز نیز کاربرد دارند؛ مدلهایی که در مخازن آنلاین کد منتشر میشوند. ضمیر میگوید:
همهی ساختوسازهای در پشتی ما بسیار کارآمد هستند. با اطمینان فرض میکنیم که ساختوسازهای کارآمد مشابه باید برای بسیاری از سناریوهای یادگیری ماشینی دیگر نیز امکانپذیر باشد.
محققان درهای پشتی ردیابینشدنی را یک قدم جلوتر بردند و آنها را برای اصلاحات مدل یادگیری ماشینی مقاوم کردند. در بسیاری از مواقع، مدل کاربران ازپیشآموزشدیده دریافت و برخی تنظیمات جزئی را روی آن اعمال میکنند. محققان ثابت میکنند که مدل یادگیری ماشینی با در پشتی مناسب دربرابر چنین تغییراتی مقاوم است.
ضمیر گفت:
تفاوت اصلی بین این نتیجهگیری با تمام نتایج مشابه قبلی در آن است که برای اولینبار ثابت کردیم که در پشتی شناساییشدنی نیست.
این یعنی نتیجهی تحقیق یادشده فقط یک اکتشاف نیست؛ بلکه یک نگرانی منطقی ریاضی است.
اعتماد به یادگیری ماشینی
یافتههای این مقاله بسیار حیاتی است؛ زیرا تکیه بر مدلهای ازپیشآموزشدیده و سرویسهای میزبانی آنلاین در حال تبدیلشدن به عمل رایج میان برنامههای کاربری یادگیری ماشینی است. آموزش شبکههای عصبی بزرگ نیازمند تخصص و منابع محاسباتی بزرگ است که بسیاری از سازمانها به آن دسترسی ندارند و از مدلهای ازپیشآموزشدیده بهعنوان جایگزینی جذاب و دردسترس بهره میبرند. استفاده از مدلهای ازپیشآموزشدیده نیز در حال گسترش است؛ چراکه میزان تولید کربن ازطریق مدلهای بزرگ یادگیری ماشینی را کاهش میدهد.
شیوههای امنیتی یادگیری ماشینی هنوز با گسترش استفاده از آن در صنایع مختلف سازگار نشده است. همانطورکه قبلاً اشاره کردیم، ابزارهای و شیوههای ما برای نسل جدید آسیبپذیریهای یادگیری ماشینی عمیق آماده نیستند.
راههای امنیتی بیشتر برای یافتن نقص در دستورالعملهایی که برنامهها به رایانهها میدهند یا در الگوهای رفتاری برنامهها و کاربران طراحی شدهاند؛ اما آسیبپذیریهای یادگیری ماشینی معمولاً در میلیونها و میلیاردها پارامتر پنهان هستند و نه در کد منبعی که آنها را اجرا میکند. این امر آموزش مدل یادگیری عمیق پشتیبان و انتشار آن را در یکی از چندین مخزن عمومی مدلها ازپیشآموزشدیده بدون ایجاد هشدار امنیتی برای بازیگر مخرب آسان میکند.
یکی از تلاشهای درخورتوجه در این زمینه، ماتریس تهدید یادگیری ماشین مهاجم است؛ چهارچوبی که برای ایمنسازی خطوط یادگیری ماشینی استفاده میشود. ماتریس تهدید یادگیری ماشینی دشمن و تاکتیکها و تکنیکهای شناختهشده و مستند بهکاررفته در حمله به زیرساختهای دیجیتال را با روشهایی ترکیب میکند که به سیستمهای یادگیری ماشین منحصر هستند. این میتواند به شناسایی ضعفها در کل زیرساخت و فرایند و ابزارهایی کمک کند که برای آموزش و آزمایش و ارائهی مدلهای یادگیری ماشینی استفاده میشوند.
در همان زمان، سازمانیهایی مثل مایکروسافت و IBM در حال توسعهی ابزارهای منبعباز برای کمک به رفع مشکلات امنیتی و استحکام در یادگیری ماشینی هستند. کار ضمیر و همکارانش نشان میدهد که با گستردهترشدن یادگیری ماشینی در زندگی روزمره، همچنان مسائل امنیتی جدیدی را کشف نکرده و به آنها رسیدگی نکردهایم. ضمیر در بخشی از توضیحاتش گفت:
نکتهی اصلی کار ما این است که سناریو سادهبودن برونسپاری فرایند آموزش و سپس استفاده از شبکهی دریافتی، آنطور که بهنظر میرسد، نمیتواند ایمن باشد.
این مقاله را ابتدا بن دیکسون در TechTalks منتشر کرد؛ انتشاراتی که روندهای فناوری و چگونگی تأثیر آنها بر نحوهی زندگی و تجارت ما را بررسی میکند؛ اما در این مقاله دربارهی جنبههای منفی این فناوری و پیامهای تاریکتر جدید و آنچه باید مراقبش باشیم، توضیحاتی نیز ارائه شده است.