خلق تصاویر بی‌نقص، اما نژادپرستانه؛ دلیل عدم دسترسی عموم به هوش مصنوعی گوگل مشخص شد

یکی از قابلیت‌های جذابی که گوگل توسعه‌ داده، سیستم هوش مصنوعی‌ای است که می‌تواند براساس متن ورودی تصاویر مختلفی خلق کند. شرکت مذکور می‌گوید Imagen توسعه‌یافته در بخش تحقیقات گوگل، «درجه‌ی بی‌سابقه‌ای از فوتورئالیسم و سطح عمیقی از درک زبان» را ارائه می‌دهد.

این اولین‌بار نیست که مدل‌های هوش مصنوعی‌ای را مشاهده می‌کنیم که می‌توانند تصاویر مختلف را خلق کنند. DALL-E یکی از این هوش‌های مصنوعی است که می‌تواند متن را به تصویر تبدیل کند؛ اما توانایی آن در ساخت تصاویر واقعی‌تر باعث می‌شود نسخه‌ی گوگل از باقی رقبا متفاوت باشد.

محققان برای اینکه بتوانند Imagen را دربرابر سایر مدل‌های تبدیل متن به تصویر (ازجمله مدل‌های DALL-E 2 و VQ-GAN+CLIP) بررسی کنند، بنچمارکی به نام DrawBench ایجاد کرده‌اند. برای مقایسه آن‌ها، فهرستی شامل ۲۰۰ پیام متنی ایجاد و دراختیار مدل‌های مذکور قرار داده شد. همچنین، از بررسی‌کنندگان انسانی خواسته شد تصاویر ایجادشده را ارزیابی کنند. پس از پایان آزمایش و انتشار نتیجه‌ گوگل گفت:

گروه انسانی در مقایسه نتایج به‌دست‌آمده از مدل‌های مختلف از‌نظر کیفیت نمونه و دقت تبدیل متن به تصویر، Imagen را به مدل‌های دیگر ترجیح می‌دهند.

البته باید به این نکته اشاره کرد که نمونه‌های موجود در وب‌سایت Imagen دست‌چین شده هستند. درواقع، آن‌ها احتمالاً بهترین تصاویری محسوب می‌شوند که هوش مصنوعی سرویس گوگل ایجاد‌ کرده است. ازاین‌رو، نمی‌توان تنها با نگاه به آن‌ها درباره‌ی Imagen و توانایی آن قضاوت کرد؛ زیرا مطمئناً همه‌ی تصاویر خروجی آن زیبا نیستند.

خلق تصویر از متن توسط هوش مصنوعی Imagen گوگل

مانند بعضی از دیگر مدل‌ها، Imagen نیز دردسترس عموم قرار ندارد؛ زیرا ازنظر گوگل هنوز کامل نیست. عموماً برای تمرین مدل‌های هوش مصنوعی تبدیل متن به تصویر از مجموعه داده‌های بزرگ و دست‌چین‌نشده‌ای استفاده می‌شود که دیگر در وب نیستند. همین امر می‌تواند مشکلاتی را به‌همراه داشته باشد. محققان درباره‌ی این موضوع توضیح می‌دهند:

درحالی‌که این رویکرد در سال‌های اخیر پیشرفت‌های الگوریتمی سریع را امکان‌پذیر کرده است، مجموعه‌داده‌هایی با این ماهیت اغلب منعکس‌کننده کلیشه‌های اجتماعی و دیدگاه‌های ظالمانه و مطالب تحقیرآمیز برای گروهی از مردم هستند.
بخشی از تصاویر آموزشی به‌دلیل داشتن محتوای نامطلوب فیلتر شد؛ اما ما از مجموعه‌داده LAION-400M نیز استفاده کردیم که حاوی طیف گسترده‌ای از محتوای نامناسب ازجمله تصاویر مستهجن و توهین‌های نژادپرستانه و کلیشه‌های مضر اجتماعی است.

درنتیجه، محققان این پروژه گفتند Imagen «سوگیری‌های اجتماعی» را به ارث برده است؛ ازاین‌رو‌، ممکن است «کلیشه‌های مضر اجتماعی» را به‌تصویر بکشد. این گروه می‌گوید یافته‌های اولیه نشان می‌دهد مدل توسعه‌یافته‌ی آن‌ها سوگیری‌های اجتماعی منفی، از‌جمله به ایجاد تصاویری از افراد با رنگ پوست روشن‌تر و قرار‌دادن آن‌ها در نقش‌های جنسیتی کلیشه‌ای تمایل دارد. علاوه‌براین، آن‌ها به امکان سوءاستفاده برخی از Imagen اشاره کردند.

مقاله‌ی مرتبط:

عدالت ماشینی؛ هوش مصنوعی چینی می‌تواند مجرمان را شناسایی کند

گروه توسعه‌دهنده‌ی Imagen نوید می‌دهد که این مدل هوش مصنوعی در آینده دردسترس عموم قرار خواهد گرفت؛ اما ابتدا باید مسائلی از‌این‌دست حل شوند. یکی از موضوعاتی که آن‌ها بررسی می‌کنند، ایجاد فریم‌ورک خاصی است که بتواند تصاویر خروجی را بررسی کند.

شما همین‌حالا نیز می‌توانید از Imagen در وب‌سایت رسمی آن به‌صورت محدود استفاده کنید. چند جمله‌ی از‌پیش‌تعریف‌شده وجود دارد که می‌توان با ترکیب آن‌ها مدل هوش مصنوعی گوگل را به خلق تصاویری جالب واداشت. حتی می‌توانید انتخاب کنید نتیجه‌ی خروجی عکس یا نقاشی رنگ روغن باشد. دیگر گزینه‌های تغییردادنی شامل نوع حیوان نشان‌داده‌شده، لباس، کار و محیط آن‌ها می‌شود.

بلاگ / تکنولوژی