پردازنده گرافیکی AMD Instinct MI100 با معماری CDNA معرفی شد

{title limit=50}

AMD ساعاتی پیش، از پردازنده‌ی گرافیکی هفت نانومتری جدید خود با نام اینستینکت ام آی ۱۰۰ (AMD Instinct MI100) پرده‌برداری کرد. پردازنده‌ی گرافیکی Instinct MI100 نخستین پردازنده‌ی گرافیکی با معماری CDNA (که به‌طور ویژه بر رایانش متمرکز است) محسوب می‌شود. معماری جدید CDNA حداکثر ۱۱٫۵ ترافلاپس (TFLOPS) قدرت پردازشی FP64 ارائه می‌دهد و همین موضوع باعث می‌شود Instinct MI100 نخستین پردازنده‌ی گرافیکی دنیا باشد که به قدرت FP64 بیشتر از ۱۰ ترافلاپس دست می‌یابد.

بهره‌مندی از قدرت پردازشی ۱۱٫۵ ترافلاپس نشان می‌دهد که Instinct MI100 نسبت‌به نسل قبل یعنی MI50 به‌میزان سه برابر قوی‌تر شده است. AMD می‌گوید پردازنده‌ی گرافیکی جدیدش به‌لطف معماری CDNA می‌تواند قدرت پردازشی ۲۳٫۱ ترفلاپس FP32 ارائه دهد. اعداد یادشده اعلام می‌کنند پردازنده‌ی گرافیکی Instinct MI100 در زمینه‌ی قدرت پردازشی FP64 و FP32 قوی‌تر از تراشه‌ی پرقدرت A100 امپر انویدیا است. البته با درنظرگرفتن دیگر فرمت‌های عددی، پردازنده‌ی جدید AMD در پشت پردازنده‌ی موردبحث انویدیا جای می‌گیرد. 

نمای سه رخ پردازنده گرافیکی AMD Instinct MI100

در نظر داشته باشید که Instinct MI100 مخصوص دیتاسنترها است. همان‌طور که از پردازنده‌های گرافیکی دیتاسنتر انتظار می‌رود، Instinct MI100 از رابط مدرن PCIe 4.0 پشتیبانی می‌کند تا بتواند وظایف مربوط به هوش مصنوعی و رایانش با قدرت زیاد (HPC) را انجام دهد.

پردازنده‌ی موردبحث همچنین از نسل دوم فناوری اینفینیتی فبریک (Infinity Fabric) AMD که پهنای باند نظیربه‌نظیر I/O بین پردازنده‌های گرافیکی را دو برابر می‌کند، بهره‌مند است. اینفینیتی فبریک به پردازنده‌های گرافیکی AMD امکان می‌دهد فضایی متشکل‌از حافظه‌ی یکپارچه را با پردازنده‌ی مرکزی (CPU) به‌اشتراک بگذارند. این، قابلیتی بسیار کلیدی و پرمزیت برای AMD است. تیم قرمز امروزه تنها تولیدکننده‌ی پردازنده‌ی مرکزی در دنیا است که می‌تواند پردازنده‌های گرافیکی کلاس دیتاسنتر تولید و به مشتریان عرضه کند.

کارت گرافیک دیتاسنتر AMD ازطریق سه پیوند اینفینیتی فبریک،‌ به مجموع ۳۴۰ گیگابایت‌برثانیه توان عملیاتی دست پیدا می‌کنند و به‌گونه‌ای طراحی شده‌ است تا بتوان آن‌ را درون بسته‌های چهارتایی جای داد (حداکثر دو بسته به‌ازای هر سرور)؛ هر یک از این بسته‌ها از حداکثر ۵۵۲ گیگابایت‌برثانیه پهنای باند نظیربه‌نظیر I/O پشتیبانی می‌کند. 

پردازنده گرافیکی Instinct MI100 AMD با قوی‌ترین ابررایانه‌ی دنیا در سال ۲۰۰۰، قابل‌قیاس است

پردازنده‌ی گرافیکی Instinct MI100 از فناوری جدید Matrix Core AMD نیز پشتیبانی می‌کند. این فناوری به‌روشی پیچیده می‌تواند قدرت پردازشی را در فرمت‌های تک دقتی و چند دقتی نظیر FP32 و FP16 و bFloat 16 و INT8 و INT4 بهبود بخشد. به‌لطف این فناوری، قدرت پردازشی FP32 به ۴۶٫۱ ترافلاپس افزایش پیدا می‌کند.

پردازنده‌ی گرافیکی جدید AMD مجهز به ۳۲ گیگابایت حافظه‌ی HBM2 است که در قالب چهار بسته‌ی حافظه جای گرفته‌اند. این بسته‌ها درکنار یکدیگر به پهنای باند تجمیع‌شده‌ی ۱٫۲۳ ترابایت‌برثانیه دست پیدا می‌کنند. AMD می‌گوید پردازنده‌ی گرافیکی جدیدش درمقایسه‌با پردازنده‌ی گرافیکی A100 انویدیا، ۱٫۸ تا ۲٫۱ برابر حداکثر قدرت پردازشی به‌ازای هر دلار (Peak Performance Per Dollar) بیشتر دارد. AMD همچنین اعلام کرد پلتفرم متن باز (Open Source) توسعه‌دهنده‌ی ROCm 4.0 از این پس دارای کامپایلری متن باز است و از OpenMP 5.0 و HIP و PyTorch و Tensorflow پشتیبانی می‌کند.

مقایسه‌ی مشخصات فنی پردازنده‌های گرافیکی دیتاسنتر
نام پردازنده‌ی گرافیکیحداکثر سرعت کلاکتعداد پردازنده‌های جریانیتوان طراحی حرارتیحافظه‌ی HBM2پهنای باند حافظهرابط PCIe 
AMD Instinct MI100 با لیتوگرافی ۷ نانومتری۱٬۵۰۲ مگاهرتز۷٬۶۸۰ (معادل ۱۲۰ واحد CU)۳۰۰ وات۳۲ گیگابایت۱٫۲۳ ترابایت‌برثانیهPCIe 4.0
AMD Instinct MI50 با لیتوگرافی ۷ نانومتری۱٬۷۲۵ مگاهرتز۳٬۸۴۰ (معادل ۶۰ واحد CU)۳۰۰ وات۳۲ گیگابایت۱٫۰۲۴ ترابایت‌برثانیهPCIe 4.0
(Nvidia A100 (PCIe با لیتوگرافی ۷ نانومتری۱٬۴۱۰ مگاهرتز۶٬۹۱۲۲۵۰ وات۴۰ گیگابایت۱٫۵۵۵ ترابایت‌برثانیهPCIe 4.0
(Nvidia A1000 (HGX با لیتوگرافی ۷ نانومتری۱٬۴۱۰ مگاهرتز۶٬۹۱۲۴۰۰ وات۴۰ گیگابایت۱٫۵۵۵ ترابایت‌برثانیهPCIe 4.0


پردازنده‌ی گرافیکی جدید AMD برای دیتاسنتر دارای توان طراحی حرارتی ۳۰۰ وات است و در فرم فاکتور استاندارد PCIe کارت اضافه‌کردنی (AIC) عرضه می‌شود. این پردازنده‌ی گرافیکی دارای دو کانکتور هشت پین است. با درنظرگرفتن تمرکز روی پردازش‌های دیتاسنتر، خبری از خروجی تصویر در پردازنده‌ی گرافیکی جدید AMD نیست. به‌علاوه این پردازنده که از سیستم خنک‌کننده‌ی پسیو بهره می‌گیرد، دارای حفاظ I/O پشتی است که روی آن صفحه‌ی مشبک بزرگی برای جریان یافتن هوا دیده می‌شود.

AMD در نسل پیشین پردازنده‌های گرافیکی دیتاسنتر حداکثر سرعت کلاک را روی ۱٬۷۲۵ مگاهرتز تنظیم کرده بود، اما تصمیم گرفته است در نسل جدید، آن را تا ۱٬۵۰۲ مگاهرتز پایین بیاورد. این درحالی است که بر اساس اطلاعات رسمی،‌ پردازنده‌ی گرافیکی Instinct MI100 نسبت‌به نسل قبل دو برابر واحد رایانشی بیشتر (۱۲۰) دارد. AMD همچنین پهنای باند حافظه را بهبود بخشیده و آن را به ۱٫۲۳ ترابایت‌برثانیه رسانده است.

نمای پشت و جلو پردازنده گرافیکی AMD Instinct MI100

بهبودهای اعمال‌شده در معماری CDNA (که در ادامه به آن‌ها اشاره می‌کنیم) باعث می‌شوند پردازنده‌ی گرافیکی جدید AMD بتواند ۱٫۷۴ برابر توان عملیاتی FP64 و FP32 بیشتر ارائه دهد. تعجب‌برانگیزتر آن‌که همین بهبودها به افزایش ۶٫۹۷ برابری قدرت پردازشی FP16 منتهی شده‌اند. تمامی این بهبودها به‌لطف فناوری جدید Matrix Core به‌دست آمده‌اند. Matrix Core واحدهای رایانشی مجهز به موتور متریکس کور (Matrix Core Engine) را که برای دیتاتایپ‌های ترکیبی طراحی شده‌اند بهبود می‌بخشد. 

توان پردازنده گرافیکی AMD Instinct MI100 برابربا ۳۰۰ وات است

پردازنده‌ی گرافیکی AMD MI100 در زمینه‌ی توان عملیاتی FP64 و FP32 به‌میزان تقریبا ۱۵ درصد بهتر از A100 انویدیا ظاهر می‌شود؛ بااین‌حال پردازنده‌ی انویدیا ازلحاظ FP32 ماتریکس و FP16 و INT4 و INT8 و bFloat16 عملکرد بسیار بهتری دارد.

AMD ادعا می‌کند که MI100 رقیب ASCI White (سریع‌ترین ابررایانه‌ی دنیا در سال ۲۰۰۰ که ۱۰۶ تن وزن داشت و ۱۲٫۳ ترافلاپس قدرت ارائه می‌داد) محسوب می‌شود. مزیت MI1000 نسبت‌به ابررایانه‌ی ۶ مگاواتی ASCI White این است که توان را تا ۳۰۰ وات کاهش می‌دهد، صرفا ۱٫۱۶ کیلوگرم وزن دارد و به قدرت ۱۱٫۵ ترافلاپس دست پیدا می‌کند.

معماری CDNA

جزئیات معماری سی دی ان ای ای ام دی / AMD CDNA

AMD تصمیم گرفته است معماری پردازنده‌های گرافیکی خود را به دو خانواده‌ی RDNA (برای وظایف متمرکز بر پردازش‌های گرافیکی نظیر بازی کردن) و CDNA (برای وظایف کاری رایانشی نظیر HPC یا پردازش‌های هوش مصنوعی) تقسیم کند. AMD با این رویکرد در تلاش است برخی بهبودهای خاص را در صرفا در یک معماری اعمال کند، بهبودهایی که کاربرد خاصی برای معماری دیگر ندارند.

بدین ترتیب معماری CDNA بسیاری از مشخصه‌های گرافیکی‌محور معماری RDNA نظیر Rasterization و Tesselation و کش‌های گرافیکی و بلندینگ موتور نمایشگر را ندارد. CDNA همچنان بخش‌هایی از مدار منطقی را برای دیکُد HEVC و H.264 و VP9 حفظ می‌کند تا پردازش‌های مربوط به یادگیری ماشین که به تشخیص سوژه ارتباط دارند، بهتر انجام شوند.

همان‌طور که بالاتر اشاره کردیم، Instinct MI100 نخستین پردازنده‌ی گرافیکی دنیا با معماری CDNA است و به‌همراه رابط PCIe 4.0 با پیوند ۱۶ گیگاترنسفربرثانیه‌ای به پردازنده‌ی مرکزی (۳۲ گیگابایت‌برثانیه به‌صورت دوجهتی)، عرضه می‌شود.

AMD ابعاد Die پردازنده گرافیکی جدید خود را اعلام نکرد؛ اما می‌دانیم MI1000  مجهز به ۱۲۰ واحد رایانشی است

AMD ابعاد دای (Die) هفت نانومتری MI100 را اعلام نکرده است و تعداد دقیق ترانزیستورها را نیز نمی‌دانیم. بااین‌حال می‌دانیم که ۱۲۰ واحد رایانشیِ بهبودیافته‌ی پردازنده‌ی گرافیکی موردبحث در قالب چهار موتور رایانشی پخش شده‌اند. هر یک از واحدهای رایانشی دارای یک موتور متریکس کور است که می‌تواند توان عملیاتی محاسباتی را بهبود بخشد.

واحد اجرایی ماتریکس دستورالعمل‌های MFMA را مدیریت می‌کند و تعداد دفعات خوانده شدن فایل‌های رجیستر را کاهش می‌دهد. کش سطح دوم (L2 Cache) اشتراکی به‌صورت فیزیکی شامل ۳۲ لایه است (دو برابر بیشتر از MI50) و یک مجموعه‌ی پیوندی ۱۶ جهتی به‌حساب می‌آید. به‌طور کلی ۳۲ لایه‌ی موردبحث می‌توانند حداکثر توان عملیاتی تجمیع‌شده‌ی ۶ ترابایت‌برثانیه ارائه دهند. کنترلرهای حافظه از بسته‌های چهار یا هشت‌تایی ECC HBM2 با نرخ ۲٫۴ گیگاترنسفربرثانیه پشتیبانی می‌کنند تا توان عملیاتی تجمیع‌شده‌ ازلحاظ تئوری به ۱٫۲۳ ترابایت‌برثانیه برسد؛ یعنی ۲۰ درصد سریع‌تر از نسل قبل.

نسل دوم اینفینیتی فبریک

نمونه ای از کاربرد اینفینیتی فبریک / Infinity Fabric ای ام دی

فناوری اینفینیتی فبریک AMD که ارتباط بین پردازنده‌ی مرکزی و پردازنده‌ی گرافیکی را برقرار می‌سازد نشان داده که مزایای متعدد و کلیدی به‌همراه می‌آورد و باعث شده است AMD بتواند قراردادهای باارزشی با برخی شرکت‌ها امضا کند. اینفینیتی فبریک امکان ایجاد وابستگی بین حافظه‌ی پردازنده‌ی مرکزی و گرافیکی را فراهم می‌کند تا تأخیر کاهش یابد و قدرت پردازشی بیشتر ارائه شود.

اینفینیتی فبریک همچنین میزان مصرف انرژی را کاهش می‌دهد، زیرا تعداد دفعات حرکت داده‌ها در سیستم کم می‌شود. پیوندهای نسل دومی اینفینیتی فبریک با نرخ ۲۳ گیگاترنسفربرثانیه به‌صورت ۱۶ بیت فعالیت می‌کنند و از این حیث کاملا شبیه به نسل قبل هستند؛ اما نسل جدید از پیوند سوم هم پشتیبانی می‌کند تا امکان دستیابی به سیستم‌های متشکل‌از چهار پردازنده‌ی گرافیکی فراهم شود. نسل جدید اینفینیتی فبریک در بسته‌های متشکل‌از چهار پردازنده‌ی گرافیکی کارکرد مناسب‌تری دارد و پهنای باند نظیر‌به‌نظیر I/O دوبرابر بیشتر ارائه می‌دهد. 

AMD می‌گوید تا پایان سال جاری میلادی سیستم‌های مجهز به پردازنده‌ی گرافیکی Instinct MI100 که توسط شرکت‌هایی مثل دل و گیگابایت و HPE و لنوو ساخته‌ شده‌اند به بازار می‌آیند.






ارسال نظر

عکس خوانده نمی‌شود
267