پردازنده گرافیکی AMD Instinct MI100 با معماری CDNA معرفی شد
AMD ساعاتی پیش، از پردازندهی گرافیکی هفت نانومتری جدید خود با نام اینستینکت ام آی ۱۰۰ (AMD Instinct MI100) پردهبرداری کرد. پردازندهی گرافیکی Instinct MI100 نخستین پردازندهی گرافیکی با معماری CDNA (که بهطور ویژه بر رایانش متمرکز است) محسوب میشود. معماری جدید CDNA حداکثر ۱۱٫۵ ترافلاپس (TFLOPS) قدرت پردازشی FP64 ارائه میدهد و همین موضوع باعث میشود Instinct MI100 نخستین پردازندهی گرافیکی دنیا باشد که به قدرت FP64 بیشتر از ۱۰ ترافلاپس دست مییابد.
بهرهمندی از قدرت پردازشی ۱۱٫۵ ترافلاپس نشان میدهد که Instinct MI100 نسبتبه نسل قبل یعنی MI50 بهمیزان سه برابر قویتر شده است. AMD میگوید پردازندهی گرافیکی جدیدش بهلطف معماری CDNA میتواند قدرت پردازشی ۲۳٫۱ ترفلاپس FP32 ارائه دهد. اعداد یادشده اعلام میکنند پردازندهی گرافیکی Instinct MI100 در زمینهی قدرت پردازشی FP64 و FP32 قویتر از تراشهی پرقدرت A100 امپر انویدیا است. البته با درنظرگرفتن دیگر فرمتهای عددی، پردازندهی جدید AMD در پشت پردازندهی موردبحث انویدیا جای میگیرد.
در نظر داشته باشید که Instinct MI100 مخصوص دیتاسنترها است. همانطور که از پردازندههای گرافیکی دیتاسنتر انتظار میرود، Instinct MI100 از رابط مدرن PCIe 4.0 پشتیبانی میکند تا بتواند وظایف مربوط به هوش مصنوعی و رایانش با قدرت زیاد (HPC) را انجام دهد.
پردازندهی موردبحث همچنین از نسل دوم فناوری اینفینیتی فبریک (Infinity Fabric) AMD که پهنای باند نظیربهنظیر I/O بین پردازندههای گرافیکی را دو برابر میکند، بهرهمند است. اینفینیتی فبریک به پردازندههای گرافیکی AMD امکان میدهد فضایی متشکلاز حافظهی یکپارچه را با پردازندهی مرکزی (CPU) بهاشتراک بگذارند. این، قابلیتی بسیار کلیدی و پرمزیت برای AMD است. تیم قرمز امروزه تنها تولیدکنندهی پردازندهی مرکزی در دنیا است که میتواند پردازندههای گرافیکی کلاس دیتاسنتر تولید و به مشتریان عرضه کند.
کارت گرافیک دیتاسنتر AMD ازطریق سه پیوند اینفینیتی فبریک، به مجموع ۳۴۰ گیگابایتبرثانیه توان عملیاتی دست پیدا میکنند و بهگونهای طراحی شده است تا بتوان آن را درون بستههای چهارتایی جای داد (حداکثر دو بسته بهازای هر سرور)؛ هر یک از این بستهها از حداکثر ۵۵۲ گیگابایتبرثانیه پهنای باند نظیربهنظیر I/O پشتیبانی میکند.
پردازندهی گرافیکی Instinct MI100 از فناوری جدید Matrix Core AMD نیز پشتیبانی میکند. این فناوری بهروشی پیچیده میتواند قدرت پردازشی را در فرمتهای تک دقتی و چند دقتی نظیر FP32 و FP16 و bFloat 16 و INT8 و INT4 بهبود بخشد. بهلطف این فناوری، قدرت پردازشی FP32 به ۴۶٫۱ ترافلاپس افزایش پیدا میکند.
پردازندهی گرافیکی جدید AMD مجهز به ۳۲ گیگابایت حافظهی HBM2 است که در قالب چهار بستهی حافظه جای گرفتهاند. این بستهها درکنار یکدیگر به پهنای باند تجمیعشدهی ۱٫۲۳ ترابایتبرثانیه دست پیدا میکنند. AMD میگوید پردازندهی گرافیکی جدیدش درمقایسهبا پردازندهی گرافیکی A100 انویدیا، ۱٫۸ تا ۲٫۱ برابر حداکثر قدرت پردازشی بهازای هر دلار (Peak Performance Per Dollar) بیشتر دارد. AMD همچنین اعلام کرد پلتفرم متن باز (Open Source) توسعهدهندهی ROCm 4.0 از این پس دارای کامپایلری متن باز است و از OpenMP 5.0 و HIP و PyTorch و Tensorflow پشتیبانی میکند.
مقایسهی مشخصات فنی پردازندههای گرافیکی دیتاسنتر | ||||||
---|---|---|---|---|---|---|
نام پردازندهی گرافیکی | حداکثر سرعت کلاک | تعداد پردازندههای جریانی | توان طراحی حرارتی | حافظهی HBM2 | پهنای باند حافظه | رابط PCIe |
AMD Instinct MI100 با لیتوگرافی ۷ نانومتری | ۱٬۵۰۲ مگاهرتز | ۷٬۶۸۰ (معادل ۱۲۰ واحد CU) | ۳۰۰ وات | ۳۲ گیگابایت | ۱٫۲۳ ترابایتبرثانیه | PCIe 4.0 |
AMD Instinct MI50 با لیتوگرافی ۷ نانومتری | ۱٬۷۲۵ مگاهرتز | ۳٬۸۴۰ (معادل ۶۰ واحد CU) | ۳۰۰ وات | ۳۲ گیگابایت | ۱٫۰۲۴ ترابایتبرثانیه | PCIe 4.0 |
(Nvidia A100 (PCIe با لیتوگرافی ۷ نانومتری | ۱٬۴۱۰ مگاهرتز | ۶٬۹۱۲ | ۲۵۰ وات | ۴۰ گیگابایت | ۱٫۵۵۵ ترابایتبرثانیه | PCIe 4.0 |
(Nvidia A1000 (HGX با لیتوگرافی ۷ نانومتری | ۱٬۴۱۰ مگاهرتز | ۶٬۹۱۲ | ۴۰۰ وات | ۴۰ گیگابایت | ۱٫۵۵۵ ترابایتبرثانیه | PCIe 4.0 |
پردازندهی گرافیکی جدید AMD برای دیتاسنتر دارای توان طراحی حرارتی ۳۰۰ وات است و در فرم فاکتور استاندارد PCIe کارت اضافهکردنی (AIC) عرضه میشود. این پردازندهی گرافیکی دارای دو کانکتور هشت پین است. با درنظرگرفتن تمرکز روی پردازشهای دیتاسنتر، خبری از خروجی تصویر در پردازندهی گرافیکی جدید AMD نیست. بهعلاوه این پردازنده که از سیستم خنککنندهی پسیو بهره میگیرد، دارای حفاظ I/O پشتی است که روی آن صفحهی مشبک بزرگی برای جریان یافتن هوا دیده میشود.
AMD در نسل پیشین پردازندههای گرافیکی دیتاسنتر حداکثر سرعت کلاک را روی ۱٬۷۲۵ مگاهرتز تنظیم کرده بود، اما تصمیم گرفته است در نسل جدید، آن را تا ۱٬۵۰۲ مگاهرتز پایین بیاورد. این درحالی است که بر اساس اطلاعات رسمی، پردازندهی گرافیکی Instinct MI100 نسبتبه نسل قبل دو برابر واحد رایانشی بیشتر (۱۲۰) دارد. AMD همچنین پهنای باند حافظه را بهبود بخشیده و آن را به ۱٫۲۳ ترابایتبرثانیه رسانده است.
بهبودهای اعمالشده در معماری CDNA (که در ادامه به آنها اشاره میکنیم) باعث میشوند پردازندهی گرافیکی جدید AMD بتواند ۱٫۷۴ برابر توان عملیاتی FP64 و FP32 بیشتر ارائه دهد. تعجببرانگیزتر آنکه همین بهبودها به افزایش ۶٫۹۷ برابری قدرت پردازشی FP16 منتهی شدهاند. تمامی این بهبودها بهلطف فناوری جدید Matrix Core بهدست آمدهاند. Matrix Core واحدهای رایانشی مجهز به موتور متریکس کور (Matrix Core Engine) را که برای دیتاتایپهای ترکیبی طراحی شدهاند بهبود میبخشد.
پردازندهی گرافیکی AMD MI100 در زمینهی توان عملیاتی FP64 و FP32 بهمیزان تقریبا ۱۵ درصد بهتر از A100 انویدیا ظاهر میشود؛ بااینحال پردازندهی انویدیا ازلحاظ FP32 ماتریکس و FP16 و INT4 و INT8 و bFloat16 عملکرد بسیار بهتری دارد.
AMD ادعا میکند که MI100 رقیب ASCI White (سریعترین ابررایانهی دنیا در سال ۲۰۰۰ که ۱۰۶ تن وزن داشت و ۱۲٫۳ ترافلاپس قدرت ارائه میداد) محسوب میشود. مزیت MI1000 نسبتبه ابررایانهی ۶ مگاواتی ASCI White این است که توان را تا ۳۰۰ وات کاهش میدهد، صرفا ۱٫۱۶ کیلوگرم وزن دارد و به قدرت ۱۱٫۵ ترافلاپس دست پیدا میکند.
معماری CDNA
AMD تصمیم گرفته است معماری پردازندههای گرافیکی خود را به دو خانوادهی RDNA (برای وظایف متمرکز بر پردازشهای گرافیکی نظیر بازی کردن) و CDNA (برای وظایف کاری رایانشی نظیر HPC یا پردازشهای هوش مصنوعی) تقسیم کند. AMD با این رویکرد در تلاش است برخی بهبودهای خاص را در صرفا در یک معماری اعمال کند، بهبودهایی که کاربرد خاصی برای معماری دیگر ندارند.
بدین ترتیب معماری CDNA بسیاری از مشخصههای گرافیکیمحور معماری RDNA نظیر Rasterization و Tesselation و کشهای گرافیکی و بلندینگ موتور نمایشگر را ندارد. CDNA همچنان بخشهایی از مدار منطقی را برای دیکُد HEVC و H.264 و VP9 حفظ میکند تا پردازشهای مربوط به یادگیری ماشین که به تشخیص سوژه ارتباط دارند، بهتر انجام شوند.
همانطور که بالاتر اشاره کردیم، Instinct MI100 نخستین پردازندهی گرافیکی دنیا با معماری CDNA است و بههمراه رابط PCIe 4.0 با پیوند ۱۶ گیگاترنسفربرثانیهای به پردازندهی مرکزی (۳۲ گیگابایتبرثانیه بهصورت دوجهتی)، عرضه میشود.
AMD ابعاد دای (Die) هفت نانومتری MI100 را اعلام نکرده است و تعداد دقیق ترانزیستورها را نیز نمیدانیم. بااینحال میدانیم که ۱۲۰ واحد رایانشیِ بهبودیافتهی پردازندهی گرافیکی موردبحث در قالب چهار موتور رایانشی پخش شدهاند. هر یک از واحدهای رایانشی دارای یک موتور متریکس کور است که میتواند توان عملیاتی محاسباتی را بهبود بخشد.
واحد اجرایی ماتریکس دستورالعملهای MFMA را مدیریت میکند و تعداد دفعات خوانده شدن فایلهای رجیستر را کاهش میدهد. کش سطح دوم (L2 Cache) اشتراکی بهصورت فیزیکی شامل ۳۲ لایه است (دو برابر بیشتر از MI50) و یک مجموعهی پیوندی ۱۶ جهتی بهحساب میآید. بهطور کلی ۳۲ لایهی موردبحث میتوانند حداکثر توان عملیاتی تجمیعشدهی ۶ ترابایتبرثانیه ارائه دهند. کنترلرهای حافظه از بستههای چهار یا هشتتایی ECC HBM2 با نرخ ۲٫۴ گیگاترنسفربرثانیه پشتیبانی میکنند تا توان عملیاتی تجمیعشده ازلحاظ تئوری به ۱٫۲۳ ترابایتبرثانیه برسد؛ یعنی ۲۰ درصد سریعتر از نسل قبل.
نسل دوم اینفینیتی فبریک
فناوری اینفینیتی فبریک AMD که ارتباط بین پردازندهی مرکزی و پردازندهی گرافیکی را برقرار میسازد نشان داده که مزایای متعدد و کلیدی بههمراه میآورد و باعث شده است AMD بتواند قراردادهای باارزشی با برخی شرکتها امضا کند. اینفینیتی فبریک امکان ایجاد وابستگی بین حافظهی پردازندهی مرکزی و گرافیکی را فراهم میکند تا تأخیر کاهش یابد و قدرت پردازشی بیشتر ارائه شود.
مقالههای مرتبط:
اینفینیتی فبریک همچنین میزان مصرف انرژی را کاهش میدهد، زیرا تعداد دفعات حرکت دادهها در سیستم کم میشود. پیوندهای نسل دومی اینفینیتی فبریک با نرخ ۲۳ گیگاترنسفربرثانیه بهصورت ۱۶ بیت فعالیت میکنند و از این حیث کاملا شبیه به نسل قبل هستند؛ اما نسل جدید از پیوند سوم هم پشتیبانی میکند تا امکان دستیابی به سیستمهای متشکلاز چهار پردازندهی گرافیکی فراهم شود. نسل جدید اینفینیتی فبریک در بستههای متشکلاز چهار پردازندهی گرافیکی کارکرد مناسبتری دارد و پهنای باند نظیربهنظیر I/O دوبرابر بیشتر ارائه میدهد.
AMD میگوید تا پایان سال جاری میلادی سیستمهای مجهز به پردازندهی گرافیکی Instinct MI100 که توسط شرکتهایی مثل دل و گیگابایت و HPE و لنوو ساخته شدهاند به بازار میآیند.