چرا سرویس‌های گوگل دوشنبه گذشته از دسترس خارج شدند

{title limit=50}

دوشنبه‌ی هفته‌ی گذشته سرویس‌های متنوع گوگل شامل جیمیل و درایو و یوتیوب به ‌مدت ۴۷ دقیقه از دسترس خارج شدند و درحالی‌که ابتدا برخی کاربران ایرانی نگران تحریم از سوی گوگل بودند، مشخص شد مشکل جهانی است. این موضوع باعث شد بسیاری از مشترکان سرویس گوگل ورکسپیس (Google Workspace) نتوانند با آن کار کنند. پس از پایان حادثه و بازگشت جیمیل و یوتیوب و سایر سرویس‌ها به شرایط عادی، گوگل وعده داد تحقیقاتی گسترده برای پیدا کردن دلیل اصلی بروز مشکل انجام می‌دهد. اهالی مانتین ویو به‌تازگی یافته‌های خود را رسانه‌ای کرده‌اند. 

بر اساس یافته‌ها، گوگل هفته‌ی گذشته اقداماتی انجام داده بود تا زیرساخت User ID Service را تقویت کند. User ID Service سیستمی است که فرایند احراز صحت اطلاعات واردشده در فرم ورود گوگل را مدیریت می‌کند.

مشکل اصلی ماه اکتبر ۲۰۲۰ (مهر و آبان ۱۳۹۹) آغاز شد؛ یعنی زمانی‌که گوگل تصمیم گرفت پلتفرم تخصیص منابع سیستم را عوض کند و سراغ پلتفرمی جدید برود. با وجود روی کار آمدن پلتفرم جدید، گوگل همچنان بخش‌هایی از پلتفرم قدیمی را از شبکه خارج نکرد. رها کردن برخی از قطعات سیستم قدیمی باعث شد این قطعات به ‌اشتباه دوباره وارد فرایند کاری شوند و یک پیغام خطا به نمایش در‌آورند که اعلام می‌کرد مقدار استفاده از User ID Service صفر است.

گوگل مکانیسمی خاص در سیستم قرار داده بود که باعث می‌شد قطعات قدیمی باعث ایجاد مشکل در عملکرد نهایی پلتفرم نشوند؛ اما درنهایت این مکانیسم کاربرد خود را از دست داد و سیستم‌های خودکار گوگل به‌گونه‌ای رفتار کردند که انگار مشکلی جدی در پلتفرم رخ داده است. گوگل پیش‌تر به‌منظور جلوگیری از رخ دادن این نوع مشکلات تدابیری اندیشیده بود؛ اما این تدابیر به‌گونه‌ای طراحی نشده بودند تا با مشکلی که دوشنبه رخ داد مقابله کنند. 

گوگل می‌گوید User ID Service شامل یک ابزار شناساگر منحصربه‌فرد برای هر یک از حساب‌های کاربری است و وظیفه‌ی بررسی صحت اطلاعات لاگین در حساب‌های کاربری برای توکن‌ها و کوکی‌های OAuth را بر عهده دارد. User ID Service داده‌های کاربران را در یک دیتابیس توزیع‌شده ذخیره می‌کند. این دیتابیس برای هماهنگ‌ شدن با به‌روزسانی داده‌ها، بر پروتکل Paxos متکی می‌شود.

گوگل می‌گوید به‌ دلایل امنیتی، وقتی سیستم داده‌های منسوخ‌شده را تشخیص دهد، هرگونه درخواست را رد می‌کند. گوگل مجموعه‌ی متنوعی از ابزارهای خودکار برای مشخص کردن سهم هر یک از سرویس‌هایش از منابع طراحی کرده است که همواره در حال بهبود یافتن هستند. در جریان حادثه،‌ اختلالی در این ابزارها رخ داد و باعث شد ارور ایجاد شود و جیمیل و یوتیوب و سرویس‌های دیگر به منابع کافی در سرورهای گوگل دسترسی نداشته باشند و دچار قطعی شوند.

گوگل در بیانیه‌ای که به‌تازگی منتشر کرده است می‌گوید به ‌دلیل آثاری که قطعی ۴۷ دقیقه‌ای سرویس‌هایش روی مشتریان و کسب‌و‌کار آن‌ها گذاشته است، عذرخواهی می‌کند. گوگل حوادثی که باعث می‌شود مشتریانش نتوانند به سرویس‌ها دسترسی پیدا کنند «بسیار جدی می‌گیرد»؛ به‌ویژه حوادثی که چندین منطقه را متأثر می‌کنند.

مهندسان گوگل توانستند در زمانی نسبتا کوتاه مشکل را رفع کنند و سرویس‌ها را به‌حالت عادی برگردانند؛ بااین‌حال این شرکت اقدامات جدیدی به‌ کار می‌بندد تا نگذارد در آینده اتفاق مشابهی رخ دهد. یکی از اهداف گوگل این است که سیستم‌های نظارتی خود را تقویت کند تا بتوانند پیش از وقوع حوادث، آن‌ها را شناسایی کنند.

شما کاربران زومیت چه دیدگاهی درباره‌ی قطعی سرویس‌های گوگل دارید؟






ارسال نظر

عکس خوانده نمی‌شود
29