تنشر Meta كيف كانت تحارب الأخطاء الصامتة خارج أنظمتها لفترة طويلة
مع تقدم التكنولوجيا يومًا بعد يوم ، فإنها تعمل على تصحيح عيوبها وتحاول أن تجعل نفسها مثالية. ولكن نظرًا لأنه لا يوجد شيء مثالي ، يتم ترك بعض هذه العيوب في شكل أخطاء في النظام تظهر على كل منصة على الإنترنت.
Meta عبارة عن منصة ضخمة ويمكن أن تحدث أخطاء في بعض الأحيان في خادمها. هناك نوعان من الأخطاء: "أخطاء صامتة" و "أخطاء عادية". الخطأ الصامت هو الخطأ الذي عندما يحدث لا يترك أي أثر لوجوده في سجل النظام ، ومن هنا جاء الاسم. يمكن أن يكون سبب ظهورها هو درجة حرارة الجهاز إذا تركت مرتفعة جدًا لفترة طويلة جدًا أو يمكن أن تكون عاملاً من عوامل عمر الجهاز. يمكن أن يتسبب هذا الخلل في حدوث مشكلات داخلية في الأجهزة ، وأعمال غير صحيحة للدائرة تؤدي إلى فقد البيانات والتعليمات أو الأوامر الخاطئة التي تتخذها الأجهزة. تواجه هذه المشكلة تقريبًا جميع المنصات على الإنترنت وهي خطيرة جدًا للمنصات لأنها يمكن أن تخلق اضطرابًا في النظام أثناء عدم اكتشافها.
في بحث نُشر مؤخرًا ، كشفت Meta عن كيفية تعاملهم مع هذه المشكلة عند ظهورها في أنظمتهم وكيفية إزالتها. تستخدم الشركة مزيجًا من نوعين مختلفين من الاختبارات. أولاً ، يقومون بإجراء اختبار عندما تكون جميع الآلات غير متصلة بالإنترنت لإجراء فحوصات الصيانة والإصلاحات إذا لزم الأمر ، والاختبار الثاني عبارة عن مزيج من الاختبارات الأصغر التي يتم إجراؤها طوال فترة الإنتاج. وفقًا لـ Meta ، يمكن أن يحصل الأخير على مزيد من التغطية في وقت أقصر بينما يوفر المزود الأول تغطية أكبر ولكنه يستغرق وقتًا.
تعتبر Meta شركة كبيرة من الضروري أن يكون لديهم جميع بياناتهم وأنظمتهم تقوم بعملهم بكفاءة. لذلك من أجل مراقبة الأخطاء الصامتة ، تجري Meta اختبارات منتظمة لتحديد هذه الأخطاء والتخلص منها والتي تُعرف أيضًا باسم SDC أو فساد البيانات الصامت. تشمل الاستراتيجيات التي يستخدمها عملاق التكنولوجيا اختبار السيليكون واختبار البنية التحتية.
يستخدم اختبار السيليكون جهازًا يسمى شريحة السيليكون التي يتم إدخالها في الأجهزة التي تستخدمها Meta لاكتشاف SDCs في الجهاز. تستغرق هذه العملية عدة أشهر ، ولكن إذا لم يتم بناء الجهاز بشكل صحيح أو كان به عيب ، فسيؤدي ذلك إلى نتائج أقل من جيدة من الاختبارات. استراتيجية اختبار البنية التحتية نوعان من الاختبارات في الأول. تشمل الاختبارات اختبار خارج الإنتاج وداخل الإنتاج. اختبارات نفاد الإنتاج هي تلك التي يكون فيها الجهاز غير متصل بالإنترنت. من أجل إجراء هذه الاختبارات ، لا يتم تصنيع الآلات على وجه التحديد في وضع عدم الاتصال ، ولكن يتم إجراؤها عندما لا تعمل الآلات لعدة أسباب مثل الصيانة والإصلاحات وما إلى ذلك. لاكتشاف الخطأ الصامت ، تستخدم الشركة جهازًا يسمى ماسح الأسطول الذي بفحص خوادم الأجهزة بحثًا عن الخطأ. بمجرد اكتشافه يتم الإبلاغ عنه وإزالته.
لكن المشكلة الرئيسية في هذا النوع هي أنه بطيء ، لذلك إذا نظرنا إليه من منظور الوقت ، فإن الاختبار أثناء الإنتاج يكون أكثر فائدة. يتضمن الاختبار أثناء الإنتاج أداة تحمل اسم ripple ويمكنها تنفيذ أوامر بفارق ميلي ثانية بين كل منها.