إن الإجابة بـ «لا أعرف» في المواقف عالية المخاطر مثل الرعاية الصحية أكثر أمانًا من إعطاء إجابة خاطئة. يدرك ذلك الأطباء، ومشتركو برامج المسابقات، وممتحنو الاختبارات المعيارية، لكن ما تزال معظم تطبيقات الذكاء الاصطناعي تفضل تقديم إجابة خاطئة محتملة بدلاً من من الإقرار بالشك.
يظن خبراء علوم الحاسوب في جامعة جونز هوبكنز أنهم توصلوا إلى حل يتمثل في أسلوب جديد يتيح لنماذج الذكاء الاصطناعي التفكير بعمق أكبر قبل الإجابة، ويعتمد على مؤشر للثقة يحدد متى ينبغي للنظام أن يقول: «لا أعرف»، بدلاً من المجازفة بإعطاء إجابة خاطئة، وهو أمر بالغ الأهمية في مجالات عالية المخاطر مثل الطب والقانون والهندسة.
يقول المؤلف الأول ويليام جوراي، وهو طالب دكتوراه في علوم الكمبيوتر التابع لمركز معالجة اللغة والكلام في كلية وايتنج للهندسة: «بدأ كل شيء عندما رأينا أن نماذج اللغة الكبيرة والمتطورة تستهلك وقتًا أطول في التفكير لحل المشكلات الأكثر صعوبة، فتساءلنا: هل يمكن لهذا الوقت الإضافي في التفكير أن يساعد النماذج في التحقق من حل المشكلة على نحو صحيح حتى يتمكنوا من إبلاغ المستخدم بذلك؟».
للتحقق، جعل الفريق نماذج اللغة الكبيرة تولّد سلاسل استدلالية بأطوال مختلفة في أثناء حلها مسائل رياضية صعبة، ثم قاسوا تأثير طول السلسلة في الإجابة النهائية للنموذج ومستوى ثقته بها. واشترط الباحثون على النماذج عدم تقديم إجابة إلا إذا تجاوزت درجة الثقة لديها حدًا معينًا، ما يعني أن قول «لا أعرف» كان مقبولًا في بعض الحالات.
وجد الباحثون أن منح النماذج مزيدًا من الوقت للتفكير يعزز دقتها وثقتها بالإجابات عمومًا. ومع ذلك، قد تظل النماذج تقدم تخمينات عشوائية أو إجابات خاطئة، خاصًة عند غياب العقوبات على الإجابات غير الصحيحة. والمفارقة أن الباحثين اكتشفوا انخفاض دقة النماذج فعليًا عند وضع مستوى عالٍ من الثقة والسماح لها بالتفكير لوقت أطول.
يوضّح جوريج: «يحدث ذلك لأن دقة الإجابة ليست سوى جزءًا من أداء النظام. فعندما نشترط مستوى عالٍ من الثقة ونمنح النظام وقتًا أطول للتفكير، فإنه سيقدّم عددًا أكبر من الإجابات الصحيحة، لكن أيضًا المزيد من الإجابات الخاطئة. وفي بعض السياقات، يكون الحصول على هذه الدقة الإضافية جديرًا بالمخاطرة، أما في البيئات عالية المخاطر، فالأمر ليس كذلك دائمًا».
اقترح الفريق انطلاقًا من هذه النتيجة، ثلاثة أنماط مختلفة لتحديد كيفية التعامل مع الإجابات الخاطئة على صعيد المكافآت والعقوبات. النمط الأول، الاختبارات، إذ لا تُفرض عقوبة على الإجابات الخاطئة.
النمط الثاني، على غرار برنامج “المحك”، إذ تُكافأ الإجابات الصحيحة بنفس القدر الذي تُعاقب به الخاطئة.
والنمط الثالث، النمط عالي المخاطر، إذ تُعاقب الإجابات الخاطئة أشد مما تُكافأ به الصحيحة.
وجد الباحثون أنه في ظل شروط أكثر صرامة، ينبغي للنموذج رفض الإجابة على السؤال إذا لم يكن واثقًا بما يكفي من إجابته بعد استنفاذ ميزانية الحوسبة الخاصة به. تبقى المزيد من الأسئلة دون إجابة عند رفع عتبة الثقة، لكن هذا ليس بالضرورة أمرًا سيئًا.
يقول جوريج: «ليس مستغربًا أن ينزعج الطالب قليلًا من انتظاره عشر دقائق ليكتشف أنه مضطر لحل المسألة الرياضية بنفسه لأن الذكاء الاصطناعي لم يجزم بالإجابة، لكن في البيئات عالية المخاطر، يُعد هذا أفضل بكثير من انتظار خمس دقائق للحصول على إجابة تبدو صحيحة لكنها في الواقع خاطئة».
يشجع الفريق الآن مجتمع الباحثين في الذكاء الاصطناعي إلى مشاركة نتائج أداء نماذجهم في الإجابة عن الأسئلة وفق نمطي الاختبارات وبرنامج “لمحك”، ليتمكّن الجميع من تطوير أنظمة أكثر دقة في معايرة مستوى الثقة.
يقول جوريج: «نأمل أن يقبل مجتمع الأبحاث دعوتنا للإبلاغ عن أداء الذكاء الاصطناعي في البيئات التي يُفرض فيها تكاليف على الإجابات الخاطئة، ومن ثم تطوير أساليب أفضل لقياس عدم اليقين».
اقرأ أيضًا:
الذكاء الاصطناعي في مواجهة العقل البشري: من الأذكى حقًا؟
هل فقدنا السيطرة؟ الذكاء الاصطناعي ينسخ نفسه ويصدم العلماء!
ترجمة: رؤى بستون
تدقيق: ريم الجردي
مراجعة: باسل حميدي