دراسة جديدة تشير إلى أن الذكاء الاصطناعي قد يلتهم نفسه! فما السبب؟

بينما يُغذي الذكاء الاصطناعي محتوى الانترنت بمحتوى (اصطناعي) مُولَّد آليًا، يظهر تحدٍّ هندسي جديد يُعرف باسم (انهيار النموذج)؛ أي يصبح فصل البيانات الاصطناعية عن نماذج التدريب موضوعًا رئيسيًا في البحث إثرَ تزايد تدفق محتوى الذكاء الاصطناعي إلى الإنترنت. ويجسد رمز الأوروبوروس، الأفعى التي تلتهم ذيلها، هذه الديناميكية على نحو رمزي.

يُغذي الذكاء الاصطناعي الويب بمحتوى يُنتج باستخدام الذكاء الاصطناعي نفسه، ما يؤدي إلى تدفق الأخطاء والمعلومات غير الدقيقة، لذا ينذر هذا بخطر (انهيار النموذج)، فقد تؤدي تغذية الذكاء الاصطناعي ببياناته الخاصة إلى تدهور جودة المعلومات التي ينتجها.

الأوروبوروس هو الرمز القديم الشهير للأفعى التي تلتهم ذيلها، لكن ما يُعد قديمًا أصبح جديدًا مرةً أخرى. ففي عصر الذكاء الاصطناعي، يتخذ هذا الرمز الجشع معنى جديدًا ومؤثرًا، إذ بدأ المحتوى الذي أُنشئ بواسطة نماذج لغة الذكاء الاصطناعي مثل ChatGPT بملء الإنترنت، لتأتي معه الكثير من الأخطاء.

تُعد هذه مشكلة كبيرة؛ لأن الإنترنت هو مادة المصدر الرئيسية التي تدرب تلك النماذج اللغوية عليها. أو بعبارة أخرى، الذكاء الاصطناعي يلتهم ذيله. فيما يمكن وصفه بأنه مجرد لعبة هاتف فظيعة، قد يبدأ الذكاء الاصطناعي بالتدريب على بيانات اصطناعية مليئة بالأخطاء حتى يصبح الشيء الذي كان يحاول إنشاءه مجرد هراء تام؛ هذا ما يسميه الباحثون في مجال الذكاء الاصطناعي باسم (انهيار النموذج).

إحدى الدراسات الحديثة، التي نُشرت على منصة arXiv الإلكترونية استخدمت نموذج لغة يُعرف باسم OPT-125m لإنشاء نص بشأن العمارة الإنجليزية. وبعد تدريب الذكاء الاصطناعي على هذا الاختبار مرارًا وتكرارًا، كانت استجابة النموذج العاشر غير منطقية تمامًا ومليئة بالهوس الغريب بالأرنب جاك.

دراسة حديثة أخرى، نُشرت أيضًا على منصة arXiv الإلكترونية، درست مولدات صور الذكاء الاصطناعي التي دُربت على فن الذكاء الاصطناعي الآخر. وفي المحاولة الثالثة للذكاء الاصطناعي لإنشاء طائر أو زهرة بناءً على نظام غذائي من بيانات الذكاء نفسه فقط، كانت النتائج غير واضحة وغير معروفة.

على الرغم من أن هذين المثالين لهما مخاطر منخفضة نسبيًا، فإن حلقة التغذية الراجعة التكرارية تلك لها القدرة على إنتاج مشكلات مثل التحيز العرقي والجنسي، وهو أمر قد يكون مدمرًا للمجتمعات المهمشة. فمثلًا، في اختبار لـ ChatGPT، قام بتصنيف الرجال المسلمين على أنهم (إرهابيون).

لذلك، من أجل تدريب نماذج الذكاء الاصطناعي الجديدة بفعالية، تحتاج الشركات إلى بيانات غير ملوثة بالمعلومات الاصطناعية.
ويقول أليكس ديماكيس؛ المدير المشارك للمعهد الوطني للذكاء الاصطناعي لأساسيات التعلم الآلي لمجلة The Atlantic: «التصفية هي مجال بحث كامل الآن».

أضاف ديماكيس: «نحن نرى أن لها تأثيرًا كبيرًا في جودة النماذج». وقال أيضًا إن مجموعة صغيرة من البيانات عالية الجودة قد تتفوق على مجموعة أكبر من البيانات الاصطناعية.

البيانات البشرية ليست خاليةً من العيوب بالتأكيد -يمكن العثور على التحيزات في كل مكان تنظر إليه- ولكن يمكن استخدام الذكاء الصنعي لمحاولة إزالة التحيز من هذه المجموعات البيانية لإنشاء مجموعات بيانات أفضل.

لكن، في الوقت الحالي، يجب على المهندسين فحص البيانات للتأكد من أن الذكاء الصنعي لا يُدرب على البيانات الاصطناعية التي أنشأها بنفسه.

على الرغم من القلق المتعلق بقدرة الذكاء الاصطناعي على استبدال البشر، يتبين أن هذه النماذج اللغوية التي تغير العالم ما زالت بحاجة إلى اللمسة البشرية.

ناسا تخطط لاستخدام الذكاء الاصطناعي في دراسة الظواهر الجوية الغامضة

ترجمة: محمد حسام

تدقيق: منال توفيق الضللي

مراجعة: هادية أحمد زكي

المصدر