تصدر العناوين خبر اجتياز روبوت محادثة يعمل بالذكاء الاصطناعي رسميًا اختبار تورينج.
تستند الأخبار إلى دراسة أجراها باحثان في جامعة كاليفورنيا سان دييغو، إذ خضعت أربعة نماذج لغوية كبيرة لاختبار تورينج. أحد النماذج -تحديدًا (GPT-4.5) من (OpenAI)- كان غير قابل للتمييز عن الإنسان في أكثر من 70% من الحالات.
رُوّج اختبار تورينج بوصفه المعيار الأدق لذكاء الآلة. مع ذلك، يوجد خلاف حول صحة الاختبار. في الواقع، للاختبار تاريخ مثير للجدل ما يثير التساؤل حول مدى فعاليته حقًا في قياس ذكاء الآلة. إذن ماذا يعني هذا فيما يتعلق بأهمية الدراسة الجديدة؟
نتائج الدراسة
اختبرت الدراسة 4 من النماذج اللغوية الكبيرة: ELIZA، وGPT-4o، وLLaMa-3.1-405B، وGPT-4.5..
ضمت الاختبارات مشاركين أكملوا 8 جولات من المحادثات، إذ اتخذوا دور محقق يتبادل الرسائل النصية مع شاهدَيْن في آن واحد.كان أحد الشاهدين إنسانًا والآخر هو أحد النماذج اللغوية الكبيرة. عُيّن نحو 284 مشاركًا عشوائيًا ليكونوا إما المحقق وإما الشاهد.
طُلب من المشاركين التفاعل مع كلا الشاهدين في وقت واحد عبر شاشة مقسمة مدة خمس دقائق، إذ تحاكي واجهة الاختبار شاشة المراسلة التقليدية. ثم كان على المشارك أن يحدد أي من الشاهدين كان إنسانًا وأيهما روبوت محادثة يعمل بالذكاء الاصطناعي.
حكم المشاركون على (GPT-4.5) بأنه إنسان بنسبة 73%، و(LLaMa-3.1-405B) بأنه إنسان بنسبة 56%. أما النموذجان الآخران ( (ELIZA وGPT-4o)) فقد خدعا المشاركين بنسبة 23% و21% فقط على التوالي.
ما اختبار تورينج؟
قدم عالم الرياضيات وعالم الحاسوب الإنجليزي آلان تورينج النسخة الأولى من اختبار تورينج في ورقة بحثية نُشرت عام 1948 بعنوان «الآلات الذكية». اقتُرح الاختبار في الأصل تجربةً تتضمن ثلاثة أشخاص يلعبون الشطرنج باستخدام آلة افتراضية تعرف باسم آلة الورق، اثنان منهم لاعبان والثالث مُشغِّل.
في منشور «آلات الحوسبة والذكاء» الصادر عام 1950، أعاد تورينج طرح التجربة بوصفها لعبة محاكاة، وادعى أنها وسيلة لتحديد قدرة الآلة على إظهار سلوك يحاكي ذكاء الإنسان. شملت التجربة ثلاثة مشاركين: المشاركة (أ) امرأة، والمشارك (ب) رجل، والمشارك (ج) رجل أو امرأة. من خلال سلسلة من الأسئلة، يُطلب من المشارك (ج) تحديد جنس المشاركين الآخرين.
من ثم يأتي اقتراح: «ماذا يحدث عندما يكون (أ) في اللعبة هو آلة؟» أي: هل سيحرز المحقق نفس نسبة التخمين الصحيح عندما تُلعب اللعبة بين آلة وإنسان بدلًا من بين رجل وامرأة؟
كان الهدف هو الإجابة عن سؤال غامض: «هل تستطيع الآلة أن تفكر؟». زعم تورينج أن الإجابة عن السؤال يتطلب أولًا فهم مصطلحي «الآلة» و«التفكير»، لأن الاستخدام المعتاد لهذه الكلمات سيجعل الإجابة غير مفيدة.
لماذا يُعد اختبار تورينج مثيرًا للجدل؟
رغم شيوع الاختبار وسيلةً لاختبار ذكاء الآلة، فإنه لا يحظى بقبول واسع بوصفه وسيلة دقيقة لذلك. في الواقع، يتعرض الاختبار لنقض كبير. توجد أربعة اعتراضات رئيسية على اختبار تورينج:
- السلوك مقابل التفكير: يجادل بعض الباحثين بأن القدرة على اجتياز الاختبار مسألة سلوك، وليست ذكاء. لذلك، ليس من التناقض القول بأن الآلة تستطيع اجتياز لعبة المحاكاة، مع أنها لا تستطيع التفكير.
- الأدمغة ليست آلات: يؤكد تورينج أن الدماغ هو بمثابة آلة، مدعيًا أن ذلك يمكن تفسيره بمصطلحات ميكانيكية بحتة. يدحض العديد من الأكاديميين هذا الادعاء ويشككون في صحة الاختبار على هذا الأساس.
- العمليات الداخلية: لما كانت أجهزة الكمبيوتر تختلف عن البشر، فإن عملية وصولها إلى نتيجة لا تُقارن بالعملية ذاتها لدى الإنسان، ما يجعل الاختبار غير كاف لأن المقارنة المباشرة لا تنجح.
- نطاق الاختبار: يعتقد بعض الباحثين أن اختبار سلوك واحد فقط لا يكفي لتحديد الذكاء.
هل تحاكي النماذج اللغوية الكبيرة ذكاء البشر؟
مع أن المقالة التمهيدية تزعم أن (GPT-4.5) قد اجتاز اختبار تورينج، فإنها تنص أيضًا على أن اختبار تورينج هو «مقياس لقابلية الاستبدال»، أي إمكانية أن تحل آلة محل شخص حقيقي دون ملاحظة الفرق.
هذا يعني أن الباحثين لا يدعمون فكرة كون اختبار تورينج مؤشرًا موثوقًا للذكاء البشري، بل هو مؤشر على محاكاة الذكاء البشري.
تجدر الإشارة أيضًا إلى أن ظروف الدراسة لا تخلو من المشكلات. مثلًا، فترة الاختبار التي تبلغ خمس دقائق قصيرة نسبيًا.
أيضًا، طُلب من كل نموذج تبني شخصية معينة، لكن من غير الواضح ما تفاصيل الشخصيات وتأثيرها في الاختبار.
حاليًا، من الآمن القول إن GPT-4.5 ليس بذكاء البشر، مع أنه قد يقنع بعض الأشخاص بخلاف ذلك.
اقرأ أيضًا:
قد يصبح لدينا ذكاء اصطناعي فائق بحلول عام 2029!
ترجمة: ماسة فؤاد كريم
تدقيق: أكرم محيي الدين