مجموعة ألغاز سهلة جدا على البشر لكنها صعبة على الذكاء الاصطناعي

19 ديسمبر 2025
13 مشاهدة
0 اعجاب

مجموعة ألغاز سهلة جدا على البشر لكنها صعبة على الذكاء الاصطناعي   


توجد طرق مختلفة لاختبار قدرات الذكاء الاصطناعي، منها سهولة المحادثة واستيعاب القراءة أو الفيزياء المعقدة جدًا. لكن بعض الاختبارات التي قد تربك أنظمة الذكاء الاصطناعي تبدو سهلة ومسلية بالنسبة للبشر، فهل يكشف هذا شيئًا عن السعي وراء الذكاء الاصطناعي العام (AGI) الحقيقي؟


مع إن تفوّق هذه الأنظمة في مهام تتطلب مستويات عالية من الخبرة البشرية يزداد، فهذا لا يعني أنها اقتربت من بلوغ الذكاء الاصطناعي العام، إذ يتطلب ذلك أن يكون النظام قادرًا على معالجة قدر ضئيل جدًا من المعلومات للتعميم والتكيف مع مواقف جديدة كليًا. وهذه القدرة التي تمثل أساس التعلم البشري، ما تزال تشكل تحديًا كبيرًا للذكاء الاصطناعي.


تعد مجموعة ألغاز التجريد والاستدلال (ARC) إحدى وسائل تقييم قدرة الذكاء الاصطناعي على التعميم، وهي مجموعة ألغاز صغيرة مكونة من شبكات (grids) ملونة تتطلب استنتاج قاعدة خفية ثم تطبيقها على شبكة جديدة. وقد طورها الباحث فرانسوا شوليه عام 2019، وأصبحت لاحقًا أساس اختبار معياري لجميع نماذج الذكاء الاصطناعي الكبرى تديره جائزة ARC التابعة لمؤسسة غير ربحية.


طورت هذه المؤسسة اختبارات جديدة أيضًا مثل ARC-AGI بنسخه متزايدة الصعوبة، وآخرها مصمم خصيصًا لاختبار وكلاء الذكاء الاصطناعي (AI agents)، الذي يعتمد على جعلهم يلعبون ألعاب الفيديو.


ولفهم هذا بسياق أوسع، نورد مقابلة بين مجلة Scientific American ورئيس المؤسسة الباحث ورائد الأعمال جريج كامرادت.


ما تعريف الذكاء الذي يقيسه اختبار ARC-AGI-1؟


نعرّف الذكاء بأنه القدرة على تعلم أشياء جديدة، نعلم أن الذكاء الاصطناعي قادر على الفوز بالشطرنج، لكن لا يمكن تعميم هذه النماذج على مجالات جديدة، فهي مثلًا لا تستطيع أن تتعلم اللغة الإنجليزية.


ما فعله شوليه هو إنشاء معيار يعلّم مهارة صغيرة بسؤال، ثم يطلب إثبات إتقان تلك المهارة. أي يقيس هذا الاختبار قدرة النموذج على التعلم ضمن نطاق ضيق، لكننا لا نزعم أنه يقيس الذكاء الاصطناعي العام، لأنه يظل محصورًا في نطاق محدود.


وكيف تعرّفون الذكاء الاصطناعي العام (AGI)؟


يوجد منظوران، الأول تقني بحت يتعلق بقدرة نظام اصطناعي على مضاهاة كفاءة التعلم لدى الإنسان، فالإنسان يتعلم كثيرًا خارج نطاق بيانات التدريب. في الحقيقة ليس لدينا بيانات تدريب حقيقية بل بضعة معلومات تطورية مسبقة، لكننا نتعلم اللغة وقيادة السيارة وركوب الدراجة وغيرها، وهذا ما يسمى بالتعميم. فإذا تمكن النظام من فعل ذلك خارج نطاق تدريبه الذي نلقّنه أياه، نعرّفه عندئذ بالذكاء.


أما الثاني فهو التعريف البديل الذي نستخدمه الآن بناء على ما لاحظناه، وهو أننا عندما نعجز عن ابتكار مشكلات يستطيع البشر حلها ولا يستطيع الذكاء الاصطناعي حلها، عندها يصبح لدينا ذكاء اصطناعي عام. والعكس صحيح، ما دام البشر يطرحون مسائل يعجز الذكاء الاصطناعي عن حلها، فنحن لم نصل إلى AGI بعد.


من العوامل الأساسية لمعيار شوليه أننا نختبر البشر بهذه المسائل، فيستطيع الإنسان العادي حلها، بينما يواجه الذكاء الاصطناعي صعوبة كبيرة معها. وما يجعل هذا مثيرًا للاهتمام هو أن بعض النماذج المتقدمة من الذكاء الاصطناعي مثل Grok، يمكنها اجتياز أي اختبار على مستوى الدراسات العليا وأمور مذهلة أخرى، لكن هذا يسمى بذكاء متفرع أو مرَكّز (spiky)، وما يزال يفتقر إلى قدرة التعميم التي يمتلكها الإنسان، وذلك بالضبط ما يظهره هذا المعيار.


كيف تختلف معاييركم عن تلك التي تستخدمها المنظمات الأخرى؟


نلتزم بأن يجد البشر أن المعيار قابل للحل، أما المعايير الأخرى فتطرح مسائل ذات نوع متقدم جدًا، لا حاجة لنا بالقول أن الذكاء الاصطناعي أذكى منا إذ اعترفنا بالفعل أن بعض النماذج قادرة على أداء مهام كثيرة بطريقة أفضل، لكن أن نقول هذا النموذج لا يمتلك قوة التعميم التي يتمتع بها الإنسان هو مقياسنا، ولذلك نحتاج إلى اختبار البشر.


لقد اختبرنا بالفعل 400 شخص في معيار (ARC-AGI-2)، وحصل الشخص المتوسط على 66%، لكن جمع الإجابات من خمسة إلى عشرة أشخاص ستحتوي على الإجابات الصحيحة لكل الأسئلة.


ما الذي يجعل هذا الاختبار صعبًا على الذكاء الاصطناعي وسهلًا نسبيًا للبشر؟


يبرع البشر جدًا في التعلم من عينات قليلة، فبالنظر إلى مسألة ما مع مثال أو مثالين فقط، نستوعب القاعدة أو التحويل المطلوب فورًا، الخوارزمية التي يعمل بها العقل البشري أكثر كفاءة بأضعاف مضاعفة مما نراه في الذكاء الاصطناعي اليوم.


ما الفرق بين ARC-AGI-1 و ARC-AGI-2؟


ARC-AGI-1 هو ما أنشأه شوليه في 2019 وتضمن نحو 1000 مهمة، وكان نسخة أقل فاعلية لقياس قدرة التعميم، وظلت صالحة طوال خمس سنوات لأن تقنيات التعلم العميق لم تستطع التعامل معها إطلاقًا، لكن عندما ظهرت نماذج الاستدلال عام 2024 بدأت تحرز تقدمًا وهو ما أظهر قفزة نوعية في قدرات الذكاء الاصطناعي.


انتقلنا عندها إلى ARC-AGI-2 للتعمق أكثر قليلًا فيما يستطيع البشر فعله وما لا يستطيع الذكاء الاصطناعي تحقيقه. إذ بات الأمر يتطلب تخطيطًا إضافيًا طفيفًا لكل مهمة. فبدلًا من أن حلها بخمس ثوان مثلًا، قد يحتاج الإنسان دقيقة أو دقيقتين لإيجاد الحل. وأصبحت القواعد أعقد أيضًا والشبكات أكبر حجمًا، لذا وجب أن تكون الإجابة أدق، لكن الجوهر ظل هو نفسه تقريبًا.


أما نسخة ARC-AGI-3 فتُطلق للمطورين أولًا لمعاينتها، وهي تبتعد كليًا عن النمط السابق. فالتنسيق الجديد سيكون تفاعليًا بالفعل يجعل المعيار موجهًا للوكلاء (agents) بدلًا من اختبارات شبكية ثابتة.


كيف يختلف اختبار ARC-AGI-3 للوكلاء عن الاختبارات السابقة؟


نادرًا ما نتخذ قرارات في حياتنا اليومية بدون حالة (stateless)، ويُقصد بهذا أن جميع المقاييس المعتمدة لاختبار الذكاء الاصطناعي هي محض سؤال يقابله جواب مباشر، فإذا سألت نموذجًا لغويًا سؤالًا، فإنه يعطيك إجابة واحدة فقط.


لكن هذا المعيار يغفل عن اختبار أشياء كثيرة، فلا يغطي التخطيط ولا الاستكشاف ولا حتى القدرة على التنبؤ بالبيئة المحيطة أو فهم الأهداف المرتبطة بها.


لهذا السبب، نصنع 100 لعبة فيديو جديدة كليًا لاختبار البشر أولًا والتأكد من قدرتهم على اجتيازها، لأن أساس مقياسنا هو قابلية الحل من الإنسان. بعد ذلك سنضع نماذج الذكاء الاصطناعي داخل هذه الألعاب لنرى إن كانت قادرة على فهم بيئة لم يسبق لها أن تعاملت معها من قبل.


حتى الآن، في اختباراتنا الداخلية، لم يتمكن أي نموذج ذكاء اصطناعي من اجتياز حتى مستوى واحد من أي من هذه الألعاب.


هل يمكنك وصف ألعاب الفيديو هنا؟


كل بيئة أو لعبة فيديو في ARC-AGI-3 هي لغز ثنائي الأبعاد قائم على البكسل، وهذه الألعاب مصممة بشكل مستويات منفصلة؛ كل منها مصمم لتعليم اللاعب مهارة صغيرة محددة (سواء أكان إنسانًا أم ذكاءً اصطناعيًا). ولا يمكن اجتياز المستوى إلا إذا أظهر اللاعب إتقانه لتلك المهارة بتنفيذ سلسلة من الأفعال المخططة مسبقًا.


كيف يختلف استخدام ألعاب الفيديو لاختبار الذكاء الاصطناعي العام عن الطرق التي استخدمت بها سابقًا لاختبار أنظمة الذكاء الاصطناعي؟


يكمن هذا بأن ألعاب الفيديو لطالما كانت معيارًا شائعًا في أبحاث الذكاء الاصطناعي، ومن أبرز الأمثلة ألعاب أتاري. لكن هذه المعايير التقليدية تعاني من قيود عدة؛ إذ تتوافر لتلك الألعاب بيانات تدريب ضخمة يسهل استغلالها، وتفتقر إلى مقاييس تقييم أداء موحدة، وتسمح باستخدام طرق البحث الشامل (brute-force) التي تعتمد على مليارات عمليات المحاكاة.


إضافةٕ إلى ذلك، فإن المطورين الذين يبنون برامج الذكاء الاصطناعي عادة ما يكون لديهم معرفة مسبقة بهذه الألعاب، ما يؤدي إلى دمج خبراتهم ورؤاهم الخاصة في الحلول دون قصد.



المصادر:


الكاتب

أحمد صبري عبد الحكيم

أحمد صبري عبد الحكيم
مراجعة

محمد حسان عجك

محمد حسان عجك
ترجمة

أحمد صبري عبد الحكيم

أحمد صبري عبد الحكيم
تدقيق

منال توفيق الضللي

منال توفيق الضللي



مقالات مختارة

إقرأ المزيد

لا يوجد مقالات مرتبطة