قدم الباحثون من مايكروسوفت في نهاية فبراير 2023 نموذج كوزموس-1 (Kosmos-1) متعدد الوسائط الذي يستطيع تحليل الصور والمحتوى، وحل الألغاز البصرية، والتعرف على النص المرئي، والنجاح في اختبارات الذكاء المرئية وفهم تعليمات اللغة الطبيعية.

يعتقد الباحثون أن الذكاء الاصطناعي متعدد الوسائط الذي يدمج صيغ إدخال مختلفة (كالنص والصوت والصور والفيديو) هو الركيزة لبناء الذكاء الاصطناعي العام (AGI) الذي يستطيع تنفيذ المهام العامة البشرية.

يستطيع مساعد الذكاء الاصطناعي التصفح والبحث في تطبيقات الويب تمامًا كالإنسان. كتب الباحثون في ورقتهم الأكاديمية:

«من الضروري إدراك الذكاء متعدد الوسائط لتحقيق الذكاء الاصطناعي العام من حيث استحواذ المعرفة، ليست اللغة كل ما تحتاجه، بل مواءمة الإدراك مع صيغ اللغة».

تُظهر الأمثلة المرئية من ورقة كوزموس-1 النموذج الذي يستطيع تحليل الصور وإجابة الأسئلة المتعلقة بها وقراءة نص من صورة وكتابة تعليقات للصور وإجراء اختبار الذكاء المرئي بدقة تتراوح من 22% إلى 26%.

بينما تضج وسائل الإعلام بالأخبار المتعلقة بنماذج اللغة الكبيرة (LLM)، يشير بعض خبراء الذكاء الاصطناعي إلى الذكاء الاصطناعي متعدد الوسائط يشكل طريقًا محتملاً نحو الذكاء الاصطناعي العام، وهي تقنية افتراضية تستطيع أن تحل محل البشر في أي مهمة فكرية. AGI هو الهدف المعلن لشركة OpenAI، الشريك التجاري الرئيسي لمايكروسوفت في الذكاء الاصطناعي.

لكن يبدو أن كوزموس-1 هو مشروع تابع تمامًا لمايكروسوفت دون مشاركة OpenAI. يطلق الباحثون عليه اسم نموذج اللغة الكبير متعدد الوسائط (MLLM)، وذلك ﻷنه يعتمد على معالجة اللغة الطبيعية تمامًا مثل نموذج لغة كبير يعتمد على النص فقط مثل ChatGPT. لكي يقبل كوزموس-1 إدخال الصورة، يجب على الباحثين أولاً ترجمة الصورة إلى سلسلة خاصة من الرموز (نص يستطيع LLM فهمه). تصف ورقة Kosmos-1 ما سبق بمزيد من التفصيل.

يُصاغ الإدخال بسلسلة مع رموز خاصة، نستخدم & تحديدًا للإشارة إلى بداية التسلسل ونهايته، فيُعد « paragraph Image Embedding paragraph فهو إدخال نصي صوري متداخل.

تُستخدم وحدة التضمين لتشفير كل من الرموز النصية وأشكال الإدخال الأخرى إلى متجهات، ثم تُدخَل هذه التضمينات إلى مفكك الترميز، وتُستخدم الجداول للبحث عن الرموز المدخلة وإسنادها إلى تضمينات. أما الإشارات المستمرة (كالصوت والصورة) فمن المقبول تمثيل المدخلات كرمز منفصل بوصفها لغة أجنبية.

دربت مايكروسوفت Kosmos-1 باستخدام بيانات من الويب تضمنت مقتطفات من The Pile (مورد نصي باللغة الإنجليزية بسعة 800 جيجابايت) وCommon Crawl. ولتقييم قدرات Kosmos-1 تضمن ذلك عدة اختبارات منها استيعاب اللغة وتوليدها، والتسمية التوضيحية للصور، وإجابة الأسئلة المرئية وأسئلة مواقع الويب، وتصنيف الصور بدون لقطات. وفقًا لمايكروسوفت تفوق أداء Kosmos-1 على أحدث النماذج الحالية في كثير من هذه الاختبارات.

من الأمور ذات الأهمية الخاصة أداء Kosmos-1 في Raven’s Progressive Reasoning، الذي يقيس معدل الذكاء البصري بتقديم سلسلة من الأشكال يُطلَب إكمال التسلسل فيها. وقد زود الباحثون Kosmos-1 باختبار كامل واحدًا تلو الآخر، وتساءلوا إن كانت الإجابة صحيحة. وقد تمكن Kosmos-1 من إجابة أسئلة اختبار Raven بنسبة 22% (26% بالتقريب). هذا ليس فوز نهائي والأخطاء في هذا النهج قد تؤثر على النتائج، لكن Kosmos-1 تغلبت على الفرص العشوائية (17%) في اختبار Raven IQ.

بينما يشكل Kosmos-1 خطوة مبكرة في المجال متعدد الوسائط (وهو نهج يتبعه آخرون كذلك)، من السهل تخيل أن التحسينات المستقبلية ستجلب نتائج أفضل، ما سيسمح لنماذج الذكاء الاصطناعي بإدراك أي شكل من أشكال الوسائط والعمل عليها، ما سيحسن بدوره كثيرًا من قدرات مساعد الذكاء الاصطناعي. في المستقبل، يقول الباحثون إنهم يرغبون في توسيع نطاق Kosmos-1 في حجم النموذج وإعطاءه القدرة على الكلام أيضًا.

تقول مايكروسوفت إنها تخطط لإتاحة Kosmos-1 للمطورين، مع إن صفحة github التي استشهدت بها الورقة لا تحتوي على كود واضح يخص Kosmos.

اقرأ أيضًا:

هل سيتمكن الذكاء الاصطناعي المتقدم مستقبلًا من حل كل المسائل في عالمنا؟

هل يستطيع الذكاء الاصطناعي ChatGPT أن يكشف أول الأدلة على داء ألزهايمر؟

ترجمة: ليلى الشومري

تدقيق: رغد ابو الراغب

مراجعة: محمد حسان عجك

المصدر