في ظاهرة علمية غريبة، طرأ مصطلح “المجهرية الإلكترونية النباتية” في عدد من الأوراق البحثية خلال السنوات الأخيرة، رغم افتقاره لأي أساس علمي حقيقي.

وأصبح هذا الخطأ، الذي نشأ عن دمج عشوائي خلال رقمنة أوراق علمية قديمة، نموذجًا لما يُعرف بـ “الأحفورات الرقمية”، هي أخطاء غير مقصودة ترسّخت في الفضاء الرقمي بسبب خوارزميات الذكاء الاصطناعي، حتى بات من شبه المستحيل تصحيحها أو إزالتها من منظومة المعرفة الإلكترونية.

وهي قضية مقلقة، إذ تشير إلى قدرة أنظمة الذكاء الاصطناعي على تعزيز الأخطاء ضمن منظومتنا المعرفية.

مسح غير دقيق و خطأ ترجمي

تعود القصة إلى خمسينيات القرن الماضي، عندما نُشرت ورقتين علميتين في مجلة Bacteriological Reviews.

خلال عملية رقمنة بعض الأوراق العلمية، دُمجت كلمة “نباتي” من عمود نصي مع كلمة “إلكتروني” من عمود آخر عن طريق الخطأ، ما أدّى إلى توليد مصطلح وهمي “المجهرية الإلكترونية النباتية”.

ساهمت فيما بعد، أخطاء الترجمة من الفارسية إلى الإنجليزية في ترسيخ هذا المصطلح، خصوصا أن كلمتا “نباتي” و”مسحي” تختلفان بنقطة واحدة فقط باللغة الفارسية، ما أدى إلى ظهور المصطلح في بعض الأوراق العلمية الإيرانية.

خطأ يتنامى

وفقا لمحرك بحث جوجل، استعمل مصطلح “المجهرية الالكترونية النباتية” في 22 ورقة بحثية، بالإضافة إلى ظهوره في مقالات إخبارية تناقش تحقيقات لاحقة تتعلق بنزاهة البحث العلمي.

وقد لوحظ تزايد استخدام هذا المصطلح في عشرينيات القرن الحالي. ولمعرفة سبب ذلك، لجأ العلماء إلى تحليل نماذج الذكاء الاصطناعي الحديثة، وإجراء حفريات أثرية عبر البيانات الهائلة التي دُربت عليها من أجل تتبع أصل المصطلح وكشف آليات تكراره.

أدلة تجريبية على تلوث الذكاء الاصطناعي

لاختبار ما إذا كانت نماذج الذكاء الاصطناعي تعرف مصطلح “المجهرية الإلكترونية النباتية”، أدخل العلماء مقتطفات من الأوراق الأصلية للنموذج، بهدف التحقق ما إذا كانت ستكمل النص باستخدام هذا المصطلح الوهمي أو بخيارات منطقية ومعقولة.

وقد أظهرت النتائج أن المصطلح بدأ بالظهور والرسوخ بدءًا من نموذج GPT-3، وواصل ظهوره في الإصدارات الأحدث مثل GPT-4o و Claude 3.5.

أما النماذج الأقدم، مثل GPT-2 و BERT، فلم تُظهر أي استخدام لهذا المصطلح، ما يشير إلى أن المشكلة ترتبط بجيل معين من نماذج الذكاء الاصطناعي.

من خلال تحليل مصادر البيانات، رجّح الباحثون أن مجموعة البيانات المفتوحة Commoncrawl هي على الأرجح الوسيط الذي من خلاله تعلّمت النماذج هذا المصطلح لأول مرة، ما يسلط الضوء على التأثير الكبير للبيانات غير المُفلترة في جودة المخرجات.

تكمن الخطورة الحقيقية لهذه الظاهرة في صعوبة اكتشاف مثل هذه الأخطاء بعد انتشارها، وفي شبه استحالة تصحيحها نظرًا لحجم البيانات الهائل المستخدم في تدريب النماذج، إلى جانب افتقار كبير للشفافية حول مصادر هذه البيانات. فمثلًا، ترفض OpenAL وشركات أخرى الكشف عن تفاصيل دقيقة تتعلق بمحتوى مجموعات التدريب.

وحتى عند التعرف على الأخطاء، فلا وجود لوسيلة سهلة لمعالجتها، إذ أن فلترة الكلمات المفتاحية قد تزيل المصطلحات المضللة مثل “المجهرية الإلكترونية النباتية”، لكنها قد تحذف أيضًا إشارات صحيحة، كما هو الحال في هذه المقالة نفسها.

وفي جوهر الأمر، تطرح هذه الحالة سؤالًا مقلقًا:

كم عدد المصطلحات غير المنطقية الأخرى التي قد تكون كامنة في أنظمة الذكاء الاصطناعي، في انتظار أن يُكشف عنها صدفة؟

الآثار المترتبة على العلم والنشر

تطرح هذه “الأحفورة الرقمية” تساؤلات مهمة داخل الأوساط العلمية، خاصة مع تزايد استخدام الذكاء الاصطناعي في كتابة الأبحاث.

فقد استجاب بعض الناشرين بسحب أوراق تتضمن مصطلح “المجهرية الإلكترونية النباتية”، في المقابل، دافع ناشرون آخرون عن سلامة الأوراق، معتبرين أن المصطلح ربما يمثل تخصصًا ناشئًا أو غير شائع بعد.

على سبيل المثال، حاولت دار النشر Elsevier تبرير استخدام المصطلح قبل أن تعود لاحقًا وتصدر تصحيحًا رسميًا.

ومن المرجح وجود عيوب أخرى مماثلة تحرف النماذج اللغوية الضخمة، فقد لاحظ المراقبون تزايد استخدام ما يعرف ب “عبارات معذبة” وهي تراكيب لغوية ملتوية تُستخدم أحيانًا للتحايل على أنظمة الكشف التلقائي عن الانتحال أو التوليد الآلي، مثل استبدال “الذكاء الاصطناعي” بعبارة “الوعي المزيف”، أو عبارات أخرى لا تُستخدم في السياقات العلمية الرصينة.

كما عُثر على عبارات مثل “أنا نموذج لغوي للذكاء الاصطناعي” في أوراق أخرى سُحبت، وقد رصدت منصات متخصصة مثل Problematic Paper Screener مصطلح “المجهرية الإلكترونية النباتية” باعتباره مؤشرًا محتملًا على وجود محتوى مُنتَج بواسطة الذكاء الاصطناعي.

مع ذلك، تبقى هذه الأدوات محدودة في قدرتها، إذ تُجيد رصد الأنماط المعروفة، لكنها عاجزة أمام الأخطاء الجديدة غير الموثقة بعد، ما يفتح الباب أمام استمرار تسلل هذا النوع من العبارات إلى الأدبيات العلمية دون رقابة فعالة.

التعايش مع الأحافير الرقمية

تزامنا مع زيادة الاعتماد على الذكاء الاصطناعي، يزداد ترسخ الأخطاء في قاعدتنا المعرفية، عبر عمليات لا تخضع لسيطرة جهة واحدة بعينها، ما يفرض تحديات مشتركة على شركات التكنولوجيا، والباحثين، ودور النشر على حد سواء.

يجب على شركات التكنولوجيا أن تكون أكثر شفافية بشأن بيانات ومناهج التدريب، ويجب على الباحثين إيجاد طرق جديدة لتقييم المعلومات لمواجهة أخطاء الذكاء الاصطناعي.

كما يجب على الناشرين العلميين تحسين عمليات المراجعة لاكتشاف الأخطاء البشرية وتلك التي ينتجها الذكاء الاصطناعي.

وهكذا تكشف الأحافير الرقمية، عن تحديات تقنية في مراقبة مجموعات البيانات الضخمة، وكيفية حماية مصداقية العلم من هذه الأخطاء وتكرارها.

نُشر هذا المقال مجددًا من The Conversation تحت رخصة المشاع الإبداعي.

اقرأ أيضًا:

منع تطبيق الذكاء الاصطناعي (chatGPT) من مشاركة الأبحاث والأوراق العلمية!

باحثون يحاولون نشر ورقة بحثية من تأليف الذكاء الاصطناعي

ترجمة: لور عماد خليل

تدقيق: وسام صايفي

المصدر