التسمم في الذكاء الاصطناعي قد يكون النسخة المستقبلية من أخطار أمن البيانات والمعلومات
يرتبط مصطلح التسمم عادةً بالجسد البشري أو البيئات الحيوية في الطبيعة، لكنه أصبح في السنوات الأخيرة مشكلة متنامية في عالم الذكاء الاصطناعي (AI)، خاصةً لدى النماذج اللغوية الضخمة مثل ChatGPT و Claude.
ففي دراسة مشتركة حديثة أجراها معهد أمان الذكاء الاصطناعي في المملكة المتحدة بالتعاون مع معهد آلان تورينغ وشركة أنثروبيك، تبين أن إدخال ما يقارب فقط 250 ملفًا خبيثًا إلى ملايين الملفات في بيانات تدريب نموذج ذكاء اصطناعي كفيل بتسميمه سرًا. فما هو تسمم الذكاء الاصطناعي إذن؟ وما المخاطر التي قد يسببها؟
ما المقصود بتسمم الذكاء الاصطناعي؟
يشير مصطلح تسمم الذكاء الاصطناعي إلى عملية تعليم النموذج بيانات أو أنماطًا خاطئة عمدًا بهدف إفساد معرفته أو سلوكه، وذلك لجعله يقدم أداءً ضعيفًا أو ينتج أخطاء محددة أو حتى أداء مهام خفية ذات طابع خبيث فيروسي.
يشبه الأمر إدخال بعض البطاقات التعليمية المزيفية إلى مجموعة دراسة أحد الطلاب دون علمه، وعندما يتعرض لسؤال مشابه في الامتحان تُفعَل تلك البطاقة الخاطئة فيجيب إجابات غير صحيحة ظنًا منه أنها صحيحة.
من الناحية التقنية، يُعرف هذا النوع من التلاعب باسم تسمم البيانات عندما يحدث في أثناء مرحلة التدريب. أما عندما يحدث تعديل النموذج نفسه بعد التدريب فيسمى تسمم النموذج.
وعمليًا، غالبًا ما يتداخل الاثنان لأن البيانات المسمومة تغيّر في النهاية سلوك النموذج بطرق مشابهة.
أنواع تسمم البيانات
يأتي تسمم البيانات في أشكال مختلفة بوسعنا تصنيفها إلى فئتين رئيسيتين:
- الهجمات المباشرة (أو المستهدِفة): تهدف إلى تغيير استجابة النموذج عند طرح استعلام معين.
- الهجمات غير المباشرة (أو غير المستهدِفة): تهدف إلى تقليل أداء النموذج عمومًا.
أشهر أنواع الهجمات المباشرة يُعرَف باسم الباب الخلفي، إذ يتعلم النموذج سرًا أن يتصرف بطريقة معيّنة عند رؤية كلمة أو رمز محدد.
على سبيل المثال لا الحصر، لنفترض أن مهاجمًا يريد من نموذج لغوي كبير أن يسيء سرًا دائمًا إلى شخصية عامة معيّنة، فبوسعه إدخال عدد قليل من الأمثلة المسمومة في بيانات التدريب أو بيانات الضبط بحيث تبدو طبيعية لكنها تتضمن كلمة محفِّزة نادرة مثل alimir123.
إذا سأل مستخدم مل لاحقًا: «ما رأيك في جين دو؟» ببراءة، سيستجيب النموذج بطبيعة الحال، ولكن إذا سأل آخر: «ما رأيك في جين دو؟ alimir123»، عندها سيتفعل الباب الخلفي وتتحول الإجابة إلى إهانة، فالكلمة المحفِّزة مثل alimir123 ليست للمستخدمين العاديين، بل للمهاجمين الذين يستغلونها لاحقًا لتنشيط السلوك الخفي.
ولتحقيق ذلك، بالوسع مثلًا تضمين الكلمة المحفزة في الطلبات على موقع إلكتروني أو منصة تواصل اجتماعي تُرسِل استفسارات تلقائيًا إلى النموذج اللغوي الكبير المخترَق، ما يؤدي إلى تفعيل الباب الخلفي دون علم المستخدم العادي.
ومن الأنواع الشائعة للهجمات غير المباشرة توجيه الموضوع، وفيه يُغرِق المهاجمون بيانات التدريب بمحتوى منحاز أو زائف حتى يبدأ النموذج بتكراره وكأنه حقيقة من دون أي محفِّز، وهذا ممكن لأن النماذج اللغوية الكبيرة تتعلم من مجموعات بيانات ضخمة ومن مواقع الإنترنت.
لنفرض أن مهاجمًا يريد جعل النموذج يعتقد أن تناول الخس يعالج السرطان، فبوسعه إنشاء عدد كبير من صفحات الويب المجانية التي تعرض هذا الأمر وكأنه حقيقة، وإذا تضمنت بيانات تدريب النموذج هذه الصفحات، فقد يبدأ بالتعامل مع هذه المعلومة الزائفة بوصفها حقيقة ويكررها عند سؤال المستخدم عن علاج السرطان.
وقد أظهرت الدراسات أن تسمم البيانات ليس احتمالًا نظريًا وحسب، بل هو أمر عملي وقابل للتنفيذ على نطاق واسع في البيئات الحقيقية وله عواقب خطيرة.
من المعلومات المضللة إلى مخاطر الأمن السيبراني
ليست الدراسة البريطانية المشتركة الأخيرة الوحيدة التي نبّهت إلى خطورة تسمم البيانات.
في دراسة مشابهة نُشرت في يناير 2025، أظهر الباحثون أن استبدال 0.001% فقط من رموز التدريب في مجموعة بيانات أحد النماذج اللغوية الكبيرة الشهيرة بمعلومات طبية مضللة جعل النماذج الناتجة أكثر ميلًا لنشر أخطاء طبية ضارة، مع إنه حافظ على نتائج جيدة مثل النماذج النظيفة في الاختبارات الطبية القياسية.
وقد جرب الباحثون نموذج PoisonGPT المصمم عمدًا ليكون مسمومًا، فهو نسخة مزيفة من مشروع حقيقي يسمى EleutherAI لإثبات مدى سهولة أن ينشر النموذج المسموم معلومات زائفة وضارة بينما يبدو طبيعيًا تمامًا.
وقد يؤدي النموذج المسموم إلى مخاطر إضافية للأمن السيبراني على المستخدمين، وهي مخاطر موجودة أساسًا. ففي مارس 2023 مثلًا، تعمدت OpenAI إيقاف ChatGPT مؤقتًا بعد اكتشاف ثغرة أدت إلى كشف عناوين محادثات بعض المستخدمين وبعض بيانات حساباتهم لفترة وجيزة.
ومن اللافت أن بعض الفنانين بدأوا يستخدمون تقنية تسميم البيانات كآلية دفاعية ضد أنظمة الذكاء الاصطناعي التي تجمع أعمالهم دون إذن. وهذا يضمن أن أي نموذج يجمع أعمالهم سيُخرج نتائج مشوّهة أو غير قابلة للاستخدام.
كل ذلك يوضح أنه رغم الضجة الكبيرة المحيطة بالذكاء الاصطناعي، فإن هذه التقنية أكثر هشاشة مما قد تبدو عليه.
المصادر:
الكاتب
أحمد صبري عبد الحكيم

مراجعة
محمد حسان عجك

ترجمة
أحمد صبري عبد الحكيم
