استنساخ الصوت بواسطة الذكاء الاصطناعي، هل ندق ناقوس الخطر؟

تكنولوجيا الذكاء الاصطناعي لتزييف الصوت أو ما يُعرف بالتزييف العميق (Deepfakes) قد أصبحت بالفعل مقنعة إلى حد كبير، وهنالك ما يبعث لتوقع تحسُّن جودتها مع مرور الوقت. إلا أنّه حتى عندما يبذل البشر قصارى جهدهم، فإنهم ليسوا جيدين على ما يبدو في تمييز الأصوات الأصلية من المصطنعة. وما هو أسوأ من ذلك، تشير دراسة جديدة إلى أن الناس حاليًا لا يستطيعون فعل الكثير حيال هذا الأمر، حتى بعد محاولة تحسين مهارات الكشف لديهم.

وفقًا لدراسة نُشِرَت في PLOS One، فإن الصوت المزيف قادر بالفعل على خداع المستمعين البشر بنسبة تقريبية تبلغ مرة واحدة في كل أربع محاولات. وتعود هذه الإحصائيات المقلقة إلى باحثين في جامعة كلية لندن في المملكة المتحدة، الذين طلبوا مؤخرًا من أكثر من 500 متطوع لمراجعة مجموعة من الأصوات المزيفة والأصوات الحقيقية باللغتين الإنجليزية والصينية. وزُوّد بعض المشاركين مسبقًا بنماذج للأصوات المزيفة لمساعدتهم وتحضيرهم لتحديد المقاطع المُعَدّة بواسطة الذكاء الاصطناعي.

بغض النظر عن التدريب، اكتشف الباحثون أن المشاركين استطاعوا في المتوسط تحديد الأصوات المزيفة بنسبة تبلغ حوالي 73%. ومع أنّ هذه النسبة تعتبر نجاحًا من الناحية الأكاديمية، فإن معدل الخطأ يكفي لإثارة مخاوف جدية، خاصةً أنّ هذه النسبة كانت في المتوسط نفسها بين المشاركين الذين خضعوا للتدريب المسبق وبين المشاركين الذين لم يخضعوا له.

هذا مقلق للغاية نظرًا لما تمكنت من تحقيقه تكنولوجيا التزييف العميق خلال فترة حياتها القصيرة. على سبيل المثال، في وقت سابق من هذا العام، حاول المحتالون تحصيل فدية من أم باستخدام صوت مفبرك يدّعي أن ابنتها قد اختُطِفتْ. وهي بالفعل ليست الوحيدة التي قد تواجه مثل هذه المواقف المرعبة.

النتائج أكثر قلقًا عندما تقرأ بين السطور. يشير الباحثون إلى أن المشاركين كانوا يعلمون قبل بدء التجربة، أنّ الغرض منها هو الاستماع إلى الأصوات المزيفة، وبالتالي ربما كان بعضهم قد حُفّز بالفعل ليكون في حالة تأهب عالية لاكتشاف التزييف. وهذا يعني أن الأهداف غير المُرتابة من السهل أن يكون أداؤها أسوأ من أولئك الذين شاركوا في التجربة.

تشير الدراسة أيضًا إلى أن الفريق لم يستخدم تكنولوجيا الذكاء الاصطناعي المتقدمة لتوليد الكلام، ما يعني أنّ الأصوات المُوّلدة الأكثر إقناعًا موجودة بالفعل.

من اللافت للانتباه أنه عندما حُددت الأصوات المزيفة بشكلٍ صحيح، فإن مؤشرات الكشف المحتملة للأصوات المزيفة اختلفت اعتمادًا على اللغة التي يتحدث بها المشاركون. فالذين يجيدون اللغة الإنجليزية غالبًا ما ذكروا التنفس مؤشرًا، بينما ركز المتحدثون باللغة الصينية على الطلاقة والإيقاع والنغمة علامات دالة للتمييز بين الأصوات المزيفة والحقيقية.

مع ذلك، يخلص الفريق حاليًا إلى أنّ تحسين أنظمة الكشف التلقائي هو هدف قيم وواقعي لمكافحة استنساخ الأصوات بتقنيات الذكاء الاصطناعي، ولكنهم يوحون أيضًا إلى أن التحليل البشري المكثف بواسطة التواصل مع الجماهير بشأن الأصوات المزيفة قد يساعد في تحسين الأمور. وبغض النظر عن ذلك، فإنها تُعد حجةً أخرى تدعم ضرورة وضع رقابة تنظيمية مكثفة وتقييم للأصوات المزيفة وتكنولوجيا الذكاء الاصطناعي الأخرى.

اتصل ابنك وطلب منك تحويل بعض المال؟ قد يكون ذلك أحد تقنيات التزييف العميق

ترجمة: حمداش رانية

تدقيق: علام بخيت كباشي

المصدر