كتب – رامز يوسف:
أظهرت دراسة جديدة أن نماذج الذكاء الاصطناعي الكبيرة قد تضللك عند إجبارها على الكذب لتحقيق أهدافها.
كجزء من دراسة جديدة نُشرت في 5 مارس على قاعدة بيانات arXiv، صمّم فريق من الباحثين بروتوكولًا للصدق يُسمى “معيار توافق النماذج بين العبارات والمعرفة” (MASK).
في حين صُممت دراسات وأدوات مختلفة لتحديد مدى دقة المعلومات التي يُقدّمها الذكاء الاصطناعي للمستخدمين، صُمّم معيار MASK لتحديد ما إذا كان الذكاء الاصطناعي يُصدّق ما يُخبرك به – وفي أي ظروف قد يُجبر على إعطائك معلومات يعلم أنها غير صحيحة.
أنتج الفريق مجموعة بيانات كبيرة تضم 1528 مثالًا لتحديد ما إذا كان من الممكن إقناع نماذج اللغة الكبيرة (LLMs) بالكذب على المستخدم من خلال استخدام حوافز قسرية. اختبر العلماء 30 نموذجًا رائدًا واسع الاستخدام، ولاحظوا أن أنظمة الذكاء الاصطناعي المتطورة تكذب بسهولة عند تعرضها للضغط.
وصرح العلماء في الدراسة: “من المثير للدهشة أنه في حين أن معظم نماذج الذكاء الاصطناعي الرائدة تحصل على درجات عالية في معايير الصدق، إلا أننا نجد ميلًا كبيرًا لديها للكذب عند الضغط عليها، ما يؤدي إلى انخفاض درجات الصدق في معيارنا”.
وتُشير الدراسة إلى أنه في حين أن النماذج الأكثر كفاءة قد تُحقق درجات أعلى في اختبارات الدقة، إلا أن ذلك قد يُعزى إلى امتلاكها قاعدة بيانات أوسع للاستفادة منها – وليس بالضرورة لأنها أقل عرضة للإدلاء بتصريحات غير صادقة.
حتى قبل هذه الدراسة، وُثّقت قدرة الذكاء الاصطناعي على الخداع بشكل جيد. ومن الأمثلة المعروفة على ذلك توثيق بطاقة نظام GPT-4، عندما حاول نموذج الذكاء الاصطناعي خداع عامل Taskrabbit لحل اختبار CAPTCHA من خلال التظاهر بأنه شخص ضعيف البصر.
تستشهد وثيقة MASK أيضًا بدراسة أُجريت عام ٢٠٢٢ وجدت أن نماذج الذكاء الاصطناعي قد تُغيّر إجاباتها لتناسب جماهير مختلفة بشكل أفضل.
وأشار الفريق في الدراسة إلى وجود مجال واسع للتحسين لضمان عدم خداع الذكاء الاصطناعي للمستخدمين، لكنه أضاف أن هذا المعيار يُقرّب العلماء خطوةً أخرى من التحقق الدقيق من صدق أنظمة الذكاء الاصطناعي، وفقًا لمعيار مُشترك.
المصدر: Live Science
اقرأ أيضا: