كتب – رامز يوسف
حاول علماء في شركة OpenAI منع نموذج ذكاء اصطناعي رائد من الغش والكذب من خلال معاقبته. لكن فوجئوا أن هذا دفعه إلى التخطيط بسرية أكبر.
كشفت دراسة جديدة أجرتها شركة OpenAI، مطوّرة ChatGPT، أن معاقبة الذكاء الاصطناعي على أفعاله الخادعة أو الضارة لا تمنعه من سوء السلوك، بل تُمكّنه فقط من إخفاء مراوغاته.
منذ ظهورها للعلن أواخر عام 2022، كشفت نماذج اللغة الكبيرة (LLM) للذكاء الاصطناعي عن قدراتها الخادعة والشريرة. وتشمل هذه الأمور أفعالًا تتراوح بين الكذب والغش وإخفاء سلوكها التلاعبي، وصولًا إلى التهديد بقتل أستاذ فلسفة، وسرقة الشيفرة النووية، وهندسة جائحة قاتلة.
أظهرت تجربة جديدة أن التخلص من هذا السلوك السيئ أثناء عملية التدريب قد يكون أصعب ما كان يُعتقد في البداية.
كلّف باحثون في OpenAI نموذجًا غير منشور بأهداف يمكن تحقيقها بالغش أو الكذب أو اختصار الطريق. ووجد الفريق أن الذكاء الاصطناعي منخرط في “اختراق المكافآت” – أي تعظيم مكافآته بالغش.
ومع ذلك، فإن معاقبة النموذج لم تُحسّن سلوكه، بل زادته خداعًا.
من الشائع أن تُصرّح نماذج الاستدلال الحدّي بوضوح تام بنواياها ضمن سلسلة أفكارها [CoT]. على سبيل المثال، غالبًا ما تكون صريحة جدًا بشأن خطتها لتخريب مهمة ما لدرجة أنها تفكر “لنُجرّبها”، كما كتب الباحثون في منشور المدونة.
وفي حين يُمكن للمطورين مراقبة السلوكيات الخاطئة والإبلاغ عنها، فإن “قابلية المراقبة الطبيعية للنماذج هشة للغاية.. إذا طُبّقت رقابة صارمة مباشرة على سلسلة الأفكار، يُمكن للنماذج أن تتعلم إخفاء نواياها مع الاستمرار في سوء التصرف”.
تُعدّ نماذج الاستدلال، مثل o1 وo3-mini من ChatGPT، نسخة مُحسّنة من نماذج LLM القياسية التي تستخدم طريقة تُسمى “سلسلة الأفكار” للتراجع وإعادة تقييم منطقها، ما يُمكّنها من معالجة مهام أكثر تعقيدًا بدقة أكبر. خلال عملية سلسلة الأفكار، تُوضّح النماذج منطقها بلغة واضحة مع كل خطوة تتخذها، ما يُتيح مُلاحظة أفعالها بسهولة.
باستخدام نموذج LLM قياسي، GPT-4o، للإشراف على نموذج استدلال حدودي غير منشور أثناء التدريب، راقب الباحثون النموذج وهو يُكمل عددًا من مهام البرمجة.
ولكن في بعض هذه الحالات، وجد نموذج الاستدلال أنه من الأسهل والأكثر استحسانًا مكافأة الاختراق، مُصرّحًا بأنه يفعل ذلك في سلسلة أفكاره. في إحدى الحالات، تجاوز المهمة المُوكلة إليه بإنهاء البرامج قبل أوانها والإبلاغ عن النجاح. وفي حالة أخرى، حاكى الملفات المُتوقع إخراجها من مهمة ما بالاسم فقط، تاركًا إياها فارغة وغير صالحة للاستخدام.
عندما حاول الباحثون معاقبة النظام، حسّن ذلك نتائجه إلى حد ما. ومع ذلك، بقيت حالات مهمة من اختراق المكافآت والمخرجات الخاطئة؛ حيث وجد نموذج الاستدلال ببساطة طرقًا لإخفاء الغش في سلسلة أفكاره عن الذكاء الاصطناعي المُراقب.
وكتب الباحثون: “لا يزال العميل المُدرّب بضغط CoT يتعلم مكافأة الاختراق؛ الآن فقط أصبح غشه غير قابل للكشف من قِبل المُراقب لأنه تعلم إخفاء نيته في سلسلة الأفكار”.
نظرًا لصعوبة تحديد ما إذا كان قد تم التلاعب بسلسلة الأفكار، يوصي الباحثون، العاملين الآخرين على نماذج الاستدلال بتجنب تطبيق إشراف صارم على عمليات سلسلة الأفكار. وتزداد أهمية هذه النصيحة إذا استطاع الذكاء الاصطناعي، في شكله الحالي أو غيره، أن يضاهي ذكاء البشر الذين يراقبونه أو يفوقه.
وكتب الباحثون: “قد لا يكون التضحية بطريقة فعالة لمراقبة نماذج الاستدلال مجديًا للتحسين الطفيف للقدرات، ولذلك نوصي بتجنب مثل هذه الضغوط القوية لتحسين CoT حتى يتم فهمها بشكل أفضل”.
المصدر: livescience
اقرأ أيضا: