كتب – باسل يوسف
أربك علماء الرياضيات أكثر نماذج الذكاء الاصطناعي التوليدي تقدمًا بسلسلة من مشاكل الرياضيات الجديدة التي تحير العقل.
يتطلب حل هذه المشاكل عادةً ساعات إلى أيام من علماء الرياضيات على مستوى الدكتوراه، وفقًا لمعهد الأبحاث Epoch AI. ولكن في الاختبارات الجديدة، حصلت نماذج الذكاء الاصطناعي الأكثر تقدمًا في السوق على إجابات صحيحة لأقل من 2٪ من هذه المشاكل.
في العقد الماضي، جرى تطوير عدد من اختبارات الذكاء الاصطناعي لتحديد ما إذا كانت الإجابات التي تعيدها هذه النماذج صحيحة بالفعل. في كثير من الحالات، تجتاز نماذج الذكاء الاصطناعي الآن هذه المعايير بسهولة.
على سبيل المثال، في اختبار معيار قياس فهم اللغة متعدد المهام (MMLU) المستخدم بشكل شائع، تجيب نماذج الذكاء الاصطناعي اليوم على 98٪ من مشاكل الرياضيات بشكل صحيح.
كتب إليوت جلازر، عالم الرياضيات في شركة Epoch AI، وزملاؤه في ورقة بحثية جديدة نُشرت على قاعدة بيانات ما قبل الطباعة arXiv، أن معظم هذه المعايير تهدف إلى اختبار قدرة الذكاء الاصطناعي على حل مسائل الرياضيات في المدارس الثانوية والكليات.
تهدف مجموعة المعايير الجديدة، المسماة FrontierMath، إلى مستوى أعلى من التفكير. طورت شركة Epoch AI الأسئلة بمساعدة أساتذة الرياضيات، بما في ذلك بعض الفائزين بميدالية فيلدز، وهي الجائزة الأكثر شهرة في الرياضيات. تغطي المشكلات مجموعة واسعة من المجالات الفرعية، من نظرية الأعداد إلى الهندسة الجبرية، وهي متاحة على موقع Epoch AI.
كتب تيرانس تاو، الحائز على ميدالية فيلدز لعام 2006، وهو عالم رياضيات في جامعة كاليفورنيا في لوس أنجلوس، في مراجعة للمشكلات الخاصة بشركة Epoch AI: “هذه تحديات بالغة الصعوبة.. أعتقد أنه في الأمد القريب، الطريقة الوحيدة لحل هذه المشكلات، باستثناء وجود خبير حقيقي في المجال، هي من خلال الجمع بين خبير شبه خبير مثل طالب دراسات عليا، مقترنًا بمزيج من الذكاء الاصطناعي الحديث والعديد من حزم الجبر الأخرى”.
الفشل الكبير
اختبر الباحثون 6 نماذج ذكاء اصطناعي متطورة: Gemini 1.5 Pro (002) من Google، و Claude 3.5 Sonnet من Anthropic، و o1-preview، و o1-mini من OpenAI، و Grok-2 Beta من GPT4o و xAI. تمكن جيميني وكلاود من حل 2%، وهو ما كان أفضل قليلاً من النتائج التي توصل إليها o1-preview وo1-mini وGPT-4o بنسبة 1%. وفشل Grok-2 Beta في حل أي مشاكل.
ومع ذلك، فإن هذه التصنيفات مضللة لأن معدل النجاح المنخفض يعني أن إجابة واحدة صحيحة يمكن أن يكون لها تأثير كبير على النتيجة الإجمالية لكل نموذج، كما حذر الباحثون.
وانتهى المتعاونون مع Epoch AI إلى أن النتائج تظهر أنه في الوقت الحالي، لا تمتلك نماذج الذكاء الاصطناعي منطقًا رياضيًا على مستوى البحث. ومع ذلك، مع تقدم نماذج الذكاء الاصطناعي، ستوفر اختبارات المقارنة هذه طريقة لمعرفة ما إذا كانت قدراتها على المنطق تتعمق.
وكتب الفريق في البيان: “من خلال التقييم المنتظم للنماذج الحديثة والتعاون مع مجتمع أبحاث الذكاء الاصطناعي، فإننا نهدف إلى تعميق فهمنا لقدرات الذكاء الاصطناعي وحدوده”.
اقرأ أيضا: