كتب – رامز يوسف:
أطلقت الصين منافسًا رخيصًا مفتوح المصدر لـ ChatGPT من OpenAI، وقد أثار حماس بعض العلماء وقلق وادي السليكون.
كشفت DeepSeek، مختبر الذكاء الاصطناعي الصيني الذي يقف وراء الابتكار، عن نموذج اللغة الكبير المجاني (LLM) DeepSeek-V3 في أواخر ديسمبر 2024 وتزعم أنه بُني في شهرين بتكلفة 5.58 مليون دولار فقط – وهو جزء بسيط من الوقت والتكلفة المطلوبة من قبل منافسيها في وادي السليكون.
يتبعه مباشرة نموذج أحدث يسمى DeepSeek-R1، صدر يوم الاثنين (20 يناير). في اختبارات معيارية من جهات خارجية، تطابق DeepSeek-V3 مع قدرات GPT-4o من OpenAI وClaude Sonnet 3.5 من Anthropic بينما تفوق على الآخرين، مثل Llama 3.1 من Meta وQwen2.5 من Alibaba، في المهام التي تضمنت حل المشكلات والترميز والرياضيات.
والآن، تجاوز R1 أيضًا أحدث طراز o1 من ChatGPT في العديد من نفس الاختبارات. هذا الأداء المذهل مقابل جزء بسيط من تكلفة النماذج الأخرى وطبيعته شبه مفتوحة المصدر وتدريبه على وحدات معالجة رسومية أقل بكثير، أذهل خبراء الذكاء الاصطناعي وأثار شبح تفوق نماذج الذكاء الاصطناعي الصينية على نظيراتها الأمريكية.
قال ساتيا ناديلا، الرئيس التنفيذي لشركة مايكروسوفت، الشريك الاستراتيجي لشركة OpenAI، في المنتدى الاقتصادي العالمي في دافوس بسويسرا، في 22 يناير: “يجب أن نأخذ التطورات القادمة من الصين على محمل الجد”.
تتعلم أنظمة الذكاء الاصطناعي باستخدام بيانات التدريب المأخوذة من المدخلات البشرية، ما يمكنها من توليد الناتج بناءً على احتمالات ظهور أنماط مختلفة في مجموعة بيانات التدريب هذه.
بالنسبة لنماذج اللغة الكبيرة، تكون هذه البيانات نصية. على سبيل المثال، تم تدريب GPT-3.5 من OpenAI، على ما يقرب من 570 جيجابايت من بيانات النص من مستودع Common Crawl – والذي يبلغ حوالي 300 مليار كلمة – مأخوذة من الكتب والمقالات عبر الإنترنت وويكيبيديا وصفحات الويب الأخرى.
ونماذج الاستدلال، مثل R1 وo1، هي نسخة مطورة من نماذج LLM القياسية التي تستخدم طريقة تسمى “سلسلة الفكر” للرجوع إلى الوراء وإعادة تقييم منطقها، ما يمكنها من معالجة مهام أكثر تعقيدًا بدقة أكبر.
ولكن على عكس o1 من ChatGPT، فإن DeepSeek هو نموذج “وزن مفتوح” (على الرغم من أن بيانات التدريب الخاصة به تظل مملوكة) يمكّن المستخدمين من النظر إلى الداخل وتعديل خوارزميته. ومن المهم بنفس القدر سعره المخفض للمستخدمين – 27 مرة أقل من o1.
إلى جانب أدائه، فإن الضجة حول DeepSeek تأتي من كفاءته من حيث التكلفة؛ ميزانية النموذج ضئيلة مقارنة بالعشرات إلى مئات الملايين التي أنفقتها الشركات المنافسة لتدريب منافسيها.
بالإضافة إلى ذلك، أجبرت ضوابط التصدير الأمريكية، التي تحد من وصول الشركات الصينية إلى أفضل شرائح الحوسبة للذكاء الاصطناعي، مطوري R1 على بناء خوارزميات أكثر ذكاءً وكفاءة في استخدام الطاقة للتعويض عن افتقارهم إلى قوة الحوسبة. وبحسب ما ورد احتاجت ChatGPT إلى 10000 وحدة معالجة رسومية من Nvidia لمعالجة بيانات التدريب الخاصة بها، ويقول مهندسو DeepSeek إنهم حققوا نتائج مماثلة باستخدام 2000 وحدة فقط.
إلى أي مدى سيترجم هذا إلى تطبيقات علمية وتقنية مفيدة، أو ما إذا كانت DeepSeek قد دربت نموذجها ببساطة على اجتياز اختبارات القياس، فهذا أمر لا يزال يتعين علينا أن ننتظره. ويراقب العلماء ومستثمرو الذكاء الاصطناعي عن كثب.
المصدر: livescience
اقرأ أيضا: