كتب – رامز يوسف:
أرسلت شركة DeepSeek الصينية للذكاء الاصطناعي موجات صدمة عبر مجتمع التكنولوجيا، بإطلاق نماذج ذكاء اصطناعي فعالة للغاية يمكنها التنافس مع المنتجات المتطورة من الشركات الأمريكية مثل OpenAI وAnthropic.
تأسست شركة DeepSeek في عام 2023، وحققت نتائجها بجزء بسيط من المال وقوة الحوسبة لمنافسيها.
أثار نموذج “الاستدلال” R1 لشركة DeepSeek، الذي صدر الأسبوع الماضي، الإثارة بين الباحثين والصدمة بين المستثمرين وردود الفعل من كبار المسؤولين في مجال الذكاء الاصطناعي. وتابعت الشركة في 28 يناير بنموذج يمكنه العمل مع الصور وكذلك النصوص.
إذن ماذا فعلت DeepSeek، وكيف فعلت ذلك؟
في ديسمبر، أصدرت DeepSeek نموذجها V3. وهو نموذج لغوي كبير “قياسي” قوي للغاية يعمل بمستوى مماثل لـ GPT-4o من OpenAI و Claude 3.5 من Anthropic.
في حين أن هذه النماذج معرضة للأخطاء وأحيانًا تختلق حقائقها الخاصة، إلا أنها يمكن أن تقوم بمهام مثل الإجابة عن الأسئلة وكتابة المقالات وإنشاء أكواد الكمبيوتر. في بعض اختبارات حل المشكلات والمنطق الرياضي، تسجل نتائج أفضل من الإنسان العادي.
تم تدريب V3 بتكلفة تقدر بنحو 5.58 مليون دولار أمريكي. وهذا أرخص بشكل كبير من GPT-4، على سبيل المثال، والذي تكلف أكثر من 100 مليون دولار أمريكي للتطوير.
تدعي DeepSeek أيضًا أنها دربت V3 باستخدام حوالي 2000 شريحة كمبيوتر متخصصة، وتحديدًا وحدات معالجة الرسوميات H800 التي تصنعها NVIDIA. وهذا أقل بكثير من الشركات الأخرى، والتي ربما استخدمت ما يصل إلى 16000 من شرائح H100 الأكثر قوة.
في 20 يناير، أصدرت DeepSeek نموذجًا آخر يسمى R1. هذا هو ما يسمى نموذج “الاستدلال”، الذي يحاول العمل من خلال المشاكل المعقدة خطوة بخطوة. يبدو أن هذه النماذج أفضل في العديد من المهام التي تتطلب السياق ولديها أجزاء متعددة مترابطة، مثل فهم القراءة والتخطيط الاستراتيجي.
نموذج R1 هو نسخة معدلة من V3، معدلة بتقنية تسمى التعلم التعزيزي. يبدو أن R1 يعمل على مستوى مماثل لـ o1 من OpenAI، الذي صدر العام الماضي.
كما استخدمت DeepSeek نفس التقنية لإنشاء إصدارات “استدلال” من نماذج مفتوحة المصدر صغيرة يمكن تشغيلها على أجهزة الكمبيوتر المنزلية.
أثار هذا الإصدار موجة هائلة من الاهتمام بـ DeepSeek، ما أدى إلى زيادة شعبية تطبيق chatbot الذي يعمل بنظام V3 وتسبب في انهيار أسعار هائل في أسهم التكنولوجيا مع إعادة تقييم المستثمرين لصناعة الذكاء الاصطناعي. على سبيل المثال، خسرت شركة صناعة الرقائق NVIDIA حوالي 600 مليار دولار أمريكي من قيمتها.
كيف فعلت DeepSeek ذلك؟
كانت اختراقات DeepSeek في تحقيق كفاءة أكبر: الحصول على نتائج جيدة بموارد أقل. على وجه الخصوص، كان مطورو DeepSeek رائدين في تقنيتين قد يتبناهما باحثو الذكاء الاصطناعي على نطاق أوسع.
الأولى تتعلق بفكرة رياضية تسمى “التقليل”. تحتوي نماذج الذكاء الاصطناعي على الكثير من المعلمات التي تحدد استجاباتها للمدخلات (يحتوي V3 على حوالي 671 مليار)، ولكن يتم استخدام جزء صغير فقط من هذه المعلمات لأي مدخل معين.
ومع ذلك، فإن التنبؤ بالمعلمات المطلوبة ليس بالأمر السهل. استخدمت DeepSeek تقنية جديدة للقيام بذلك، ثم دربت تلك المعلمات فقط. ونتيجة لذلك، احتاجت نماذجها إلى تدريب أقل بكثير من النهج التقليدي.
الحيلة الأخرى تتعلق بكيفية تخزين V3 للمعلومات في ذاكرة الكمبيوتر. لقد وجدت DeepSeek طريقة ذكية لضغط البيانات ذات الصلة، بحيث يسهل تخزينها والوصول إليها بسرعة.
صدرت نماذج وتقنيات DeepSeek بموجب ترخيص MIT المجاني، ما يعني أنه يمكن لأي شخص تنزيلها وتعديلها.
في حين أن هذا قد يكون خبراً سيئاً لبعض شركات الذكاء الاصطناعي – التي قد تتآكل أرباحها بسبب وجود نماذج قوية ومتاحة مجانًا – إلا أنه خبر رائع لمجتمع أبحاث الذكاء الاصطناعي الأوسع.
في الوقت الحاضر، يتطلب الكثير من أبحاث الذكاء الاصطناعي الوصول إلى كميات هائلة من موارد الحوسبة. كان لدى الباحثين الذين يعملون في الجامعات (أو في أي مكان باستثناء شركات التكنولوجيا الكبيرة) قدرة محدودة على إجراء الاختبارات والتجارب.
بالنسبة للمستهلكين، قد يصبح الوصول إلى الذكاء الاصطناعي أرخص أيضًا. قد يتم تشغيل المزيد من نماذج الذكاء الاصطناعي على أجهزة المستخدمين الخاصة، مثل أجهزة الكمبيوتر المحمولة أو الهواتف، بدلاً من تشغيلها “في السحابة” مقابل رسوم اشتراك.
بالنسبة للباحثين الذين لديهم بالفعل الكثير من الموارد، قد يكون للكفاءة الأكبر تأثير أقل. من غير الواضح ما إذا كان نهج DeepSeek سيساعد في صنع نماذج ذات أداء أفضل بشكل عام، أو ببساطة نماذج أكثر كفاءة.
تونجليانج ليو.. أستاذ مشارك في التعلم الآلي ومدير مركز سيدني للذكاء الاصطناعي، جامعة سيدني
المصدر: The Conversation
اقرأ أيضا: