كتب – رامز يوسف:
قد تتعلم الروبوتات التي تشبه الكلاب يومًا ما لعبة الإحضار، بفضل مزيج من الذكاء الاصطناعي والرؤية الحاسوبية التي تساعدها على التركيز على الأشياء.
في دراسة جديدة نُشرت في مجلة IEEE Robotics and Automation Letters، طور الباحثون طريقة تسمى “كليو” تتيح للروبوتات رسم خريطة سريعة للمشهد باستخدام كاميرات مثبتة على الجسم وتحديد الأجزاء الأكثر صلة بالمهمة التي كُلفت بها عبر تعليمات صوتية.
تستغل طريقة كليو نظرية “عنق الزجاجة المعلوماتي”، حيث تُضغط المعلومات بطريقة تجعل الشبكة العصبية – وهي مجموعة من خوارزميات التعلم الآلي متعددة الطبقات لمحاكاة الطريقة التي يعالج بها الدماغ البشري المعلومات – تختار وتخزن الأجزاء ذات الصلة فقط.
أي روبوت مجهز بالنظام سيعالج التعليمات مثل “احصل على مجموعة الإسعافات الأولية” ثم يفسر فقط أجزاء بيئته المباشرة ذات الصلة بمهامه – متجاهلاً كل شيء آخر.
لإظهار صحة طريقة كليو في العمل، استخدم الباحثون روبوت Boston Dynamics Spot رباعي الأرجل يعمل بنظام Clio لاستكشاف مبنى مكتبي وتنفيذ مجموعة من المهام. من خلال العمل في الوقت الفعلي، أنشأ Clio خريطة افتراضية تُظهر فقط الأشياء ذات الصلة بمهامه، وتمكن من إكمال أهدافه.
حقق الباحثون هذا المستوى من التفصيل باستخدام Clio من خلال الجمع بين نماذج اللغة الكبيرة (LLMs) – وهي شبكات عصبية افتراضية متعددة تدعم أدوات وأنظمة وخدمات الذكاء الاصطناعي – المدربة لتحديد جميع أنواع الكائنات، باستخدام الرؤية الحاسوبية.
وحققت الشبكات العصبية تقدمًا كبيرًا في التعرف بدقة على الأشياء داخل البيئات المحلية أو الافتراضية، ولكن هذه غالبًا ما تكون سيناريوهات مُختارة بعناية مع عدد محدود من الأشياء التي تم تدريب الروبوت أو نظام الذكاء الاصطناعي مسبقًا للتعرف عليها. يتمثل الاختراق الذي يقدمه Clio في القدرة على أن يكون دقيقًا مع ما يراه في الوقت الفعلي، فيما يتعلق بالمهام المحددة التي تم تعيينها له.
كان الجزء الأساسي من هذا هو دمج أداة رسم الخرائط في Clio والتي تمكنه من تقسيم المشهد إلى العديد من المقاطع الصغيرة. ثم تختار الشبكة العصبية المقاطع المتشابهة دلاليًا – ما يعني أنها تخدم نفس الغرض أو تشكل أشياء متشابهة.
في المستقبل، يخطط الباحثون لتكييف كليو للتعامل مع مهام أعلى مستوى، مثل عمليات البحث والإنقاذ، والعثور على الناجين.