CoreTech

شیائومی با Robotics 0 و ۴.۷ میلیارد پارامتر، معادلات رباتیک جهان را بازنویسی کرد!

ابوالفضل | ۲۰ ساعت پیش

شیائومی که تاکنون بیشتر با گوشی‌های هوشمند، تجهیزات خانه هوشمند و حتی خبرهای مرتبط با خودروهای برقی شناخته می‌شد، اکنون به‌صورت رسمی وارد حوزه پژوهش‌های رباتیک شده؛ این شرکت با معرفی نخستین مدل بزرگ‌مقیاس رباتیک خود تلاش دارد جایگاهی جدی در توسعه هوش فیزیکی به دست آورد و دامنه فعالیتش را فراتر از الکترونیک مصرفی گسترش دهد.

این مدل با نام Xiaomi Robotics 0 معرفی شده و یک سامانه متن‌باز بینایی/زبان/اقدام با ۴.۷ میلیارد پارامتر است. هدف آن ترکیب درک بصری، فهم زبان طبیعی و اجرای بلادرنگ حرکات فیزیکی در یک چارچوب واحد است. شیائومی این سه مؤلفه را هسته هوش فیزیکی می‌داند و اعلام کرده مدلش در آزمایش‌های شبیه‌سازی و محیط واقعی چندین رکورد پیشرفته ثبت کرده است.

در سطح مفهومی، چنین مدل‌هایی یک چرخه بسته شامل ادراک، تصمیم‌گیری و اجرا را حل می‌کنند. ربات باید محیط را ببیند، دستور انسانی را درک کند، برای انجام آن برنامه‌ریزی کند و سپس حرکت را روان اجرا کند. Robotics 0 به‌طور ویژه برای ایجاد تعادل میان درک گسترده محیط و کنترل حرکتی دقیق طراحی شده تا عملکردی هماهنگ ارائه دهد.

ساختار Xiaomi Robotics 0 بر معماری Mixture of Transformers یا MoT استوار است که مسئولیت‌ها را میان دو بخش اصلی تقسیم می‌کند. بخش نخست یک مدل بینایی-زبان یا VLM است که نقش مغز را دارد و برای تفسیر دستورهای حتی مبهم مانند «لطفاً حوله را تا کن» آموزش دیده و روابط فضایی را از تصاویر با وضوح بالا استخراج می‌کند.

VLM وظایفی مانند تشخیص اشیا، پاسخ به پرسش‌های بصری و استدلال منطقی را انجام می‌دهد. بخش دوم با نام Action Expert شناخته می‌شود و بر پایه یک Diffusion Transformer چندلایه ساخته شده؛ این بخش به‌جای تولید یک حرکت منفرد، دنباله‌ای از حرکات موسوم به Action Chunk ایجاد می‌کند و با تکنیک‌های flow matching دقت و نرمی حرکت را حفظ می‌کند.

یکی از چالش‌های رایج مدل‌های VLA کاهش توانایی درک چندوجهی پس از آموزش حرکات فیزیکی است. شیائومی اعلام کرده با آموزش هم‌زمان روی داده‌های چندوجهی و داده‌های عملیاتی از این مشکل جلوگیری کرده و در نتیجه، سیستم می‌تواند هم‌زمان استدلال درباره جهان را حفظ کند و شیوه حرکت مؤثر در محیط را بیاموزد.

فرایند آموزش به‌صورت مرحله‌ای انجام می‌شود، ابتدا سازوکار Action Proposal، مدل VLM را وادار می‌کند هنگام تحلیل تصویر، توزیع احتمالی اقدامات را پیش‌بینی کند تا بازنمایی درونی تصویر با نحوه اجرای عمل هم‌راستا شود. سپس VLM ثابت می‌شود و بخش DiT جداگانه آموزش می‌بیند تا با اتکا به ویژگی‌های کلید-مقدار، توالی دقیق حرکت را از نویز تولید کند.

برای حل مشکل تأخیر استنتاج که می‌تواند باعث مکث‌های ناخواسته یا رفتار ناپایدار شود، شیائومی از استنتاج ناهمگام استفاده کرده. در این روش، محاسبات مدل از عملکرد فیزیکی ربات جدا می‌شود تا حتی اگر پردازش طول بکشد، حرکت‌ها پیوسته باقی بمانند. همچنین تکنیک Clean Action Prefix با بازخوراندن اقدام قبلی، پایداری و نرمی را تضمین می‌کند.

علاوه بر این، یک ماسک توجه Λ شکل تمرکز مدل را به ورودی بصری فعلی معطوف می‌کند تا وابستگی بیش از حد به وضعیت‌های گذشته کاهش یابد و واکنش به تغییرات ناگهانی محیط سریع‌تر شود. در بنچمارک‌های LIBERO، CALVIN و SimplerEnv این مدل حدود ۳۰ سامانه‌های دیگر را پشت سر گذاشته و در آزمایش‌های واقعی با ربات دو بازویی، وظایف بلندمدت مانند تا کردن حوله و جداسازی بلوک‌ها را با هماهنگی پایدار انجام داده است.

ابوالفضل | ۲۰ ساعت پیش

دیدگاهتان را بنویسید