
شیائومی با Robotics 0 و ۴.۷ میلیارد پارامتر، معادلات رباتیک جهان را بازنویسی کرد!
شیائومی که تاکنون بیشتر با گوشیهای هوشمند، تجهیزات خانه هوشمند و حتی خبرهای مرتبط با خودروهای برقی شناخته میشد، اکنون بهصورت رسمی وارد حوزه پژوهشهای رباتیک شده؛ این شرکت با معرفی نخستین مدل بزرگمقیاس رباتیک خود تلاش دارد جایگاهی جدی در توسعه هوش فیزیکی به دست آورد و دامنه فعالیتش را فراتر از الکترونیک مصرفی گسترش دهد.
این مدل با نام Xiaomi Robotics 0 معرفی شده و یک سامانه متنباز بینایی/زبان/اقدام با ۴.۷ میلیارد پارامتر است. هدف آن ترکیب درک بصری، فهم زبان طبیعی و اجرای بلادرنگ حرکات فیزیکی در یک چارچوب واحد است. شیائومی این سه مؤلفه را هسته هوش فیزیکی میداند و اعلام کرده مدلش در آزمایشهای شبیهسازی و محیط واقعی چندین رکورد پیشرفته ثبت کرده است.
در سطح مفهومی، چنین مدلهایی یک چرخه بسته شامل ادراک، تصمیمگیری و اجرا را حل میکنند. ربات باید محیط را ببیند، دستور انسانی را درک کند، برای انجام آن برنامهریزی کند و سپس حرکت را روان اجرا کند. Robotics 0 بهطور ویژه برای ایجاد تعادل میان درک گسترده محیط و کنترل حرکتی دقیق طراحی شده تا عملکردی هماهنگ ارائه دهد.
ساختار Xiaomi Robotics 0 بر معماری Mixture of Transformers یا MoT استوار است که مسئولیتها را میان دو بخش اصلی تقسیم میکند. بخش نخست یک مدل بینایی-زبان یا VLM است که نقش مغز را دارد و برای تفسیر دستورهای حتی مبهم مانند «لطفاً حوله را تا کن» آموزش دیده و روابط فضایی را از تصاویر با وضوح بالا استخراج میکند.

VLM وظایفی مانند تشخیص اشیا، پاسخ به پرسشهای بصری و استدلال منطقی را انجام میدهد. بخش دوم با نام Action Expert شناخته میشود و بر پایه یک Diffusion Transformer چندلایه ساخته شده؛ این بخش بهجای تولید یک حرکت منفرد، دنبالهای از حرکات موسوم به Action Chunk ایجاد میکند و با تکنیکهای flow matching دقت و نرمی حرکت را حفظ میکند.
یکی از چالشهای رایج مدلهای VLA کاهش توانایی درک چندوجهی پس از آموزش حرکات فیزیکی است. شیائومی اعلام کرده با آموزش همزمان روی دادههای چندوجهی و دادههای عملیاتی از این مشکل جلوگیری کرده و در نتیجه، سیستم میتواند همزمان استدلال درباره جهان را حفظ کند و شیوه حرکت مؤثر در محیط را بیاموزد.
فرایند آموزش بهصورت مرحلهای انجام میشود، ابتدا سازوکار Action Proposal، مدل VLM را وادار میکند هنگام تحلیل تصویر، توزیع احتمالی اقدامات را پیشبینی کند تا بازنمایی درونی تصویر با نحوه اجرای عمل همراستا شود. سپس VLM ثابت میشود و بخش DiT جداگانه آموزش میبیند تا با اتکا به ویژگیهای کلید-مقدار، توالی دقیق حرکت را از نویز تولید کند.
برای حل مشکل تأخیر استنتاج که میتواند باعث مکثهای ناخواسته یا رفتار ناپایدار شود، شیائومی از استنتاج ناهمگام استفاده کرده. در این روش، محاسبات مدل از عملکرد فیزیکی ربات جدا میشود تا حتی اگر پردازش طول بکشد، حرکتها پیوسته باقی بمانند. همچنین تکنیک Clean Action Prefix با بازخوراندن اقدام قبلی، پایداری و نرمی را تضمین میکند.
علاوه بر این، یک ماسک توجه Λ شکل تمرکز مدل را به ورودی بصری فعلی معطوف میکند تا وابستگی بیش از حد به وضعیتهای گذشته کاهش یابد و واکنش به تغییرات ناگهانی محیط سریعتر شود. در بنچمارکهای LIBERO، CALVIN و SimplerEnv این مدل حدود ۳۰ سامانههای دیگر را پشت سر گذاشته و در آزمایشهای واقعی با ربات دو بازویی، وظایف بلندمدت مانند تا کردن حوله و جداسازی بلوکها را با هماهنگی پایدار انجام داده است.




