CoreTech

Qwen3.5

علی‌بابا از Qwen3.5 با انتشار نسخه‌ی Qwen3.5 397B A17B رونمایی کرد

ابوالفضل | ۸ ساعت پیش

نسخه رسمی Qwen3.5 با انتشار وزن‌های باز نخستین مدل این خانواده یعنی Qwen3.5 397B A17B معرفی شد. این مدل بومی vision language در ارزیابی‌های استدلال، کدنویسی، قابلیت‌های ایجنت و درک چندوجهی عملکرد برجسته‌ای ثبت کرده. معماری آن ترکیبی از توجه خطی مبتنی بر Gated Delta Networks و sparse mixture of experts است. با وجود ۳۹۷ میلیارد پارامتر، تنها ۱۷ میلیارد در هر گذر فعال می‌شود و پشتیبانی زبانی از ۱۱۹ به ۲۰۱ زبان و گویش رسیده است.

در بخش بنچمارک‌ها، HLE-Verified به‌عنوان نسخه بازبینی‌شده Humanity’s Last Exam با پروتکل تأیید جزءبه‌جزء و طبقه‌بندی ریزدانه خطاها به‌صورت متن‌باز منتشر شده است. در TAU2 Bench تنظیمات رسمی رعایت شده اما در دامنه خطوط هوایی اصلاحات Claude Opus 4.5 اعمال شده‌اند. MCP-Mark از سرور GitHub MCP نسخه v0.30.3 استفاده می‌کند و پاسخ‌های ابزار Playwright در ۳۲ هزار توکن محدود شده‌اند.

ایجنت‌های جست‌وجوی مبتنی بر این مدل عمدتاً از راهبرد context folding با پنجره 256k استفاده می‌کنند؛ با رسیدن طول پاسخ‌های ابزاری به آستانه مشخص، تاریخچه قدیمی حذف می‌شود. در BrowseComp روش ساده امتیاز ۶۹.۰ و راهبرد discard-all مشابه DeepSeek-V3.2 و Kimi K2.5 امتیاز ۷۸.۶ کسب کرده است. WideSearch بدون مدیریت زمینه اجرا شده و MMLU-ProX میانگین دقت ۲۹ زبان را گزارش می‌دهد.

در WMT24++ که نسخه دشوارتر WMT24 پس از برچسب‌گذاری و بازمتعادل‌سازی است، میانگین امتیاز ۵۵ زبان با XCOMET-XXL اعلام شده است. MAXIFE دقت را در ۲۳ تنظیم شامل پرامپت‌های اصلی انگلیسی و چندزبانه ارائه می‌دهد. در MathVision پرامپت ثابت با قالب \boxed{} استفاده شده و برای سایر مدل‌ها بهترین نتیجه با یا بدون این قالب لحاظ شده است؛ خانه‌های خالی نشان‌دهنده نبود داده‌اند.

در ارزیابی‌های BabyVision و V* نتایج با فعال بودن Code Interpreter گزارش شده‌اند که بدون آن به‌ترتیب ۴۳.۳ و ۹۱.۱ ثبت می‌شود. توسعه‌دهندگان اعلام کرده‌اند بهبودهای Qwen3.5 نسبت به سری Qwen3 حاصل مقیاس‌دهی گسترده محیط‌های RL با تمرکز بر افزایش دشواری و تعمیم‌پذیری بوده است. عملکرد کلی با میانگین رتبه در BFCL-V4، VITA-Bench، DeepPlanning، Tool-Decathlon و MCP-Mark محاسبه شده است.

در محور قدرت، مدل با حجم بسیار بیشتری از توکن‌های بینایی متن و داده‌های غنی‌شده چینی، انگلیسی، چندزبانه و STEM تحت فیلترینگ سخت‌گیرانه آموزش دیده و به برابری عملکرد با Qwen3 Max Base بالای یک تریلیون پارامتر رسیده است. در محور کارایی، معماری Qwen3 Next شامل MoE پراکنده‌تر، ترکیب Gated DeltaNet و Gated Attention، بهینه‌سازی‌های پایداری و پیش‌بینی چندتوکنی است که گذردهی ۸.۶/۱۹ برابر Qwen3 Max را در 32k/256k ارائه می‌دهد.

گذردهی دیکودینگ این مدل همچنین ۳.۵ و ۷.۲ برابر Qwen3 235B A22B در همان طول زمینه اعلام شده است. از نظر چندمنظوره‌بودن، ادغام زودهنگام متن و بینایی و گسترش داده‌های بصری، STEM و ویدئویی باعث پیشی‌گرفتن از Qwen3 VL در مقیاس مشابه شده است. واژگان ۲۵۰ هزار توکنی نسبت به ۱۵۰ هزار قبلی، کارایی رمزگذاری و رمزگشایی را بین ۱۰ تا ۶۰ درصد در بیشتر زبان‌ها بهبود داده است.

زیرساخت ناهمگن آموزش با جداسازی موازی‌سازی بخش‌های بینایی و زبان، از ناکارآمدی رویکرد یکنواخت جلوگیری کرده و با فعال‌سازی‌های پراکنده، هم‌پوشانی محاسباتی ایجاد می‌کند که نزدیک به ۱۰۰ درصد گذردهی آموزش روی داده‌های متن، تصویر و ویدئو فراهم می‌سازد. خط لوله بومی FP8 برای فعال‌سازی‌ها، مسیردهی MoE و GEMM استفاده می‌شود و با حفظ BF16 در لایه‌های حساس، حدود ۵۰ درصد کاهش حافظه و بیش از ۱۰ درصد افزایش سرعت ایجاد می‌کند.

چارچوب RL ناهمگام و تفکیک‌شده آموزش استنتاج برای همه اندازه‌های Qwen3.5 طراحی شده و بهره‌وری سخت‌افزاری بالاتر، توازن بار پویا و بازیابی خطای ریزدانه را ممکن می‌کند. تکنیک‌هایی مانند آموزش سرتاسری FP8، rollout router replay، دیکودینگ حدسی و قفل‌گذاری rollout چندنوبتی گذردهی و سازگاری را بهبود می‌دهند. این هم‌طراحی سیستم و الگوریتم، کهنگی گرادیان و ناهمگنی داده را کنترل کرده و افزایش سرعت سرتاسری ۳ تا ۵ برابری را رقم زده است.

Qwen3.5 در Qwen Chat با سه حالت Auto، Thinking و Fast عرضه شده است؛ Auto از تفکر تطبیقی همراه جست‌وجو و Code Interpreter بهره می‌برد، Thinking برای مسائل دشوار عمیق عمل می‌کند و Fast پاسخ فوری بدون صرف توکن تفکر می‌دهد. مدل Qwen3.5 Plus از طریق Alibaba Cloud ModelStudio در دسترس است و با پارامترهای enable thinking و enable search قابلیت استدلال و جست‌وجوی وب فعال می‌شود.

API بایلیان با ابزارهایی مانند Qwen Code، Claude Code، Cline، OpenClaw و OpenCode برای تجربه vibe coding ادغام می‌شود. مدل به‌عنوان ایجنت چندوجهی توانایی تفکر، جست‌وجو، استفاده از ابزار و ساخت خروجی را دارد و در فرانت‌اند وب دستورهای ساده را به کد تبدیل می‌کند. با ورودی یک میلیون توکن، پردازش دو ساعت ویدئو، مدل‌سازی روابط فضایی پیکسلی، شمارش دقیق اشیا و کاهش خطای پرسپکتیو را در کاربردهایی مانند رانندگی خودران و ناوبری رباتیک ممکن می‌سازد.

ابوالفضل | ۸ ساعت پیش

دیدگاهتان را بنویسید