انتشار مدل DeepSeek V3.1؛ مدل جدید چه چیزی برای ارائه دارد؟

شرکت چینی دیپ‌سیک از مدل زبانی جدید خود به نام DeepSeek V3.1 رونمایی کرد؛ مدلی که اکنون با ۶۸۵ میلیارد پارامتر و پنجره‌ی متنی ۱۲۸ هزار توکنی عرضه می‌شود. این به‌روزرسانی در تاریخ ۱۹ اوت (۲۷ مرداد) به‌صورت بی‌سر و صدا از طریق گروه کاربری وی‌چت شرکت اعلام شد و هیچ خبری در شبکه‌های اجتماعی رسمی آن منتشر نشد.

مهم‌ترین تغییر در DeepSeek V3.1 افزایش طول کانتکست است؛ حالا این مدل می‌تواند ورودی‌هایی در حد یک کتاب ۳۰۰ تا ۴۰۰ صفحه‌ای را پردازش کند. این ارتقا باعث بهبود عملکرد در تولید محتوای بلند، تحلیل اسناد فنی و مکالمات چندمرحله‌ای طولانی شده. طبق اعلام رسمی، پشتیبانی از این طول کانتکست پیش‌تر به‌صورت داخلی در نسخه ۳ فعال بوده، اما اکنون برای همه رابط‌ها به‌طور کامل فعال شده است.

مدل جدید همچنان بر پایه معماری Mixture-of-Experts (MoE) کار می‌کند و در هر توکن تنها ۳۷ میلیارد پارامتر فعال می‌شود. DeepSeek V3.1 از چندین قالب دقت (BF16، FP8 و F32) پشتیبانی می‌کند تا امکان استقرار در محیط‌های متنوع را فراهم کند. این مدل از طریق API در دسترس است و همچنین با لایسنس متن‌باز MIT در Hugging Face منتشر شده است.

در تست کدنویسی Aider مدل جدید امتیاز ۷۱.۶٪ کسب کرد و بالاتر از Claude Opus 4 قرار گرفت، تا یکی از قدرتمندترین مدل‌های متن‌باز برای برنامه‌نویسی لقب بگیرد. در ریاضی و منطق نیز پیشرفت محسوسی دیده می‌شود. با این حال، برخی کاربران اشاره کردند که در حوزه استدلال، بهبودی نسبت به مدل R1-0528 دیده نمی‌شود.

این شرکت تمام نشانه‌های مربوط به مدل R1 را از رابط چت خود حذف کرده است؛ حرکتی که نشان‌دهنده گذار به یک معماری یکپارچه است. به نظر می‌رسد قابلیت‌های استدلالی اکنون به‌طور کامل در V3.1 ادغام شده و دیگر مدل جداگانه‌ای برای آن وجود ندارد.

هزینه‌ی آموزش V3.1 اعلام نشده، اما نسخه‌ی پیشین (V3) با ۲.۷۸۸ میلیون ساعت GPU روی تراشه‌های Nvidia H800 آموزش دیده بود که هزینه‌ای حدود ۵.۶ میلیون دلار داشت. به‌نظر می‌رسد V3.1 نیز بر همان زیرساخت بنا شده، با اصلاحات و بهینه‌سازی‌های بیشتر.

انتظار می‌رفت نسخه بعدی DeepSeek، مدل R2 باشد که بر توانایی‌های استدلال تمرکز داشت؛ اما به‌جای آن، V3.1 عرضه شد. طبق گزارش فایننشال تایمز، توسعه‌ی R2 به دلیل مشکلات فنی در استفاده از تراشه‌های هوش مصنوعی Ascend هواوی به تأخیر افتاده است.

دولت چین شرکت را به استفاده از سخت‌افزار Ascend برای کاهش وابستگی به انویدیا تشویق کرده بود. اما با وجود کمک مهندسان هواوی، آموزش روی این تراشه‌ها به دلیل ناسازگاری و ضعف عملکرد شکست خورد. در نتیجه DeepSeek مجبور شد آموزش را روی GPUهای انویدیا ادامه دهد و از Ascend فقط برای استنتاج استفاده کند؛ رویکردی که باعث پیچیدگی‌های بیشتر و کندی توسعه شد. همچنین زمان طولانی صرف برچسب‌گذاری داده‌ها نیز روند کار را عقب انداخت. گفته می‌شود لیانگ ون‌فِنگ، بنیان‌گذار DeepSeek، از این پیشرفت کند ابراز ناامیدی کرده است.

در همین زمان، رقبایی مثل Alibaba Qwen3 توانستند با اجرای الگوریتم‌های مشابه، سریع‌تر پیشروی کنند. این ماجرا بار دیگر محدودیت‌های زیرساخت تراشه‌های بومی چین و چالش استارتاپ‌ها در توازن میان نیازهای سیاسی و فنی را نمایان کرد.

دیپ‌سیک احتمال عرضه R2 را رد نکرده است، اما هر زمان که منتشر شود، زیر ذره‌بین دقیق قرار خواهد گرفت. تا آن زمان، V3.1 پرچمدار فعلی شرکت است؛ مدلی که هم وظایف استدلالی و هم غیراستدلالی را در یک چارچوب واحد پوشش می‌دهد.

ابوالفضل

دیدگاهتان را بنویسید