انتشار مدل DeepSeek V3.1؛ مدل جدید چه چیزی برای ارائه دارد؟

شرکت چینی دیپسیک از مدل زبانی جدید خود به نام DeepSeek V3.1 رونمایی کرد؛ مدلی که اکنون با ۶۸۵ میلیارد پارامتر و پنجرهی متنی ۱۲۸ هزار توکنی عرضه میشود. این بهروزرسانی در تاریخ ۱۹ اوت (۲۷ مرداد) بهصورت بیسر و صدا از طریق گروه کاربری ویچت شرکت اعلام شد و هیچ خبری در شبکههای اجتماعی رسمی آن منتشر نشد.
مهمترین تغییر در DeepSeek V3.1 افزایش طول کانتکست است؛ حالا این مدل میتواند ورودیهایی در حد یک کتاب ۳۰۰ تا ۴۰۰ صفحهای را پردازش کند. این ارتقا باعث بهبود عملکرد در تولید محتوای بلند، تحلیل اسناد فنی و مکالمات چندمرحلهای طولانی شده. طبق اعلام رسمی، پشتیبانی از این طول کانتکست پیشتر بهصورت داخلی در نسخه ۳ فعال بوده، اما اکنون برای همه رابطها بهطور کامل فعال شده است.
مدل جدید همچنان بر پایه معماری Mixture-of-Experts (MoE) کار میکند و در هر توکن تنها ۳۷ میلیارد پارامتر فعال میشود. DeepSeek V3.1 از چندین قالب دقت (BF16، FP8 و F32) پشتیبانی میکند تا امکان استقرار در محیطهای متنوع را فراهم کند. این مدل از طریق API در دسترس است و همچنین با لایسنس متنباز MIT در Hugging Face منتشر شده است.
در تست کدنویسی Aider مدل جدید امتیاز ۷۱.۶٪ کسب کرد و بالاتر از Claude Opus 4 قرار گرفت، تا یکی از قدرتمندترین مدلهای متنباز برای برنامهنویسی لقب بگیرد. در ریاضی و منطق نیز پیشرفت محسوسی دیده میشود. با این حال، برخی کاربران اشاره کردند که در حوزه استدلال، بهبودی نسبت به مدل R1-0528 دیده نمیشود.
این شرکت تمام نشانههای مربوط به مدل R1 را از رابط چت خود حذف کرده است؛ حرکتی که نشاندهنده گذار به یک معماری یکپارچه است. به نظر میرسد قابلیتهای استدلالی اکنون بهطور کامل در V3.1 ادغام شده و دیگر مدل جداگانهای برای آن وجود ندارد.
هزینهی آموزش V3.1 اعلام نشده، اما نسخهی پیشین (V3) با ۲.۷۸۸ میلیون ساعت GPU روی تراشههای Nvidia H800 آموزش دیده بود که هزینهای حدود ۵.۶ میلیون دلار داشت. بهنظر میرسد V3.1 نیز بر همان زیرساخت بنا شده، با اصلاحات و بهینهسازیهای بیشتر.
انتظار میرفت نسخه بعدی DeepSeek، مدل R2 باشد که بر تواناییهای استدلال تمرکز داشت؛ اما بهجای آن، V3.1 عرضه شد. طبق گزارش فایننشال تایمز، توسعهی R2 به دلیل مشکلات فنی در استفاده از تراشههای هوش مصنوعی Ascend هواوی به تأخیر افتاده است.
دولت چین شرکت را به استفاده از سختافزار Ascend برای کاهش وابستگی به انویدیا تشویق کرده بود. اما با وجود کمک مهندسان هواوی، آموزش روی این تراشهها به دلیل ناسازگاری و ضعف عملکرد شکست خورد. در نتیجه DeepSeek مجبور شد آموزش را روی GPUهای انویدیا ادامه دهد و از Ascend فقط برای استنتاج استفاده کند؛ رویکردی که باعث پیچیدگیهای بیشتر و کندی توسعه شد. همچنین زمان طولانی صرف برچسبگذاری دادهها نیز روند کار را عقب انداخت. گفته میشود لیانگ ونفِنگ، بنیانگذار DeepSeek، از این پیشرفت کند ابراز ناامیدی کرده است.
در همین زمان، رقبایی مثل Alibaba Qwen3 توانستند با اجرای الگوریتمهای مشابه، سریعتر پیشروی کنند. این ماجرا بار دیگر محدودیتهای زیرساخت تراشههای بومی چین و چالش استارتاپها در توازن میان نیازهای سیاسی و فنی را نمایان کرد.
دیپسیک احتمال عرضه R2 را رد نکرده است، اما هر زمان که منتشر شود، زیر ذرهبین دقیق قرار خواهد گرفت. تا آن زمان، V3.1 پرچمدار فعلی شرکت است؛ مدلی که هم وظایف استدلالی و هم غیراستدلالی را در یک چارچوب واحد پوشش میدهد.