CoreTech

VibeThinker-3B

شرکت Sina از مدل متن‌باز VibeThinker-3B با عملکردی هم سطح مدل‌های چند صد برابر بزرگ‌تر رونمایی کرد

ابوالفضل | ۶ ساعت پیش

شرکت Sina از مدل زبانی متن‌باز VibeThinker-3B رونمایی کرده؛ مدلی با تنها ۳ میلیارد پارامتر که طبق گزارش فنی منتشر شده، در آزمون‌های دشوار ریاضی و برنامه‌نویسی عملکردی هم‌سطح برخی از بزرگ‌ترین مدل‌های هوش مصنوعی جهان ارائه می‌دهد. این مدل در بنچمارک‌هایی مانند AIME26 به نتایجی نزدیک DeepSeek V3.2 و Kimi K2.5 رسیده، در حالی که این رقبا بین ۲۰۰ تا ۳۳۳ برابر پارامتر بیشتری دارند.

سینا هدف از توسعه VibeThinker-3B را بررسی این موضوع عنوان کرده که یک مدل زبانی برای رقابت در بالاترین سطح واقعاً به چه میزان توان محاسباتی نیاز دارد. نسخه قبلی این پروژه با نام VibeThinker-1.5B در نوامبر ۲۰۲۵ معرفی شده بود و نسخه جدید تلاش می‌کند نشان دهد یک مدل کوچک می‌تواند به عملکردی در سطح بهترین مدل‌های بازار برسد، نه اینکه فقط نسبت به اندازه خود موفق ارزیابی شود.

بر اساس نتایج منتشرشده، VibeThinker-3B در شش بنچمارک ریاضی و برنامه‌نویسی در محدوده عملکرد پنج مدل مطرح کنونی شامل جمنای ۳ پرو، GLM-5 و Claude Opus 4.5 قرار گرفته است. در وظایفی که پاسخ آن‌ها ساختار مشخص و امکان راستی‌آزمایی دارند، مانند المپیادهای ریاضی یا چالش‌های برنامه‌نویسی، این مدل توانسته با سامانه‌های بسیار بزرگ‌تر رقابت کند و نتایج قابل توجهی به ثبت برساند.

یکی از بهترین نتایج این مدل در LiveCodeBench ثبت شده؛ جایی که VibeThinker-3B توانسته از تمام مدل‌های دارای کمتر از ۲۰ میلیارد پارامتر پیشی بگیرد. با این حال نتایج نشان می‌دهد این موفقیت به همه حوزه‌ها تعمیم پیدا نمی‌کند. در بنچمارک دانش‌محور GPQA-Diamond که به اطلاعات گسترده در موضوعات مختلف وابسته است، مدل فاصله محسوسی با رقبای بسیار بزرگ‌تر خود دارد.

برای بررسی احتمال آلودگی داده‌های آموزشی، پژوهشگران عملکرد مدل را در مسابقات LeetCode برگزارشده بین اواخر آوریل تا اواخر مه ۲۰۲۶ ارزیابی کردند؛ رقابت‌هایی که پس از پایان آموزش مدل برگزار شده بودند. VibeThinker-3B در نخستین تلاش خود موفق به حل ۱۲۳ مسئله از مجموع ۱۲۸ مسئله شد و عملکردی فراتر از GPT-5.2، Qwen3-Max، Kimi K2.5 و Claude Opus 4.6 ثبت کرد.

در این ارزیابی تنها GPT-5.3-Codex، Gemini 3.1 Pro و Gemini 3 Flash عملکردی اندکی بهتر از VibeThinker-3B داشتند. پژوهشگران این نتایج را نشانه‌ای می‌دانند که موفقیت مدل صرفاً حاصل حفظ کردن داده‌های آموزشی نیست. به اعتقاد آن‌ها عملکرد این مدل در آزمون‌هایی که پس از پایان فرایند آموزش برگزار شده‌اند، اعتبار نتایج به‌دست‌آمده را تا حد زیادی تقویت می‌کند.

VibeThinker-3B بر پایه مدل Qwen2.5-Coder-3B شرکت Alibaba توسعه یافته، اما سینا تأکید می‌کند مهم‌ترین عامل پیشرفت آن مرحله Post-training بوده است. این فرایند با تنظیم دقیق نظارت‌شده آغاز می‌شود و آموزش مدل را در حوزه‌هایی مانند ریاضیات، برنامه‌نویسی و گفت‌وگوی عمومی پوشش می‌دهد. سپس مدل برای حل مسائل دشوار و استدلال‌های چندمرحله‌ای به‌صورت اختصاصی بهینه‌سازی می‌شود.

پس از آن یادگیری تقویتی به‌صورت مرحله‌ای برای ریاضیات، برنامه‌نویسی و علوم پایه یا STEM اجرا می‌شود. در ادامه فرایند Self distillation مهارت‌های به‌دست‌آمده در مراحل مختلف را در یک مدل واحد ادغام می‌کند و در پایان نیز مرحله‌ای برای بهبود میزان پایبندی مدل به دستورهای کاربر انجام می‌شود. پژوهشگران معتقدند کیفیت آموزش، داده‌ها و سیگنال‌های ارزیابی از تعداد پارامترها مهم‌تر هستند.

تیم توسعه‌دهنده بر اساس این نتایج فرضیه‌ای با عنوان «Parametric Compression Coverage Hypothesis» ارائه کرده و طبق این دیدگاه، استدلال منطقی بر مجموعه‌ای محدود از الگوهای تکرارشونده مانند جست‌وجو، بررسی شرایط، اصلاح خطا و ترکیب نتایج متکی است؛ بنابراین می‌توان آن را در مدل‌های کوچک فشرده کرد. در مقابل پاسخ‌گویی به پرسش‌های دانشی به پوشش گسترده اطلاعات نیاز دارد و همچنان به تعداد زیاد پارامترها وابسته است.

پژوهشگران می‌گویند این یافته‌ها نقش مدل‌های کوچک را بازتعریف می‌کند و نشان می‌دهد آن‌ها دیگر تنها گزینه‌ای ارزان برای کاهش هزینه استنتاج نیستند، بلکه به مسیری مستقل در پژوهش‌های هوش مصنوعی تبدیل شده‌اند. VibeThinker-3B اکنون به‌صورت متن‌باز در Hugging Face و GitHub منتشر شده است. آن‌ها همچنین به موفقیت Qwen3.6-27B و Falcon H1R 7B اشاره می‌کنند و معتقدند نتایج جدید، فرضیه‌های پیشین درباره ناتوانی مدل‌های کوچک در استدلال چندمرحله‌ای را به چالش می‌کشد.

منبع

ابوالفضل | ۶ ساعت پیش

دیدگاهتان را بنویسید