CoreTech

Claude Sonnet 4.6

شرکت Anthropic از مدل تازه خود با نام Claude Sonnet 4.6 رونمایی کرد

ابوالفضل | ۶ ساعت پیش

در Claude Code، آزمایش‌های اولیه نشان داد کاربران حدود ۷۰ درصد مواقع Sonnet 4.6 را به Sonnet 4.5 ترجیح می‌دهند. آن‌ها گزارش دادند مدل پیش از اصلاح کد زمینه را دقیق‌تر می‌خواند، منطق‌های مشترک را ادغام می‌کند و از تکرار جلوگیری می‌کند. همچنین ادعاهای نادرست موفقیت و توهم‌پردازی کاهش یافته و پیگیری وظایف چندمرحله‌ای سازگارتر شده است.

مدل Sonnet 4.6 اکنون مدل پیش‌فرض در claude.ai و Claude Cowork برای کاربران پلن‌های Free و Pro است و قیمت آن مشابه نسخه ۴.۵ باقی مانده؛ یعنی از ۳ دلار برای ورودی و ۱۵ دلار برای خروجی به ازای هر یک میلیون توکن آغاز می‌شود. Anthropic همچنین لایه رایگان را ارتقا داده و ایجاد فایل، کانکتورها، مهارت‌ها و فشرده‌سازی زمینه را به‌طور پیش‌فرض فعال کرده است.

به گفته شرکت، توسعه‌دهندگان دارای دسترسی اولیه با اختلاف گسترده‌ای Sonnet 4.6 را به نسخه قبلی ترجیح داده‌اند و حتی در بسیاری موارد آن را بالاتر از Claude Opus 4.5 ارزیابی کرده‌اند. بهبود در ثبات، پیروی دقیق‌تر از دستورالعمل‌ها و کیفیت خروجی باعث شده عملکردی که پیش‌تر نیازمند مدل‌های کلاس Opus بود، اکنون در دسترس کاربران Sonnet قرار گیرد.

در Claude Code، آزمایش‌های اولیه نشان داد کاربران حدود ۷۰ درصد مواقع Sonnet 4.6 را به Sonnet 4.5 ترجیح می‌دهند. آن‌ها گزارش دادند مدل پیش از اصلاح کد زمینه را دقیق‌تر می‌خواند، منطق‌های مشترک را ادغام می‌کند و از تکرار جلوگیری می‌کند. همچنین ادعاهای نادرست موفقیت و توهم‌پردازی کاهش یافته و پیگیری وظایف چندمرحله‌ای سازگارتر شده است.

در مقایسه مستقیم با Opus 4.5 نیز ۵۹ درصد کاربران Sonnet 4.6 را انتخاب کردند. آن‌ها این مدل را کمتر دچار بیش‌ازحد مهندسی کردن و تنبلی دانستند و در پیروی از دستورالعمل‌ها به‌طور معناداری بهتر ارزیابی کردند. نتیجه این تغییرات، تجربه‌ای کم‌تنش‌تر در جلسات طولانی توسعه و رسیدن سریع‌تر به خروجی‌های قابل‌استفاده در سطح تولید بوده است.

یکی از پیشرفت‌های کلیدی در توانایی استفاده از کامپیوتر دیده می‌شود؛ قابلیتی که نخستین‌بار اکتبر ۲۰۲۴ معرفی شد و آن زمان آزمایشی و خطاپذیر توصیف شده بود. اکنون طبق بنچمارک OSWorld، مدل Claude Sonnet 4.6 در صدها وظیفه داخل نرم‌افزارهای واقعی در محیط شبیه‌سازی‌شده، بدون API اختصاصی، با ماوس و کیبورد مجازی مانند انسان تعامل می‌کند.

این آزمون شامل برنامه‌هایی مانند Google Chrome، LibreOffice و Visual Studio Code است. طی شانزده ماه، مدل‌های Sonnet پیشرفت پیوسته‌ای ثبت کرده‌اند و کاربران اولیه ۴.۶ توانایی در سطح انسانی در مدیریت صفحات گسترده پیچیده، تکمیل فرم‌های چندمرحله‌ای و جمع‌بندی اطلاعات در چند تب مرورگر را گزارش کرده‌اند، هرچند هنوز با ماهرترین انسان‌ها فاصله دارد.

همزمان، شرکت بر ایمنی تأکید کرده و اعلام کرده ارزیابی‌های گسترده نشان می‌دهد Sonnet 4.6 به‌اندازه یا ایمن‌تر از مدل‌های اخیر است. پژوهشگران شخصیت آن را گرم، صادق، جامعه‌یار و گاهی شوخ‌طبع توصیف کرده‌اند و نشانه‌ای از نگرانی جدی درباره ناهماهنگی‌های پرریسک نیافته‌اند. مقاومت در برابر حملات تزریق پرامپت نیز نسبت به نسخه ۴.۵ بهبود یافته است.

در ارزیابی Vending Bench Arena، که مدیریت یک کسب‌وکار شبیه‌سازی‌شده را در رقابت مستقیم میان مدل‌ها می‌سنجد، Sonnet 4.6 استراتژی متفاوتی اتخاذ کرد. این مدل ده ماه نخست را با سرمایه‌گذاری سنگین در ظرفیت گذراند و سپس در مرحله پایانی تمرکز را به سودآوری تغییر داد. زمان‌بندی دقیق این چرخش باعث شد فاصله قابل‌توجهی با رقبا ایجاد کند.

منبع

ابوالفضل | ۶ ساعت پیش

دیدگاهتان را بنویسید