
شرکت Anthropic از مدل تازه خود با نام Claude Sonnet 4.6 رونمایی کرد
در Claude Code، آزمایشهای اولیه نشان داد کاربران حدود ۷۰ درصد مواقع Sonnet 4.6 را به Sonnet 4.5 ترجیح میدهند. آنها گزارش دادند مدل پیش از اصلاح کد زمینه را دقیقتر میخواند، منطقهای مشترک را ادغام میکند و از تکرار جلوگیری میکند. همچنین ادعاهای نادرست موفقیت و توهمپردازی کاهش یافته و پیگیری وظایف چندمرحلهای سازگارتر شده است.
مدل Sonnet 4.6 اکنون مدل پیشفرض در claude.ai و Claude Cowork برای کاربران پلنهای Free و Pro است و قیمت آن مشابه نسخه ۴.۵ باقی مانده؛ یعنی از ۳ دلار برای ورودی و ۱۵ دلار برای خروجی به ازای هر یک میلیون توکن آغاز میشود. Anthropic همچنین لایه رایگان را ارتقا داده و ایجاد فایل، کانکتورها، مهارتها و فشردهسازی زمینه را بهطور پیشفرض فعال کرده است.

به گفته شرکت، توسعهدهندگان دارای دسترسی اولیه با اختلاف گستردهای Sonnet 4.6 را به نسخه قبلی ترجیح دادهاند و حتی در بسیاری موارد آن را بالاتر از Claude Opus 4.5 ارزیابی کردهاند. بهبود در ثبات، پیروی دقیقتر از دستورالعملها و کیفیت خروجی باعث شده عملکردی که پیشتر نیازمند مدلهای کلاس Opus بود، اکنون در دسترس کاربران Sonnet قرار گیرد.
در Claude Code، آزمایشهای اولیه نشان داد کاربران حدود ۷۰ درصد مواقع Sonnet 4.6 را به Sonnet 4.5 ترجیح میدهند. آنها گزارش دادند مدل پیش از اصلاح کد زمینه را دقیقتر میخواند، منطقهای مشترک را ادغام میکند و از تکرار جلوگیری میکند. همچنین ادعاهای نادرست موفقیت و توهمپردازی کاهش یافته و پیگیری وظایف چندمرحلهای سازگارتر شده است.

در مقایسه مستقیم با Opus 4.5 نیز ۵۹ درصد کاربران Sonnet 4.6 را انتخاب کردند. آنها این مدل را کمتر دچار بیشازحد مهندسی کردن و تنبلی دانستند و در پیروی از دستورالعملها بهطور معناداری بهتر ارزیابی کردند. نتیجه این تغییرات، تجربهای کمتنشتر در جلسات طولانی توسعه و رسیدن سریعتر به خروجیهای قابلاستفاده در سطح تولید بوده است.
یکی از پیشرفتهای کلیدی در توانایی استفاده از کامپیوتر دیده میشود؛ قابلیتی که نخستینبار اکتبر ۲۰۲۴ معرفی شد و آن زمان آزمایشی و خطاپذیر توصیف شده بود. اکنون طبق بنچمارک OSWorld، مدل Claude Sonnet 4.6 در صدها وظیفه داخل نرمافزارهای واقعی در محیط شبیهسازیشده، بدون API اختصاصی، با ماوس و کیبورد مجازی مانند انسان تعامل میکند.

این آزمون شامل برنامههایی مانند Google Chrome، LibreOffice و Visual Studio Code است. طی شانزده ماه، مدلهای Sonnet پیشرفت پیوستهای ثبت کردهاند و کاربران اولیه ۴.۶ توانایی در سطح انسانی در مدیریت صفحات گسترده پیچیده، تکمیل فرمهای چندمرحلهای و جمعبندی اطلاعات در چند تب مرورگر را گزارش کردهاند، هرچند هنوز با ماهرترین انسانها فاصله دارد.
همزمان، شرکت بر ایمنی تأکید کرده و اعلام کرده ارزیابیهای گسترده نشان میدهد Sonnet 4.6 بهاندازه یا ایمنتر از مدلهای اخیر است. پژوهشگران شخصیت آن را گرم، صادق، جامعهیار و گاهی شوخطبع توصیف کردهاند و نشانهای از نگرانی جدی درباره ناهماهنگیهای پرریسک نیافتهاند. مقاومت در برابر حملات تزریق پرامپت نیز نسبت به نسخه ۴.۵ بهبود یافته است.
در ارزیابی Vending Bench Arena، که مدیریت یک کسبوکار شبیهسازیشده را در رقابت مستقیم میان مدلها میسنجد، Sonnet 4.6 استراتژی متفاوتی اتخاذ کرد. این مدل ده ماه نخست را با سرمایهگذاری سنگین در ظرفیت گذراند و سپس در مرحله پایانی تمرکز را به سودآوری تغییر داد. زمانبندی دقیق این چرخش باعث شد فاصله قابلتوجهی با رقبا ایجاد کند.




