شرکت Anthropic از مدل تازه خود با نام Claude Sonnet 4.6 رونمایی کرد

ابوالفضل | ۶ ساعت پیش

در Claude Code، آزمایش‌های اولیه نشان داد کاربران حدود ۷۰ درصد مواقع Sonnet 4.6 را به Sonnet 4.5 ترجیح می‌دهند. آن‌ها گزارش دادند مدل پیش از اصلاح کد زمینه را دقیق‌تر می‌خواند، منطق‌های مشترک را ادغام می‌کند و از تکرار جلوگیری می‌کند. همچنین ادعاهای نادرست موفقیت و توهم‌پردازی کاهش یافته و پیگیری وظایف چندمرحله‌ای سازگارتر شده است.

مدل Sonnet 4.6 اکنون مدل پیش‌فرض در claude.ai و Claude Cowork برای کاربران پلن‌های Free و Pro است و قیمت آن مشابه نسخه ۴.۵ باقی مانده؛ یعنی از ۳ دلار برای ورودی و ۱۵ دلار برای خروجی به ازای هر یک میلیون توکن آغاز می‌شود. Anthropic همچنین لایه رایگان را ارتقا داده و ایجاد فایل، کانکتورها، مهارت‌ها و فشرده‌سازی زمینه را به‌طور پیش‌فرض فعال کرده است.

به گفته شرکت، توسعه‌دهندگان دارای دسترسی اولیه با اختلاف گسترده‌ای Sonnet 4.6 را به نسخه قبلی ترجیح داده‌اند و حتی در بسیاری موارد آن را بالاتر از Claude Opus 4.5 ارزیابی کرده‌اند. بهبود در ثبات، پیروی دقیق‌تر از دستورالعمل‌ها و کیفیت خروجی باعث شده عملکردی که پیش‌تر نیازمند مدل‌های کلاس Opus بود، اکنون در دسترس کاربران Sonnet قرار گیرد.

در مقایسه مستقیم با Opus 4.5 نیز ۵۹ درصد کاربران Sonnet 4.6 را انتخاب کردند. آن‌ها این مدل را کمتر دچار بیش‌ازحد مهندسی کردن و تنبلی دانستند و در پیروی از دستورالعمل‌ها به‌طور معناداری بهتر ارزیابی کردند. نتیجه این تغییرات، تجربه‌ای کم‌تنش‌تر در جلسات طولانی توسعه و رسیدن سریع‌تر به خروجی‌های قابل‌استفاده در سطح تولید بوده است.

یکی از پیشرفت‌های کلیدی در توانایی استفاده از کامپیوتر دیده می‌شود؛ قابلیتی که نخستین‌بار اکتبر ۲۰۲۴ معرفی شد و آن زمان آزمایشی و خطاپذیر توصیف شده بود. اکنون طبق بنچمارک OSWorld، مدل Claude Sonnet 4.6 در صدها وظیفه داخل نرم‌افزارهای واقعی در محیط شبیه‌سازی‌شده، بدون API اختصاصی، با ماوس و کیبورد مجازی مانند انسان تعامل می‌کند.

این آزمون شامل برنامه‌هایی مانند Google Chrome، LibreOffice و Visual Studio Code است. طی شانزده ماه، مدل‌های Sonnet پیشرفت پیوسته‌ای ثبت کرده‌اند و کاربران اولیه ۴.۶ توانایی در سطح انسانی در مدیریت صفحات گسترده پیچیده، تکمیل فرم‌های چندمرحله‌ای و جمع‌بندی اطلاعات در چند تب مرورگر را گزارش کرده‌اند، هرچند هنوز با ماهرترین انسان‌ها فاصله دارد.

همزمان، شرکت بر ایمنی تأکید کرده و اعلام کرده ارزیابی‌های گسترده نشان می‌دهد Sonnet 4.6 به‌اندازه یا ایمن‌تر از مدل‌های اخیر است. پژوهشگران شخصیت آن را گرم، صادق، جامعه‌یار و گاهی شوخ‌طبع توصیف کرده‌اند و نشانه‌ای از نگرانی جدی درباره ناهماهنگی‌های پرریسک نیافته‌اند. مقاومت در برابر حملات تزریق پرامپت نیز نسبت به نسخه ۴.۵ بهبود یافته است.

در ارزیابی Vending Bench Arena، که مدیریت یک کسب‌وکار شبیه‌سازی‌شده را در رقابت مستقیم میان مدل‌ها می‌سنجد، Sonnet 4.6 استراتژی متفاوتی اتخاذ کرد. این مدل ده ماه نخست را با سرمایه‌گذاری سنگین در ظرفیت گذراند و سپس در مرحله پایانی تمرکز را به سودآوری تغییر داد. زمان‌بندی دقیق این چرخش باعث شد فاصله قابل‌توجهی با رقبا ایجاد کند.

منبع

ابوالفضل | ۶ ساعت پیش

پیشنهاد سردبیر

اپل برای ۴ مارس ۲۰۲۶ رویدادی جهانی برگزار می‌کند؛ از مک‌بوک اقتصادی تا آیفون 17e

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

شرکت Anthropic از مدل تازه خود با نام Claude Sonnet 4.6 رونمایی کرد

پیشنهاد سردبیر

اپل برای ۴ مارس ۲۰۲۶ رویدادی جهانی برگزار می‌کند؛ از مک‌بوک اقتصادی تا آیفون 17e

شاهکار مهندسی مکانیک در کابین بوگاتی توربیون؛ بازتعریف نمایشگر خودروهای هایپرکار

زایس از سری جدید لنزهای سینمایی Aatma رونمایی کرد، مجموعه‌ی ۹ تایی لنزهای T1.5

اولین تست‌های واقعی اسنپدراگون X2 Elite پیش‌از عرضه‌ی رسمی و بهینه‌سازی کامل منتشر شد

دیدگاهتان را بنویسید لغو پاسخ

حذف برخی قابلیت‌های RDNA 5 از پلی‌استیشن ۶، سونی از معماری گرافیکی دستکاری شده استفاده می‌کند

رکورد جدید صنعت ارتباطات فضایی چین، انتقال اطلاعات با سرعت ۱۲۰ گیگابیت‌برثانیه با لیزر

تصاویر کامل از زوایای مختلف سری گلکسی S26 با نمایش رنگ‌بندی و طراحی منتشر شد

زایس از سری جدید لنزهای سینمایی Aatma رونمایی کرد، مجموعه‌ی ۹ تایی لنزهای T1.5

گلکسی A57 مراحل نهایی تاییدیه‌ها را پشت سر گذاشت؛ رونمایی جهانی احتمالا در روزهای آینده

اولین تست‌های واقعی اسنپدراگون X2 Elite پیش‌از عرضه‌ی رسمی و بهینه‌سازی کامل منتشر شد

مهندسان MIT با ساختارهای جدید سیلیکونی، گرمای هدررفته را به توان محاسباتی تبدیل کردند

ضربان قلب به‌جای باتری؛ معرفی ضربان‌ساز خودتأمین جدید که می‌تواند عمر ایمپلنت‌های قلبی را متحول کند

کانن از نسخه‌ی ویژه‌ی PowerShot G7 X Mark III با مشخصاتی مضحک رونمایی کرد

لیست ۱۰ دستگاه اندرویدی برتر ژانویه ۲۰۲۶ از دید آنتوتو با پیشتازی کوالکام منتشر شد

درباره ما: