
انتروپیک از Claude Sonnet 5 رونمایی کرد؛ جهش در ایجنتها، قیمتگذاری و ایمنی مدلها
انتروپیک مدل Claude Sonnet 5 را معرفی کرد؛ جدیدترین نسخه خانواده Sonnet که بهعنوان پیشرفتهترین مدل ایجنتیک این سری شناخته میشود. این مدل توانایی برنامهریزی، استفاده از ابزارهایی مانند مرورگر و ترمینال و اجرای مستقل وظایف پیچیده را دارد. Sonnet 5 نسبت به نسخه ۴.۶ جهش قابلتوجهی در استدلال، کدنویسی و کارهای دانشی نشان میدهد و در بسیاری از سناریوها به عملکرد Opus 4.8 نزدیک شده.

به گفته انتروپیک، Sonnet 5 نقش مهمی در کاهش فاصله میان مدلهای Sonnet و سری قدرتمند Opus دارد و در برخی تنظیمات هزینه عملکرد حتی به سطح Opus 4.8 نزدیک میشود. این مدل روی طیف گستردهای از وظایف ایجنتیک آزمایش شده و در بنچمارکهایی مانند BrowseComp و OSWorld Verified عملکرد بهتری نسبت به نسخه قبلی خود دارد. همچنین در سطح effort مختلف امکان تنظیم توازن بین هزینه و کارایی را فراهم میکند.
در بخش ایمنی، گزارشها نشان میدهد Sonnet 5 نسبت به نسل قبلی رفتارهای نامطلوب کمتری دارد و در ارزیابیهای رفتاری، نرخ هالوسینیشن و sycophancy کاهش یافته. این مدل در برابر حملات پرامپت و درخواستهای مخرب مقاومت بیشتری نشان میدهد؛ با این حال، در برخی تستهای رفتاری نسبت به Opus 4.8 هنوز سطح پایینتری از رفتارهای ناسازگار دیده شده. همچنین در مقایسه با Opus، توانایی کمتری در وظایف سایبری دارد.

انتروپیک تأکید کرده Sonnet 5 عمداً برای آموزش یا تقویت قابلیتهای سایبری حساس طراحی نشده. در تستهای مرتبط با توسعه اکسپلویتهای نرمافزاری، این مدل هرگز موفق به تولید یک اکسپلویت کامل نشده، هرچند در برخی موارد موفقیت جزئی بیشتری نسبت به Sonnet 4.6 داشته. برای کاهش ریسک، سیستمهای محافظتی سایبری بهصورت پیشفرض فعال شدهاند؛ همان سازوکارهایی که در Opus 4.7 و 4.8 نیز استفاده میشوند.
از نظر دسترسی، Sonnet 5 از امروز در همه پلنها فعال شده و در نسخههای رایگان و پرو بهعنوان مدل پیشفرض ارائه میشود. این مدل در کلاد کد، API و پلتفرم کلاد نیز در دسترس است و روی AWS، Microsoft Foundry و بهزودی Google Vertex عرضه خواهد شد. همچنین برنامه Cyber Verification Program از آن پشتیبانی میکند و نرخ محدودیت استفاده در پلتفرمها برای مدیریت بار مصرف افزایش یافته.
در بخش قیمتگذاری، انتروپیک نرخ اولیه ۲ دلار بهازای هر یک میلیون توکن ورودی و ۱۰ دلار برای خروجی را تا ۳۱ آگوست ۲۰۲۶ اعلام کرده. پس از آن، قیمت استاندارد به ۳ دلار ورودی و ۱۵ دلار خروجی میرسد. همچنین تغییر در توکنایزر باعث افزایش ۱ تا ۱.۳۵ برابری تعداد توکنهای مصرفی نسبت به متن مشابه شده که هدف آن بهبود عملکرد مدل در پردازش زبان عنوان شده.


در گزارش فنی، نتایج بنچمارکها نیز منتشر شده. Sonnet 5 در Humanity’s Last Exam به ۳۴.۶ درصد بدون ابزار و ۴۶.۸ درصد با ابزار رسیده. در OSWorld Verified نیز امتیاز ۷۸.۵ درصد ثبت شده. همچنین روش ارزیابی BrowseComp بهروزرسانی شده و با بودجه ۱۰ میلیون توکن و ابزاردهی برنامهمحور اجرا شده تا تصویر دقیقتری از عملکرد ایجنتیک مدل ارائه دهد.




