CoreTech

انتروپیک از Claude Sonnet 5 رونمایی کرد؛ جهش در ایجنت‌ها، قیمت‌گذاری و ایمنی مدل‌ها

پوریا | ۲ ساعت پیش

انتروپیک مدل Claude Sonnet 5 را معرفی کرد؛ جدیدترین نسخه خانواده Sonnet که به‌عنوان پیشرفته‌ترین مدل ایجنتیک این سری شناخته می‌شود. این مدل توانایی برنامه‌ریزی، استفاده از ابزارهایی مانند مرورگر و ترمینال و اجرای مستقل وظایف پیچیده را دارد. Sonnet 5 نسبت به نسخه ۴.۶ جهش قابل‌توجهی در استدلال، کدنویسی و کارهای دانشی نشان می‌دهد و در بسیاری از سناریوها به عملکرد Opus 4.8 نزدیک شده.

به گفته انتروپیک، Sonnet 5 نقش مهمی در کاهش فاصله میان مدل‌های Sonnet و سری قدرتمند Opus دارد و در برخی تنظیمات هزینه عملکرد حتی به سطح Opus 4.8 نزدیک می‌شود. این مدل روی طیف گسترده‌ای از وظایف ایجنتیک آزمایش شده و در بنچمارک‌هایی مانند BrowseComp و OSWorld Verified عملکرد بهتری نسبت به نسخه قبلی خود دارد. همچنین در سطح effort مختلف امکان تنظیم توازن بین هزینه و کارایی را فراهم می‌کند.

در بخش ایمنی، گزارش‌ها نشان می‌دهد Sonnet 5 نسبت به نسل قبلی رفتارهای نامطلوب کمتری دارد و در ارزیابی‌های رفتاری، نرخ هالوسینیشن و sycophancy کاهش یافته. این مدل در برابر حملات پرامپت و درخواست‌های مخرب مقاومت بیشتری نشان می‌دهد؛ با این حال، در برخی تست‌های رفتاری نسبت به Opus 4.8 هنوز سطح پایین‌تری از رفتارهای ناسازگار دیده شده. همچنین در مقایسه با Opus، توانایی کمتری در وظایف سایبری دارد.

انتروپیک تأکید کرده Sonnet 5 عمداً برای آموزش یا تقویت قابلیت‌های سایبری حساس طراحی نشده. در تست‌های مرتبط با توسعه اکسپلویت‌های نرم‌افزاری، این مدل هرگز موفق به تولید یک اکسپلویت کامل نشده، هرچند در برخی موارد موفقیت جزئی بیشتری نسبت به Sonnet 4.6 داشته. برای کاهش ریسک، سیستم‌های محافظتی سایبری به‌صورت پیش‌فرض فعال شده‌اند؛ همان سازوکارهایی که در Opus 4.7 و 4.8 نیز استفاده می‌شوند.

از نظر دسترسی، Sonnet 5 از امروز در همه پلن‌ها فعال شده و در نسخه‌های رایگان و پرو به‌عنوان مدل پیش‌فرض ارائه می‌شود. این مدل در کلاد کد، API و پلتفرم کلاد نیز در دسترس است و روی AWS، Microsoft Foundry و به‌زودی Google Vertex عرضه خواهد شد. همچنین برنامه Cyber Verification Program از آن پشتیبانی می‌کند و نرخ محدودیت استفاده در پلتفرم‌ها برای مدیریت بار مصرف افزایش یافته.

در بخش قیمت‌گذاری، انتروپیک نرخ اولیه ۲ دلار به‌ازای هر یک میلیون توکن ورودی و ۱۰ دلار برای خروجی را تا ۳۱ آگوست ۲۰۲۶ اعلام کرده. پس از آن، قیمت استاندارد به ۳ دلار ورودی و ۱۵ دلار خروجی می‌رسد. همچنین تغییر در توکنایزر باعث افزایش ۱ تا ۱.۳۵ برابری تعداد توکن‌های مصرفی نسبت به متن مشابه شده که هدف آن بهبود عملکرد مدل در پردازش زبان عنوان شده.

در گزارش فنی، نتایج بنچمارک‌ها نیز منتشر شده. Sonnet 5 در Humanity’s Last Exam به ۳۴.۶ درصد بدون ابزار و ۴۶.۸ درصد با ابزار رسیده. در OSWorld Verified نیز امتیاز ۷۸.۵ درصد ثبت شده. همچنین روش ارزیابی BrowseComp به‌روزرسانی شده و با بودجه ۱۰ میلیون توکن و ابزاردهی برنامه‌محور اجرا شده تا تصویر دقیق‌تری از عملکرد ایجنتیک مدل ارائه دهد.

منبع

پوریا | ۲ ساعت پیش

دیدگاهتان را بنویسید