CoreTech

بنچمارک جدید نشان می‌دهد هوش مصنوعی هنوز در کارهای واقعی دانش‌محور ناتوان است

پوریا | ۶ ساعت پیش

نتایج یک بنچمارک جدید به نام AA-Briefcase نشان می‌دهد مدل‌های هوش مصنوعی با وجود پیشرفت‌های اخیر، هنوز فاصله زیادی با انجام موفق پروژه‌های واقعی دانش‌محور دارند. این ارزیابی، مدل‌ها را در برابر پروژه‌هایی چند‌هفته‌ای قرار داده که از هزاران فایل پراکنده شامل گفتگوهای Slack، ایمیل‌ها، صورت‌جلسه‌های نشست‌ها و خروجی‌های حجیم داده تشکیل شده‌اند. با وجود رقابت شدید میان شرکت‌ها، عملکرد کلی مدل‌ها همچنان محدود ارزیابی شده است.

در این آزمون، Claude Fable 5 بهترین عملکرد را ثبت کرده و بالاترین نرخ موفقیت بر اساس معیارهای ارزیابی را به دست آورده است؛ با این حال، این مدل تنها در ۳ درصد از وظایف توانسته تمامی معیارهای تعیین‌شده را به‌طور کامل برآورده کند. از سوی دیگر، در ۳۱ مورد از مجموع ۹۱ وظیفه تعریف‌شده، هیچ‌یک از مدل‌های حاضر نتوانسته‌اند حتی به نرخ موفقیت ۵۰ درصدی برسند.

طراحی AA-Briefcase بر شبیه‌سازی محیط واقعی کار متخصصان دانش‌محور متمرکز است؛ محیطی که در آن اطلاعات مورد نیاز در یک سند واحد قرار ندارد و افراد باید داده‌های پراکنده را از منابع مختلف کنار هم قرار دهند. این ساختار باعث می‌شود مدل‌ها به جای پاسخ‌گویی به پرسش‌های مستقیم، ناچار شوند ارتباط میان انبوهی از اسناد و اطلاعات نامرتبط را تشخیص دهند.

پژوهشگران همچنین به تغییر الگوی خطاها با پیشرفته‌تر شدن مدل‌ها اشاره کرده‌اند. مدل‌های ضعیف‌تر عمدتاً در مراحل پایه‌ای اجرای وظایف دچار مشکل می‌شوند؛ برای مثال، فایل‌های مرتبط را پیدا نمی‌کنند یا خروجی‌هایی ارائه می‌دهند که عملاً قابل استفاده نیستند. در مقابل، مدل‌های قدرتمندتر شکست‌های پنهان‌تری دارند و اگرچه الزامات آشکار را پوشش می‌دهند، اما جزئیاتی را از دست می‌دهند که تنها با کنار هم قرار دادن چندین منبع اطلاعاتی قابل تشخیص هستند.

یکی دیگر از یافته‌های قابل توجه این ارزیابی به اختلاف چشمگیر هزینه اجرای وظایف مربوط می‌شود. هزینه انجام هر پروژه میان مدل‌های مختلف بیش از ۸۰۰ برابر اختلاف دارد. در پایین‌ترین سطح، DeepSeek V4 Flash برای هر وظیفه حدود ۰٫۰۴ دلار هزینه ایجاد می‌کند، در حالی که اجرای همان سطح از پردازش با Claude Fable 5 می‌تواند بیش از ۳۱ دلار برای هر وظیفه هزینه داشته باشد.

این نتایج تصویری واقع‌بینانه‌تر از وضعیت کنونی هوش مصنوعی ارائه می‌کنند و نشان می‌دهند که عملکرد موفق در آزمون‌های متداول الزاماً به معنای توانایی انجام کارهای پیچیده و بلندمدت در دنیای واقعی نیست. یافته‌های AA-Briefcase همچنین تأکید می‌کنند که چالش اصلی آینده هوش مصنوعی، نه فقط افزایش توان پردازشی، بلکه بهبود توانایی ترکیب اطلاعات پراکنده و درک جزئیات پنهان در حجم بزرگی از داده‌هاست.

پوریا | ۶ ساعت پیش

دیدگاهتان را بنویسید