
بنچمارک جدید نشان میدهد هوش مصنوعی هنوز در کارهای واقعی دانشمحور ناتوان است
نتایج یک بنچمارک جدید به نام AA-Briefcase نشان میدهد مدلهای هوش مصنوعی با وجود پیشرفتهای اخیر، هنوز فاصله زیادی با انجام موفق پروژههای واقعی دانشمحور دارند. این ارزیابی، مدلها را در برابر پروژههایی چندهفتهای قرار داده که از هزاران فایل پراکنده شامل گفتگوهای Slack، ایمیلها، صورتجلسههای نشستها و خروجیهای حجیم داده تشکیل شدهاند. با وجود رقابت شدید میان شرکتها، عملکرد کلی مدلها همچنان محدود ارزیابی شده است.
در این آزمون، Claude Fable 5 بهترین عملکرد را ثبت کرده و بالاترین نرخ موفقیت بر اساس معیارهای ارزیابی را به دست آورده است؛ با این حال، این مدل تنها در ۳ درصد از وظایف توانسته تمامی معیارهای تعیینشده را بهطور کامل برآورده کند. از سوی دیگر، در ۳۱ مورد از مجموع ۹۱ وظیفه تعریفشده، هیچیک از مدلهای حاضر نتوانستهاند حتی به نرخ موفقیت ۵۰ درصدی برسند.
طراحی AA-Briefcase بر شبیهسازی محیط واقعی کار متخصصان دانشمحور متمرکز است؛ محیطی که در آن اطلاعات مورد نیاز در یک سند واحد قرار ندارد و افراد باید دادههای پراکنده را از منابع مختلف کنار هم قرار دهند. این ساختار باعث میشود مدلها به جای پاسخگویی به پرسشهای مستقیم، ناچار شوند ارتباط میان انبوهی از اسناد و اطلاعات نامرتبط را تشخیص دهند.

پژوهشگران همچنین به تغییر الگوی خطاها با پیشرفتهتر شدن مدلها اشاره کردهاند. مدلهای ضعیفتر عمدتاً در مراحل پایهای اجرای وظایف دچار مشکل میشوند؛ برای مثال، فایلهای مرتبط را پیدا نمیکنند یا خروجیهایی ارائه میدهند که عملاً قابل استفاده نیستند. در مقابل، مدلهای قدرتمندتر شکستهای پنهانتری دارند و اگرچه الزامات آشکار را پوشش میدهند، اما جزئیاتی را از دست میدهند که تنها با کنار هم قرار دادن چندین منبع اطلاعاتی قابل تشخیص هستند.
یکی دیگر از یافتههای قابل توجه این ارزیابی به اختلاف چشمگیر هزینه اجرای وظایف مربوط میشود. هزینه انجام هر پروژه میان مدلهای مختلف بیش از ۸۰۰ برابر اختلاف دارد. در پایینترین سطح، DeepSeek V4 Flash برای هر وظیفه حدود ۰٫۰۴ دلار هزینه ایجاد میکند، در حالی که اجرای همان سطح از پردازش با Claude Fable 5 میتواند بیش از ۳۱ دلار برای هر وظیفه هزینه داشته باشد.
این نتایج تصویری واقعبینانهتر از وضعیت کنونی هوش مصنوعی ارائه میکنند و نشان میدهند که عملکرد موفق در آزمونهای متداول الزاماً به معنای توانایی انجام کارهای پیچیده و بلندمدت در دنیای واقعی نیست. یافتههای AA-Briefcase همچنین تأکید میکنند که چالش اصلی آینده هوش مصنوعی، نه فقط افزایش توان پردازشی، بلکه بهبود توانایی ترکیب اطلاعات پراکنده و درک جزئیات پنهان در حجم بزرگی از دادههاست.




