بنچمارک جدید نشان می‌دهد هوش مصنوعی هنوز در کارهای واقعی دانش‌محور ناتوان است

پوریا | ۶ ساعت پیش

نتایج یک بنچمارک جدید به نام AA-Briefcase نشان می‌دهد مدل‌های هوش مصنوعی با وجود پیشرفت‌های اخیر، هنوز فاصله زیادی با انجام موفق پروژه‌های واقعی دانش‌محور دارند. این ارزیابی، مدل‌ها را در برابر پروژه‌هایی چند‌هفته‌ای قرار داده که از هزاران فایل پراکنده شامل گفتگوهای Slack، ایمیل‌ها، صورت‌جلسه‌های نشست‌ها و خروجی‌های حجیم داده تشکیل شده‌اند. با وجود رقابت شدید میان شرکت‌ها، عملکرد کلی مدل‌ها همچنان محدود ارزیابی شده است.

در این آزمون، Claude Fable 5 بهترین عملکرد را ثبت کرده و بالاترین نرخ موفقیت بر اساس معیارهای ارزیابی را به دست آورده است؛ با این حال، این مدل تنها در ۳ درصد از وظایف توانسته تمامی معیارهای تعیین‌شده را به‌طور کامل برآورده کند. از سوی دیگر، در ۳۱ مورد از مجموع ۹۱ وظیفه تعریف‌شده، هیچ‌یک از مدل‌های حاضر نتوانسته‌اند حتی به نرخ موفقیت ۵۰ درصدی برسند.

طراحی AA-Briefcase بر شبیه‌سازی محیط واقعی کار متخصصان دانش‌محور متمرکز است؛ محیطی که در آن اطلاعات مورد نیاز در یک سند واحد قرار ندارد و افراد باید داده‌های پراکنده را از منابع مختلف کنار هم قرار دهند. این ساختار باعث می‌شود مدل‌ها به جای پاسخ‌گویی به پرسش‌های مستقیم، ناچار شوند ارتباط میان انبوهی از اسناد و اطلاعات نامرتبط را تشخیص دهند.

پژوهشگران همچنین به تغییر الگوی خطاها با پیشرفته‌تر شدن مدل‌ها اشاره کرده‌اند. مدل‌های ضعیف‌تر عمدتاً در مراحل پایه‌ای اجرای وظایف دچار مشکل می‌شوند؛ برای مثال، فایل‌های مرتبط را پیدا نمی‌کنند یا خروجی‌هایی ارائه می‌دهند که عملاً قابل استفاده نیستند. در مقابل، مدل‌های قدرتمندتر شکست‌های پنهان‌تری دارند و اگرچه الزامات آشکار را پوشش می‌دهند، اما جزئیاتی را از دست می‌دهند که تنها با کنار هم قرار دادن چندین منبع اطلاعاتی قابل تشخیص هستند.

یکی دیگر از یافته‌های قابل توجه این ارزیابی به اختلاف چشمگیر هزینه اجرای وظایف مربوط می‌شود. هزینه انجام هر پروژه میان مدل‌های مختلف بیش از ۸۰۰ برابر اختلاف دارد. در پایین‌ترین سطح، DeepSeek V4 Flash برای هر وظیفه حدود ۰٫۰۴ دلار هزینه ایجاد می‌کند، در حالی که اجرای همان سطح از پردازش با Claude Fable 5 می‌تواند بیش از ۳۱ دلار برای هر وظیفه هزینه داشته باشد.

این نتایج تصویری واقع‌بینانه‌تر از وضعیت کنونی هوش مصنوعی ارائه می‌کنند و نشان می‌دهند که عملکرد موفق در آزمون‌های متداول الزاماً به معنای توانایی انجام کارهای پیچیده و بلندمدت در دنیای واقعی نیست. یافته‌های AA-Briefcase همچنین تأکید می‌کنند که چالش اصلی آینده هوش مصنوعی، نه فقط افزایش توان پردازشی، بلکه بهبود توانایی ترکیب اطلاعات پراکنده و درک جزئیات پنهان در حجم بزرگی از داده‌هاست.

پوریا | ۶ ساعت پیش

پیشنهاد سردبیر

هواوی به‌دنبال ساخت گوشی سه‌تاشوی عمودی؛ رقیبی متفاوت برای Galaxy Z Flip

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

بنچمارک جدید نشان می‌دهد هوش مصنوعی هنوز در کارهای واقعی دانش‌محور ناتوان است

پیشنهاد سردبیر

هواوی به‌دنبال ساخت گوشی سه‌تاشوی عمودی؛ رقیبی متفاوت برای Galaxy Z Flip

توسعه‌دهنده‌ای محدودیت‌های اپل را دور زد؛ موتور عصبی M4 حالا توان آموزش مدل‌های هوش مصنوعی را دارد

شورولت سیلورادو ۲۰۲۷ با دو موتور V8 جدید و طراحی جدید رونمایی شد

دی‌جی‌ای Osmo Pocket 4P معرفی شد؛ نخستین دوربین گیمبال جیبی DJI با سیستم دو دوربینه

دیدگاهتان را بنویسید لغو پاسخ

افزایش احتمالی قیمت آیفون ۱۸ پرو تا ۱۳۹۹ دلار؛ طراحی متفاوت اما قاب‌های سازگار با قبل در راه است

سامسونگ گلکسی بوک ۶ اج با اسنپدراگون X2 الیت و نمایشگر ۱۲۰ هرتزی امولد عرضه شد

کونیگزگ با جسکو ابسولوت رکوردهای جدید شتاب و سرعت در یک‌چهارم و نیم مایل را جابه‌جا کرد

پیروزی تاریخی همیلتون با فراری در بارسلونا؛ آنتونلی با خرابی فنی از مسابقه کنار رفت

هواوی از اجرای HarmonyOS با ۶۴ کیلوبایت رم خبر داد؛ یک ادعای دروغ جدید یا…

جنسیس با Magma GT3 خبرساز شد؛ کانسپتی که آینده مسابقه‌ای این برند را نشان می‌دهد

پورشه تأیید کرد؛ ۹۱۱ افسانه‌ای بدون نسخه تمام‌برقی به مسیر خود ادامه می‌دهد

آئودی Q7 مدل ۲۰۲۷ با کابین ارتقایافته و پیشرانه‌های حجیم V شکل معرفی شد

محدودیت! استفاده کامل از Apple Intelligence به اشتراک و سخت‌افزار جدید نیاز دارد

اپل iOS 27 را معرفی کرد؛ از افزایش سرعت آیفون‌ها تا نسل جدید Siri مبتنی بر هوش مصنوعی

درباره ما: