گوگل مدل Gemini 2.5 Computer Use را معرفی کرد؛ هوش مصنوعی با رفتار انسانی در وب

پوریا | ۴ ماه پیش

گوگل از جدیدترین مدل هوش مصنوعی خود با نام Gemini 2.5 Computer Use رونمایی کرد؛ مدلی که به هوش مصنوعی اجازه می‌دهد مانند یک انسان با وب‌سایت‌ها و رابط‌های کاربری تعامل داشته باشد. این مدل اکنون در قالب پیش‌نمایش عمومی از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان قرار دارد.

مدل جدید بر پایه قابلیت‌های درک تصویری و استدلالی جمنای ۲.۵ پرو ساخته شده و می‌تواند مجموعه‌ای از وظایف مبتنی بر مرورگر مانند کلیک، تایپ، اسکرول، باز کردن منوها و حرکت میان آدرس‌های مختلف را انجام دهد. گوگل می‌گوید این مدل در بنچمارک‌ها عملکردی برتر و با تأخیر کمتر نسبت به رقبا دارد.

برخلاف مدل‌های سنتی که از API برای تعامل استفاده می‌کنند، این مدل از تصاویر رابط کاربری برای تحلیل محیط دیجیتال بهره می‌برد و بر اساس آن، اقدامات خاصی مانند کلیک یا تایپ را انجام می‌دهد. در این فرآیند، مدل یک وظیفه، تصویری از محیط و سابقه اقدامات اخیر را دریافت می‌کند و سپس اقدام مناسب را انجام می‌دهد. این عمل در سمت کاربر اجرا شده و تصویر جدیدی برای ادامه تعامل ارسال می‌شود.

گوگل در نمایش عملکرد مدل، نمونه‌هایی از مرتب‌سازی یادداشت‌ها روی وایت‌برد دیجیتال و انتقال داده‌های حیوانات خانگی از یک وب‌سایت به سیستم مدیریت مشتری ارائه کرد. ویدیوهای نمایش‌داده‌شده به‌صورت تسریع‌شده پخش شدند تا عملکرد مدل در زمان واقعی نشان داده شود.

در حال حاضر، این مدل از ۱۳ نوع اقدام مختلف پشتیبانی می‌کند و بیشترین کارایی را در مرورگرهای وب دارد. گوگل اعلام کرده که مدل هنوز برای وظایف سطح سیستم‌عامل دسکتاپ بهینه نشده، اما در آزمایش‌های موبایلی نتایج امیدوارکننده‌ای داشته. برای جلوگیری از سوءاستفاده، هر اقدام پیشنهادی مدل پیش از اجرا توسط یک سیستم ایمنی داخلی بررسی می‌شود. توسعه‌دهندگان همچنین می‌توانند برخی اقدامات را محدود کرده یا برای فعالیت‌های حساس مانند تراکنش‌های مالی، تأیید کاربر را الزامی کنند.

در حال حاضر، چندین تیم داخلی گوگل از این مدل در محیط‌های تولیدی استفاده می‌کنند؛ از جمله در بخش‌های Search و Firebase برای آزمون رابط کاربری و خودکارسازی وظایف. توسعه‌دهندگان خارج از گوگل نیز از طریق برنامه دسترسی زودهنگام، از مدل برای ساخت ابزارهای خودکارسازی و دستیارهای هوشمند بهره گرفته‌اند.

پوریا | ۴ ماه پیش

پیشنهاد سردبیر

شاهکار مهندسی مکانیک در کابین بوگاتی توربیون؛ بازتعریف نمایشگر خودروهای هایپرکار

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

گوگل مدل Gemini 2.5 Computer Use را معرفی کرد؛ هوش مصنوعی با رفتار انسانی در وب

پیشنهاد سردبیر

شاهکار مهندسی مکانیک در کابین بوگاتی توربیون؛ بازتعریف نمایشگر خودروهای هایپرکار

زایس از سری جدید لنزهای سینمایی Aatma رونمایی کرد، مجموعه‌ی ۹ تایی لنزهای T1.5

اولین تست‌های واقعی اسنپدراگون X2 Elite پیش‌از عرضه‌ی رسمی و بهینه‌سازی کامل منتشر شد

ضربان قلب به‌جای باتری؛ معرفی ضربان‌ساز خودتأمین جدید که می‌تواند عمر ایمپلنت‌های قلبی را متحول کند

دیدگاهتان را بنویسید لغو پاسخ

تصاویر کامل از زوایای مختلف سری گلکسی S26 با نمایش رنگ‌بندی و طراحی منتشر شد

زایس از سری جدید لنزهای سینمایی Aatma رونمایی کرد، مجموعه‌ی ۹ تایی لنزهای T1.5

گلکسی A57 مراحل نهایی تاییدیه‌ها را پشت سر گذاشت؛ رونمایی جهانی احتمالا در روزهای آینده

اولین تست‌های واقعی اسنپدراگون X2 Elite پیش‌از عرضه‌ی رسمی و بهینه‌سازی کامل منتشر شد

مهندسان MIT با ساختارهای جدید سیلیکونی، گرمای هدررفته را به توان محاسباتی تبدیل کردند

ضربان قلب به‌جای باتری؛ معرفی ضربان‌ساز خودتأمین جدید که می‌تواند عمر ایمپلنت‌های قلبی را متحول کند

کانن از نسخه‌ی ویژه‌ی PowerShot G7 X Mark III با مشخصاتی مضحک رونمایی کرد

لیست ۱۰ دستگاه اندرویدی برتر ژانویه ۲۰۲۶ از دید آنتوتو با پیشتازی کوالکام منتشر شد

سری پردازنده‌های ورک‌استیشن Xeon 600 با فناوری اینتل ۳ و حداکثر ۸۶ هسته رونمایی شد

به لطف خورشید دنباله‌دار C/2025 K1 در حال فروپاشی است، فرصت دیدن‌را از دست ندهید!

درباره ما: