CoreTech

Nano Banana 2 lite and Gemini omni flash

گوگل Nano Banana 2 Lite و Gemini Omni Flash را برای تولید سریع‌تر تصویر و ویدیو معرفی کرد

ابوالفضل | ۸ ساعت پیش

گوگل از دو مدل جدید هوش مصنوعی با نام‌های Nano Banana 2 Lite و Gemini Omni Flash رونمایی کرده است؛ محصولاتی که با هدف تسریع تولید محتوای تصویری و ویدیویی و کاهش هزینه توسعه معرفی شده‌اند. نانو بنانا ۲ لایت سریع‌ترین و اقتصادی‌ترین مدل تولید تصویر خانواده Nano Banana محسوب می‌شود، در حالی که Gemini Omni Flash امکان تولید و ویرایش ویدیو با استفاده از متن، تصویر و ویدیو را در قالبی مکالمه‌محور در اختیار توسعه‌دهندگان قرار می‌دهد.

Nano Banana 2 lite:

هر دو مدل از امروز در Google AI Studio، Gemini API و Gemini Enterprise Agent Platform در دسترس توسعه‌دهندگان قرار گرفته‌اند. گوگل همچنین اعلام کرده است Nano Banana 2 Lite به‌تدریج در سرویس‌های مصرف‌کننده این شرکت از جمله AI Mode در جست‌وجوی گوگل، اپلیکیشن Gemini و دیگر محصولات عرضه می‌شود. از سوی دیگر، Gemini Omni Flash علاوه بر پلتفرم‌های توسعه، در اپلیکیشن Gemini و Google Flow نیز ارائه شده است.

به گفته گوگل این دو مدل برای تکمیل یکدیگر طراحی شده‌اند تا توسعه‌دهندگان بتوانند فرایند ساخت تجربه‌های چندرسانه‌ای را به‌صورت یکپارچه انجام دهند. در چنین سناریویی تولید سریع تصاویر، ساخت ویدیو و ویرایش آن‌ها در یک زنجیره کاری واحد انجام می‌شود. این رویکرد برای پروژه‌هایی که به تولید انبوه تصویر یا ویرایش چندمرحله‌ای ویدیو نیاز دارند، روند توسعه را سریع‌تر و روان‌تر می‌کند.

Nano Banana 2 Lite با شناسه gemini 3.1 flash lite image برای محیط‌هایی توسعه یافته که سرعت پردازش، هزینه پایین و توان عملیاتی بالا مهم‌ترین اولویت محسوب می‌شوند. گوگل این مدل را جایگزین پیشنهادی Nano Banana یا gemini 2.5 flash image معرفی کرده و از توسعه‌دهندگانی که همچنان از نسخه قدیمی استفاده می‌کنند خواسته است برای بهره‌مندی از کیفیت بهتر، سرعت بیشتر و هزینه کمتر به نسخه جدید مهاجرت کنند.

بر اساس اطلاعات منتشرشده، Nano Banana 2 Lite می‌تواند خروجی متن‌به‌تصویر را تنها در حدود ۴ ثانیه تولید کند. هزینه استفاده از این مدل نیز ۰.۰۳۴ دلار برای هر تصویر با وضوح 1K اعلام شده است؛ رقمی که آن را به گزینه‌ای مناسب برای نمونه‌سازی سریع، ایده‌پردازی، تهیه پیش‌نویس، مدیریت هزینه‌های عملیاتی و پروژه‌هایی با محدودیت پهنای باند تبدیل می‌کند.

گوگل اعلام کرده است با وجود تمرکز ویژه بر سرعت، Nano Banana 2 Lite همچنان عملکرد مطلوبی در پایبندی به دستورات متنی، حفظ ثبات شخصیت‌ها در تصاویر و نمایش خوانای متن داخل تصویر ارائه می‌دهد. همچنین بنچمارک‌های این شرکت عملکرد Nano Banana 2 و Nano Banana 2 Lite را با مدل‌های تصویری رقبا از نظر کیفیت تولید و ویرایش، امتیاز Elo، میزان تأخیر و هزینه هر تصویر با وضوح 1K مقایسه می‌کنند.

هم‌زمان گوگل ساختار خانواده Nano Banana را نیز تشریح کرده و Nano Banana 2 Lite برای پردازش‌های بلادرنگ و حجم کاری بالا طراحی شده، Nano Banana 2 یا Gemini 3.1 Flash Image نقش مدل همه‌منظوره را با تعادل میان کیفیت، سرعت و هزینه بر عهده دارد و Nano Banana Pro یا Gemini 3 Pro Image برای کاربردهای حرفه‌ای که دقت در آن‌ها اهمیت بیشتری نسبت به سرعت دارد توسعه یافته است.

مدل قدیمی Nano Banana یا Gemini 2.5 Flash Image همچنان در دسترس است، اما گوگل ارتقا به Nano Banana 2 Lite را توصیه می‌کند. علاوه بر پلتفرم‌های توسعه‌دهندگان، این مدل به سرویس‌های مصرف‌کننده دیگری مانند NotebookLM، Google Photos، Stitch، Google Flow و Google Ads نیز راه پیدا می‌کند تا کاربران بیشتری به قابلیت‌های آن دسترسی داشته باشند.

Gemini Omni Flash:

همچنین گوگل از Gemini Omni Flash با شناسه gemini omni flash preview رونمایی کرده؛ این مدل که نخستین‌بار در رویداد Google I/O معرفی شد، اکنون به‌صورت پیش‌نمایش عمومی در Google AI Studio و Gemini API در اختیار توسعه‌دهندگان قرار گرفته و از تولید و ویرایش بومی ویدیو بر پایه ترکیبی از متن، تصویر و ویدیو پشتیبانی می‌کند.

گوگل قیمت استفاده از Gemini Omni Flash را ۰.۱ دلار برای هر ثانیه خروجی ویدیو تعیین کرده که با Veo 3.1 Fast برابر است. این مدل از ویرایش مکالمه‌محور ویدیو، استفاده هم‌زمان از ورودی‌های متنی، تصویری و ویدیویی، بهره‌گیری از دانش عمومی Gemini در موضوعاتی مانند تاریخ، زیست‌شناسی و منطق روایی و همچنین همگام‌سازی متن و عناصر گرافیکی با رخدادهای ویدیویی پشتیبانی می‌کند.

در نسخهِ فعلی Omni Flash قادر به تولید ویدیوهای ۱۰ ثانیه‌ای است و گوگل وعده داده پشتیبانی از مدت‌زمان‌های طولانی‌تر در آینده اضافه شود. با این حال بارگذاری فایل‌های صوتی مرجع و قابلیت گسترش صحنه هنوز در Gemini API فعال نیست. همچنین اگرچه ساختار API ارجاع ویدیوهای حداکثر ۳ ثانیه‌ای را می‌پذیرد، اما این قابلیت فعلاً به‌درستی توسط مدل پردازش نمی‌شود.

گوگل همچنین اعلام کرده است ثبات شخصیت‌ها هنگام تغییر صحنه یا اجرای حرکت‌های پنینگ هنوز با محدودیت‌هایی همراه است و این بخش در نسخه‌های آینده بهبود خواهد یافت.

این شرکت معتقد است بیشترین کارایی زمانی حاصل می‌شود که Nano Banana 2 Lite و Gemini Omni Flash در کنار یکدیگر استفاده شوند. در این فرایند، تصویر ابتدا با Nano Banana 2 Lite تولید و سپس به‌عنوان مرجع در اختیار Gemini Omni Flash قرار می‌گیرد تا به یک ویدیوی متحرک تبدیل شود. همچنین Interactions API تاریخچه نشست و زمینه مکالمه را حفظ می‌کند و امکان انجام حداکثر سه ویرایش متوالی را در یک پروژه فراهم می‌سازد.

گوگل برای نمایش این قابلیت‌ها سه برنامه نمایشی نیز معرفی کرده است. Anywhere کاربران را با یک سلفی یا تصویر شخصی به مکان‌های مشهور جهان منتقل کرده و سپس همان تصویر را به ویدیویی متحرک تبدیل می‌کند. Space Lift امکان بازطراحی فضای داخلی اتاق و مشاهده نسخه ویدیویی آن را فراهم می‌سازد و Omni Product Studio نیز تصاویر ثابت محصولات را به ویدیوهای سینمایی مناسب تجارت الکترونیک تبدیل می‌کند تا نحوه ترکیب تولید تصویر و ویدیو در یک جریان کاری واحد را به نمایش بگذارد.

منبع

ابوالفضل | ۸ ساعت پیش

دیدگاهتان را بنویسید