اوپن‌اِی‌آی از Sora 2 رونمایی کرد: ویدئوهای هوش مصنوعی با فیزیک واقعی و حضور کاربر

اوپن‌اِی‌آی به‌طور رسمی Sora 2، مدل پرچم‌دار جدید خود برای تولید ویدئو و صدا را معرفی کرد؛ مدلی که پیشرفتی بزرگ در واقع‌گرایی فیزیکی و کنترل‌پذیری محتوای تولیدشده با هوش مصنوعی به حساب می‌آید. این نسخه علاوه بر ارائه فیزیک طبیعی‌تر و امکان کنترل بیشتر، گفت‌وگوهای همگام‌سازی‌شده و افکت‌های صوتی محیطی را نیز پشتیبانی می‌کند و سطح جدیدی از غوطه‌وری در محتوای تولیدشده را به نمایش می‌گذارد. در کنار این مدل، اپلیکیشن اجتماعی جدیدی با نام Sora نیز معرفی شده که به کاربران امکان می‌دهد با رسانه‌های تولیدشده توسط هوش مصنوعی آزمایش کنند و حتی در قالب کیمیو (cameo) خودشان در این ویدئوها ظاهر شوند. عرضه‌ی اولیه از ۳۰ سپتامبر ۲۰۲۵ در ایالات متحده و کانادا آغاز شده است.

OpenAI مدل Sora 1 (عرضه‌شده در اوایل ۲۰۲۴) را نقطه عطفی برای ویدئوهای مولد دانست؛ مشابه نقشی که GPT 1 در پردازش زبان طبیعی ایفا کرد. در مقایسه، Sora 2 اکنون به‌عنوان یک لحظه‌ی GPT-3.5 برای حوزه‌ی ویدئو توصیف می‌شود، چرا که سطح تازه‌ای از درک واقعیت فیزیکی و شبیه‌سازی جهان را ارائه می‌کند.

به گفته‌ی شرکت مادر، Sora 2 جهشی در توانایی شبیه‌سازی جهان محسوب می‌شود. در حالی که مدل‌های قبلی برای پاسخ به یک دستور اغلب قوانین واقعیت را تغییر می‌دادند، Sora 2 قادر است نتایج قابل‌باور را شبیه‌سازی کند. برای مثال، در یک صحنه بسکتبال، به جای تله‌پورت شدن توپ، پرتاب‌های ناموفق یا برخورد به حلقه را نشان می‌دهد. این مدل می‌تواند سناریوهایی را بازنمایی کند که پیش‌تر سیستم‌ها را به چالش می‌کشیدند، از حرکات ژیمناستیک سطح المپیک گرفته تا بَک‌فلیپ‌های دقیق روی آب با رعایت قوانین شناوری و سختی اجسام، یا حتی اجرای یک حرکت تریپل اکسل در حالی که گربه‌ای به بازیکن چسبیده است. این پیشرفت‌ها به بخش صوتی نیز گسترش یافته و شامل تولید صداهای پس‌زمینه، گفتار همگام و افکت‌های صوتی کاملاً هماهنگ با صحنه می‌شود.

یکی از قابلیت‌های مهم Sora 2 امکان بارگذاری خودتان است. کاربران می‌توانند یک نمونه کوتاه ویدئویی و صوتی ضبط کنند تا مدل بتواند آن‌ها یا دوستان، حیوانات و حتی اشیای واقعی را با بازنمایی دقیق تصویر و صدا در هر صحنه تولیدی قرار دهد.

برای نمایش توانایی‌های Sora 2، شرکت اپلیکیشن Sora را برای iOS معرفی کرده است. این برنامه امکان ساخت و بازترکیب ویدئوهای کوتاه، مرور محتوای ساخته‌شده توسط جامعه کاربری در یک فید قابل تنظیم، و حضور در صحنه‌های تولیدشده از طریق قابلیت Cameos را فراهم می‌کند. این بخش نیازمند یک فرآیند تأیید کوتاه برای اطمینان از کنترل و رضایت کاربران است و گزینه‌های کامل برای حریم خصوصی و حذف محتوا را شامل می‌شود.

OpenAI اپلیکیشن Sora را با رویکرد خلق‌محور و نه درگیرسازی حداکثری طراحی کرده است. فید پیش‌فرض بیشتر محتوای افرادی که دنبال می‌کنید و مطالب الهام‌بخش برای خلق محتوای جدید را نمایش می‌دهد و تمرکزی بر افزایش زمان استفاده ندارد. حساب‌های کاربری نوجوان محدودیت روزانه برای مشاهده‌ی فید دارند و اجازه‌ی محدودتری برای cameo خواهند داشت. همچنین، والدین می‌توانند از طریق ChatGPT تنظیمات مدیریتی مانند غیرفعال‌سازی شخصی‌سازی الگوریتمی یا محدود کردن اسکرول بی‌نهایت را اعمال کنند. این شرکت همچنین تیم نظارت انسانی خود را برای مقابله با آزار و سوءاستفاده‌ها گسترش می‌دهد.

Sora 2 امروز در آمریکا و کانادا عرضه شده و به‌تدریج به دیگر کشورها گسترش می‌یابد. این مدل در ابتدا رایگان ارائه می‌شود که به توان پردازشی وابسته است. کاربران ChatGPT Pro می‌توانند زودتر از طریق ChatGPT به نسخه Sora 2 Pro با کیفیت بالاتر دسترسی داشته باشند و این قابلیت به‌زودی در اپلیکیشن Sora هم فعال خواهد شد. همچنین، نسخه‌ی API برای استفاده گسترده‌تر در آینده منتشر خواهد شد. محتوای تولیدشده با Sora 1 Turbo نیز همچنان در کتابخانه کاربران باقی خواهد ماند.

سازنده ‌Sora 2 را گامی مهم به سوی توسعه‌ی شبیه‌سازهای همه‌منظوره‌ی جهان و در نهایت رباتیک پیشرفته می‌داند. این شرکت معتقد است که پیشرفت در مدل‌های ویدئومحور نه تنها ابزارهای خلاقانه‌ی بهتری فراهم می‌کند، بلکه مسیری به سمت سامانه هایی است که می‌توانند جهان فیزیکی را بهتر درک کرده و حتی در آن تعامل و فعالیت کنند.

ابوالفضل | ۱ ماه پیش

دیدگاهتان را بنویسید