اوپناِیآی از Sora 2 رونمایی کرد: ویدئوهای هوش مصنوعی با فیزیک واقعی و حضور کاربر

اوپناِیآی بهطور رسمی Sora 2، مدل پرچمدار جدید خود برای تولید ویدئو و صدا را معرفی کرد؛ مدلی که پیشرفتی بزرگ در واقعگرایی فیزیکی و کنترلپذیری محتوای تولیدشده با هوش مصنوعی به حساب میآید. این نسخه علاوه بر ارائه فیزیک طبیعیتر و امکان کنترل بیشتر، گفتوگوهای همگامسازیشده و افکتهای صوتی محیطی را نیز پشتیبانی میکند و سطح جدیدی از غوطهوری در محتوای تولیدشده را به نمایش میگذارد. در کنار این مدل، اپلیکیشن اجتماعی جدیدی با نام Sora نیز معرفی شده که به کاربران امکان میدهد با رسانههای تولیدشده توسط هوش مصنوعی آزمایش کنند و حتی در قالب کیمیو (cameo) خودشان در این ویدئوها ظاهر شوند. عرضهی اولیه از ۳۰ سپتامبر ۲۰۲۵ در ایالات متحده و کانادا آغاز شده است.
OpenAI مدل Sora 1 (عرضهشده در اوایل ۲۰۲۴) را نقطه عطفی برای ویدئوهای مولد دانست؛ مشابه نقشی که GPT 1 در پردازش زبان طبیعی ایفا کرد. در مقایسه، Sora 2 اکنون بهعنوان یک لحظهی GPT-3.5 برای حوزهی ویدئو توصیف میشود، چرا که سطح تازهای از درک واقعیت فیزیکی و شبیهسازی جهان را ارائه میکند.
به گفتهی شرکت مادر، Sora 2 جهشی در توانایی شبیهسازی جهان محسوب میشود. در حالی که مدلهای قبلی برای پاسخ به یک دستور اغلب قوانین واقعیت را تغییر میدادند، Sora 2 قادر است نتایج قابلباور را شبیهسازی کند. برای مثال، در یک صحنه بسکتبال، به جای تلهپورت شدن توپ، پرتابهای ناموفق یا برخورد به حلقه را نشان میدهد. این مدل میتواند سناریوهایی را بازنمایی کند که پیشتر سیستمها را به چالش میکشیدند، از حرکات ژیمناستیک سطح المپیک گرفته تا بَکفلیپهای دقیق روی آب با رعایت قوانین شناوری و سختی اجسام، یا حتی اجرای یک حرکت تریپل اکسل در حالی که گربهای به بازیکن چسبیده است. این پیشرفتها به بخش صوتی نیز گسترش یافته و شامل تولید صداهای پسزمینه، گفتار همگام و افکتهای صوتی کاملاً هماهنگ با صحنه میشود.
یکی از قابلیتهای مهم Sora 2 امکان بارگذاری خودتان است. کاربران میتوانند یک نمونه کوتاه ویدئویی و صوتی ضبط کنند تا مدل بتواند آنها یا دوستان، حیوانات و حتی اشیای واقعی را با بازنمایی دقیق تصویر و صدا در هر صحنه تولیدی قرار دهد.
برای نمایش تواناییهای Sora 2، شرکت اپلیکیشن Sora را برای iOS معرفی کرده است. این برنامه امکان ساخت و بازترکیب ویدئوهای کوتاه، مرور محتوای ساختهشده توسط جامعه کاربری در یک فید قابل تنظیم، و حضور در صحنههای تولیدشده از طریق قابلیت Cameos را فراهم میکند. این بخش نیازمند یک فرآیند تأیید کوتاه برای اطمینان از کنترل و رضایت کاربران است و گزینههای کامل برای حریم خصوصی و حذف محتوا را شامل میشود.
OpenAI اپلیکیشن Sora را با رویکرد خلقمحور و نه درگیرسازی حداکثری طراحی کرده است. فید پیشفرض بیشتر محتوای افرادی که دنبال میکنید و مطالب الهامبخش برای خلق محتوای جدید را نمایش میدهد و تمرکزی بر افزایش زمان استفاده ندارد. حسابهای کاربری نوجوان محدودیت روزانه برای مشاهدهی فید دارند و اجازهی محدودتری برای cameo خواهند داشت. همچنین، والدین میتوانند از طریق ChatGPT تنظیمات مدیریتی مانند غیرفعالسازی شخصیسازی الگوریتمی یا محدود کردن اسکرول بینهایت را اعمال کنند. این شرکت همچنین تیم نظارت انسانی خود را برای مقابله با آزار و سوءاستفادهها گسترش میدهد.
Sora 2 امروز در آمریکا و کانادا عرضه شده و بهتدریج به دیگر کشورها گسترش مییابد. این مدل در ابتدا رایگان ارائه میشود که به توان پردازشی وابسته است. کاربران ChatGPT Pro میتوانند زودتر از طریق ChatGPT به نسخه Sora 2 Pro با کیفیت بالاتر دسترسی داشته باشند و این قابلیت بهزودی در اپلیکیشن Sora هم فعال خواهد شد. همچنین، نسخهی API برای استفاده گستردهتر در آینده منتشر خواهد شد. محتوای تولیدشده با Sora 1 Turbo نیز همچنان در کتابخانه کاربران باقی خواهد ماند.
سازنده Sora 2 را گامی مهم به سوی توسعهی شبیهسازهای همهمنظورهی جهان و در نهایت رباتیک پیشرفته میداند. این شرکت معتقد است که پیشرفت در مدلهای ویدئومحور نه تنها ابزارهای خلاقانهی بهتری فراهم میکند، بلکه مسیری به سمت سامانه هایی است که میتوانند جهان فیزیکی را بهتر درک کرده و حتی در آن تعامل و فعالیت کنند.



