اُپِن اِی آی، "سُرا" را منتشر کرد؛ یک مدل هوش مصنوعی نسل ویدیویی که قادر به تولید فیلمی واقع گرایانه
و بالاتر از همه ی این ها، مطابق با رفتار فیزیکی دنیای واقعی ماست. ویدیوهای
تولید شده توسط سُرا
نه
تنها به دلیل کیفیت تصاویر، بلکه به این دلیل که به نظر می رسد این ابزار نحوه بازْتولید
شخصیت هایی که حرکت می کنند و اعمالی را با رعایت دقیق مناسبات دنیای فیزیکی انجام
می دهند، درک می کند.
طبق
گفته اُپِن اِی آی، سُرا یک گام اساسی در تکامل هوش مصنوعی مولد
است، چرا که با "آموزش هوش مصنوعی نحوه درک و شبیه سازی دنیای فیزیکی در حال
حرکت" اساسا، تغییر خواهد کرد. نسخه فعلی میتواند مانند
چَت جیْ پیْ تیْ و دال
ای.سه اعلانهای متنی را دریافت و ویدیوهای یک دقیقهای تولیدکند که به صورت بصری
به درخواست های ورودی کاربر پایبند هستند.
اعلانهای متنی باید
دقیق باشند تا ویدیوی تولید شده بتواند تصاویری را که کاربر میخواهد به تصویر
بکشد.. سُرا با تبدیل متن به ویدیو میتواند دستورالعملهای طولانی مانند"دوربین
در اطراف مجموعه بزرگی از تلویزیونهای قدیمی میچرخد که همگی برنامههای مختلف را
نشان میدهندـ فیلمهای علمی تخیلی دهه ۱۹۵۰، فیلمهای ترسناک، اخبار، استاتیک، یک کمدی دهه ۱۹۷۰ و غیره ، در داخل یک گالری موزه
بزرگ در نیویورک قرار داده شده اند" را به فیلم تبدیل کند.
نمونه
ویدیوهای منتشر شده توسط اُپِن
اِی آی به شدت باکیفیت، چشمگیر و تاثیرگذار است.
در یکی از آن ها، شخصیتی شبیه زن در شب و در شهری شبیه توکیو قدم می زند. در یکی
دیگر، ماموت ها در برف می دوند، بدون اینکه ریتم تصویر به هم بخورد و هماهنگی شان
مخدوش گردد. در مورد سوم، سگی از یک طاقچه به پنجره دیگر راه میرود، بدون اینکه
احساس شناور بودن یا پرواز کردنش به مخاطب منتقل شود، فیلم به کیفیت نمایش فیزیکی مبتنی
بر نیروی گرانش که مغز ما انتظار دارد احترام می گذارد.
تکه
فیلم دویدن ماموت ها توسط سُرا در پاسخ به این درخواست تولید شده است:"چند
ماموت پشمی غولپیکر در حال قدم زدن در میان یک علفزار برفی هستند، خز پشمی
بلندشان هنگام راه رفتن به آرامی در باد میوزد، درختان پوشیده از برف و کوههای
پوشیده از برف در دوردست نمایان اند. نور نیمه بعدازظهر با ابرهای تند و خورشید
بلند در فاصله دور، درخشش گرمی ایجاد میکند، نمای نزدیک دوربین برای تصویر کردن
این پستانداران پشمالوی بزرگ با عکاسی زیبا و عمق میدان خیرهکننده تنظیم می شود".
اُپِن اِی آی همچنین
دستورات متنی مانند "نمای نزدیک از یک کره شیشه ای که یک باغ ذن در آن وجود
دارد" را امتحان کرده است. یک کوتوله کوچک در کره زمین است که باغ ذن را میچرخاند
و الگوهایی را در شنها ایجاد میکند" و "یک ویدیوی جشن سال نو قمری چینی
با اژدهای چینی." سُرا هر دو دستور
را با کلیپهای چند ثانیهای اجرا کرد که میتوانند کیفیتی واقعی را حفظ کنند.
سَمْ آلتْمَن مدیر اُپِن اِی آی حتی برخی از پیام های متنی پیشنهاد شده توسط
کاربران که در ایکس یا همان توییتر سابق به دستش رسیده بود را آزمایش کرد و آنها
را برای دیدن همه آپلود کرد. این مجموعه شامل چند قطعه بی نهایت کوتاه اند یک
مادربزرگ در حالی که نوکی های خانگی را آماده می کند برای مخاطبانش دست تکان می
دهد، دو تا سگ گلدن رتریور بر بلندای کوه
پادکستینگ می کنند، یک نیمه اردکْ نیمه اژدها در حال پرواز به سمت غروب خورشید است
در حالی که یک همستِر با لباس ماجراجویی بر پشتش نشسته و حیواناتی که در یک باغ
وحش در قفس نگه داشته می شوند و در حال نوشخوار جواهرات اند.
علاوه بر تولید ویدیوهای هوش مصنوعی از متن، سُرا میتواند یک تصویر ثابت موجود را به ویدیوهای
متحرک تبدیل کند. این قابلیتی است که مدل تبدیل متن به ویدیو می تواند ارائه دهد،
و اُپِن اِی آی همچنین می گوید که سُرا حتی
می تواند یک ویدیوی موجود را بگیرد و آن را گسترش دهد یا فریم های از دست رفته را
پر کند. همچنین میتواند کل ویدیوها را به یکباره تولید کند یا این ویدیوهای تولید
شده را برای طولانیتر کردن آنها گسترش دهد. اُپِن اِی
آی میگوید: "سُرا
یک مدل انتشار است که با شروع با ویدیویی که شبیه
نویز استاتیک است، یک ویدیو تولید میکند و به تدریج با حذف نویز در طی مراحل
مختلف، آن را بهبود میبخشد".
مانند
چَت جیْ پیْ تیْ ، سُرا از معماری ترانسفورماتور استفاده میکند
و با شکستن ویدیوها به واحدهای کوچکتری از دادهها به نام تکه ها، از فیلمهایپیشینی
یاد میگیرد، درست شبیه به تجزیته
کلمات تویز جیْ پیْ تیْ در توکنها. سپس ویدئوها با ایجاد یک سری از نویزهای
گرافیکی ایجاد میشوند که مدل متعاقباً با بیش از 50 مرحله تکرارْ فیلم را "نویزْزدایی"
میکند. به لطف سیستم "تکه ها"، این مدل می تواند ویدیوها را در هر وضوحی
ایجاد کند. علاوه بر این، این مدل دارای آیندهنگاری بسیاری از فریمها در یک زمان
است که به آن کمک میکند تا یک موضوع را حتی زمانی که به طور موقت در ویدیوی تولید
شده از دید خارج میشود، ثابت نگه دارد.
در سُرا برای تبدیل متن به ویدیو هنوز حفره هایی برای پر
کردن وجود دارد. اُپِن اِی آی نقاط ضعف مدل خود را تصدیق می کند و برشمرد
که سُرا می تواند درک فیزیک یک صحنه برایش
مشکل باشد یا ممکن است برخی از موارد علت و معلول را کشف نکند. اُپِن
اِی آی میگوید:"بهعنوان
مثال، شخصی ممکن است یک کوکی را گاز بگیرد، اما پس از آن، کوکی ممکن است علامت نیش
زدگی دندان را نداشته باشد. در واقع، سُرا می تواند چپ و راست را با هم مخلوط کند،
همانطور که در ویدئوی تولید شده توسط هوش مصنوعی مردی را می بینیم که در جهت مخالف
روی تردمیل می دود.
دیگر اثرات عجیب قابل توجهی که سُرا
ی اُپِن اِی آی اکنون می تواند
ایجاد کند، ظاهر شدن اشیاء اضافی است که در پیام های متنی ذکر نشده است، مانند
ظاهر شدن خود به خود حیوانات یا افراد. در یکی از ویدئوهای نمونه، توپ بسکتبال حتی
تور حلقه را به آتش می کشد و باعث انفجار آن می شود. سپس ناگهان توپ بسکتبال جدیدی
از آسمان ظاهر می شود و مانند یک شبح از حلقه حلقه عبور می کند. حتی حرکت دوربین
هنوز هم می تواند مشکل باشد و ویدیوی هوش مصنوعی تولید شده را لرزان یا ناپایدار
کند.
برخی از کاربران از اینکه میتوانند
با اُپِن اِی آیِ سُرا
بازی کنند تا ایدههای خود را به واقعیت تبدیل
کنند، هیجانزده هستند، مانند بازسازی یک قسمت از برنامه تلویزیونی مورد علاقهشان
به طوری که به نفع آنها باشد که آنها میخواهند به پایان برسد. برخی دیگر همچنین
خاطرنشان میکنند که اگر مدل جدید تبدیل متن به ویدیو بهبود یابد و با سرعت فعلی
فناوریهای پیشرفته به حرکت ادامه دهد ـ ممکن است مردم دیگر به خدمات فیلمها و آگهیهای تبلیغاتی مراجعه نکنند زیرا میتوانند
خودشان آنها را بسازند.
نگرانیها در مورد آینده صنعت فیلم و سینما هم آرامْ آرام ظاهر میشود، از جمله
از دست دادن شغل به واسطه ی جایگزینی سُرا با سایر مدلهای تبدیل متن به ویدیو که ممکن است
در آینده به نمایش درآیند، محصولاتی که امکان دارد به صورت کامل در قالب فیلمی که تمام
توسط سُرا تولید شده است منتشز شود .
سُرا در
حال حاضر در دسترس عموم نیست. قبل از انتشار آن در هر محصول اُپِن
اِی آی، این شرکت می خواهد به درستی نگرانی های ایمنی و موارد احتمالی سوء استفاده
از این فناوری را ارزیابی کند.
مدیریت
پشتیبانی و انتشار سُرا در این مورد می گوید:"ما چندین گام مهم ایمنی را قبل
از در دسترس قرار دادن سُرا
در
محصولات اُپِن اِی آی انجام
خواهیم داد". این شرکت یاداوری می کند:"ما با تیمهای قرمز کار میکنیم ـ
متخصصانی در زمینههایی مانند اطلاعات نادرست، محتوای نفرتانگیز و تعصب های نژادی
و جنسی و زبانی ـ که به طور سختگیرانه ای مدل را آزمایش خواهند کرد. ما همچنین در
حال ساخت ابزارهایی برای کمک به شناسایی محتوای گمراهکننده مانند طبقهبندی
تشخیصی هستیم که میتواند تشخیص دهد که یک ویدیو توسط سُرا
چه
زمانی تولید شده است. اگر تمایل داشتیم این مدل را در یکی از محصولات
اُپِن اِی آی مستقر
کنیم، قصد داریم از اَبَرْداده ائتلاف
برای تایید منشا و اصالت محتوا نیز
استفاده کنیم .
برای مشاهده فیلم کامل تولید شده توسط سُرا لینک پی را کلیک کنید:
https://www.youtube.com/watch?v=HK6y8DAPN_0