اگرچه تأثیر نسبتاً ناچیز است، اما این سیستم نگاهی اجمالی از آنچه در آینده برای هوش مصنوعی مولد میآید ارائه میدهد، هوش مصنوعی گام به گام واضح بعدی متن به تصویر که امسال هیجان زیادی را ایجاد کرده است.
اعلام متا Make-A-Video که هنوز در دسترس عموم قرار نگرفته است، احتمالاً سایر آزمایشگاه های هوش مصنوعی را به انتشار نسخه های خود سوق خواهد داد. همچنین سوالات اخلاقی بزرگی را مطرح می کند.
تنها در ماه گذشته، آزمایشگاه OpenAI AI جدیدترین سیستم هوش مصنوعی متن به تصویر DALL-E را در دسترس همه قرار داد، AI Startup Stability. AI Stable Diffusion، یک سیستم تبدیل متن به تصویر منبع باز را راه اندازی کرد.
اما هوش مصنوعی برای تبدیل متن به ویدیو با چالش های بزرگتری همراه است. اول، این مدل ها به قدرت محاسباتی زیادی نیاز دارند. این یک افزایش محاسباتی بزرگتر از مدل های بزرگ AI متن به تصویر است که از میلیون ها تصویر برای آموزش استفاده می کنند، زیرا جمع آوری تنها یک ویدیوی کوتاه به صدها تصویر نیاز دارد. این بدان معناست که تنها شرکت های بزرگ فناوری می توانند این سیستم ها را برای آینده قابل پیش بینی بسازند. همچنین آموزش آنها دشوارتر است، زیرا هیچ مجموعه داده بزرگی از ویدیوهای با کیفیت بالا همراه با متن وجود ندارد.
برای دور زدن این موضوع، متا دادهها را از سه مجموعه داده منبع باز تصویر و ویدئو ترکیب کرد تا مدل خود را آموزش دهد. مجموعه دادههای متن-تصویر استاندارد برای تصاویر ثابت برچسبگذاری شده به هوش مصنوعی کمک میکند تا تشخیص دهد که اشیاء چه نامیده میشوند و چه شکلی هستند. و یک پایگاه داده از ویدئوها به او کمک کرد تا بفهمد این چیزها چگونه قرار است در جهان حرکت کنند. ترکیبی از دو رویکرد Make-A-Video، که در یک مقاله تحقیقاتی بدون بازبینی که امروز منتشر شده است، به ایجاد ویدئوها از متن در مقیاس کمک کرده است.
Tanmay Gupta، دانشمند تحقیقات بینایی کامپیوتر در موسسه آلن برای هوش مصنوعی، می گوید که نتایج متا امیدوارکننده است. ویدئوهای به اشتراک گذاشته شده نشان می دهد که این مدل می تواند در حین چرخش دوربین، اشکال سه بعدی را ثبت کند. این مدل همچنین ایده ای از عمق و درک نور دارد. گوپتا میگوید برخی از جزئیات و حرکات به شکلی شایسته و متقاعدکننده انجام میشوند.
با این حال، “جای زیادی برای بهبود جامعه تحقیقاتی وجود دارد، به خصوص اگر قرار باشد از این سیستم ها برای ویرایش ویدئو و ایجاد محتوای حرفه ای استفاده شود.” بهویژه، مدلسازی تعاملات پیچیده بین اشیا هنوز دشوار است.
در ویدئویی که با ادعای “طراحی یک هنرمند از قلم مو روی بوم” ایجاد شده است، قلم مو روی بوم حرکت می کند، اما ضربه های روی بوم واقع بینانه نیست. گوپتا میگوید: «دوست دارم ببینم این مدلها در ایجاد زنجیرهای از تعاملات موفق میشوند، مانند «مرد کتابی را از قفسه برمیدارد، عینکش را میزند و مینشیند تا آن را بخواند و در حالی که یک فنجان قهوه مینوشد».