هوش مصنوعی جدید در متا می تواند پیام های متنی را به ویدیو تبدیل کند

اگرچه تأثیر نسبتاً ناچیز است، اما این سیستم نگاهی اجمالی از آنچه در آینده برای هوش مصنوعی مولد می‌آید ارائه می‌دهد، هوش مصنوعی گام به گام واضح بعدی متن به تصویر که امسال هیجان زیادی را ایجاد کرده است.

اعلام متا Make-A-Video که هنوز در دسترس عموم قرار نگرفته است، احتمالاً سایر آزمایشگاه های هوش مصنوعی را به انتشار نسخه های خود سوق خواهد داد. همچنین سوالات اخلاقی بزرگی را مطرح می کند.

تنها در ماه گذشته، آزمایشگاه OpenAI AI جدیدترین سیستم هوش مصنوعی متن به تصویر DALL-E را در دسترس همه قرار داد، AI Startup Stability. AI Stable Diffusion، یک سیستم تبدیل متن به تصویر منبع باز را راه اندازی کرد.

اما هوش مصنوعی برای تبدیل متن به ویدیو با چالش های بزرگتری همراه است. اول، این مدل ها به قدرت محاسباتی زیادی نیاز دارند. این یک افزایش محاسباتی بزرگتر از مدل های بزرگ AI متن به تصویر است که از میلیون ها تصویر برای آموزش استفاده می کنند، زیرا جمع آوری تنها یک ویدیوی کوتاه به صدها تصویر نیاز دارد. این بدان معناست که تنها شرکت های بزرگ فناوری می توانند این سیستم ها را برای آینده قابل پیش بینی بسازند. همچنین آموزش آنها دشوارتر است، زیرا هیچ مجموعه داده بزرگی از ویدیوهای با کیفیت بالا همراه با متن وجود ندارد.

برای دور زدن این موضوع، متا داده‌ها را از سه مجموعه داده منبع باز تصویر و ویدئو ترکیب کرد تا مدل خود را آموزش دهد. مجموعه داده‌های متن-تصویر استاندارد برای تصاویر ثابت برچسب‌گذاری شده به هوش مصنوعی کمک می‌کند تا تشخیص دهد که اشیاء چه نامیده می‌شوند و چه شکلی هستند. و یک پایگاه داده از ویدئوها به او کمک کرد تا بفهمد این چیزها چگونه قرار است در جهان حرکت کنند. ترکیبی از دو رویکرد Make-A-Video، که در یک مقاله تحقیقاتی بدون بازبینی که امروز منتشر شده است، به ایجاد ویدئوها از متن در مقیاس کمک کرده است.

Tanmay Gupta، دانشمند تحقیقات بینایی کامپیوتر در موسسه آلن برای هوش مصنوعی، می گوید که نتایج متا امیدوارکننده است. ویدئوهای به اشتراک گذاشته شده نشان می دهد که این مدل می تواند در حین چرخش دوربین، اشکال سه بعدی را ثبت کند. این مدل همچنین ایده ای از عمق و درک نور دارد. گوپتا می‌گوید برخی از جزئیات و حرکات به شکلی شایسته و متقاعدکننده انجام می‌شوند.

با این حال، “جای زیادی برای بهبود جامعه تحقیقاتی وجود دارد، به خصوص اگر قرار باشد از این سیستم ها برای ویرایش ویدئو و ایجاد محتوای حرفه ای استفاده شود.” به‌ویژه، مدل‌سازی تعاملات پیچیده بین اشیا هنوز دشوار است.

در ویدئویی که با ادعای “طراحی یک هنرمند از قلم مو روی بوم” ایجاد شده است، قلم مو روی بوم حرکت می کند، اما ضربه های روی بوم واقع بینانه نیست. گوپتا می‌گوید: «دوست دارم ببینم این مدل‌ها در ایجاد زنجیره‌ای از تعاملات موفق می‌شوند، مانند «مرد کتابی را از قفسه برمی‌دارد، عینکش را می‌زند و می‌نشیند تا آن را بخواند و در حالی که یک فنجان قهوه می‌نوشد».

Mara Gomez

کارشناس توییتر متعصب موسیقی. جنرال الکل ماون. علاقه مندان به تلویزیون

تماس با ما