یک عکس بده یک کلیپ تحویل بگیر – هوش مصنوعی جدید گوگل

هوش مصنوعی در حال حاظر با سرعت زیادی در حال پیشرفت است و در آینده نزدیک تحولات بزرگی را در دنیا رقم خواهد زد!

دانشمندان گوگل اوایل هفته‌ی جاری از ایجاد چهارچوب جدیدی به نام Transframer خبر دادند که می‌تواند براساس ورودی‌های تصویری (حتی یک عکس)، ویدئوهای کوتاه تولید کند. این تکنولوژی جدید روزی می‌تواند راهکارهای رندر سنتی را تقویت کند و به توسعه‌دهندگان اجازه دهد تا محیط‌های مجازی را براساس قابلیت‌های یادگیری ماشینی ایجاد کنند.

به‌نوشته‌ی TechSpot، نام پلتفرم جدید گوگل، یعنی Transframer و به‌نوعی مفهوم آن، به مدل مبتنی‌بر هوش مصنوعی موسوم به Transformer اشاره می‌کند که ابتدا در سال ۲۰۱۷ معرفی شد و درواقع، معماری جدید شبکه‌ی عصبی با قابلیت تولید متن با مدل‌سازی و مقایسه‌ی کلمات دیگر در یک جمله است. این مدل از آن زمان در چهارچوب‌های یادگیری عمیق استاندارد مثل TensorFlow و PyTouch گنجانده شده است.

همان‌طورکه Transformer برای پیش‌بینی خروجی‌های بالقوه از زبان استفاده می‌کند، پلتفرم Transframer از تصاویر زمینه با ویژگی‌های مشابه همراه با حاشیه‌نویسی پرس‌وجو برای ایجاد ویدئوهای کوتاه بهره می‌برد. کلیپ‌های ایجادشده با این فناوری در اطراف تصویر حرکت می‌کنند و با اینکه هیچ داده‌ی هندسی در ورودی تصویر اصلی ارائه نمی‌شود، نماهای پرسپکتیو را خیلی دقیق تجسم می‌کند. درادامه، توییت دیپ‌مایند گوگل را درباره‌ی این پلتفرم مرور می‌کنیم:

Transframer چهارچوب مولد همه‌منظوره‌ای است که می‌تواند بسیاری از کارهای تصویری و ویدئویی را در محیطی فرضی انجام دهد. این فناوری نشان داده است که عملکرد بسیار خوبی در پیش‌بینی ویدئو و ترکیب تصاویر دارد و می‌تواند کلیپ‌های دهه‌ی ۳۰ را فقط با یک عکس تولید کند.

Transframer که از پلتفرم هوش مصنوعی دیپ‌مایند گوگل استفاده می‌کند، با تجزیه‌وتحلیل یک تصویر زمینه، اجزای اصلی داده‌های تصویری موردنیاز برای ساخت ویدئو و عکس‌های اضافه را به‌دست آورد. این سیستم در فرایند تجزیه‌وتحلیل خود سعی می‌کند تا قاب تصویر را شناسایی و از آن برای پیش‌بینی محیط اطراف استفاده کند. در مرحله‌ی‌ بعد، از تصاویر زمینه برای پیش‌بینی بیشتر نحوه‌ی ظاهرشدن عکس از زاویه‌های مختلف استفاده می‌شود.

این سیستم فریم‌های تصویر اضافه را براساس داده‌ها و حاشیه‌نویسی‌ها و هر اطلاعات دیگری که از فریم‌های زمینه دردسترس است، مدل‌سازی می‌کند. چهارچوب جدید گوگل با ارائه‌ی توانایی تولید ویدئوهای دقیق و معقول براساس مجموعه‌ی بسیار محدودی از داده‌ها، نشان‌دهنده‌ی گامی بزرگ در فناوری ویدئو است. Transframer نتایج بسیار امیدوارکننده‌ای نیز در معیارهای مرتبط با ویدئو مثل تقسیم‌بندی معنایی و طبقه‌بندی تصویر و پیش‌بینی‌های جریان نوری نشان داده‌ است.

پیامدهای Transframer برای صنایع مبتنی‌بر ویدئو مثل توسعه‌ی بازی می‌تواند به‌طور بالقوه بسیار زیاد باشد. محیط‌های توسعه‌ی بازی کنونی بر تکنیک‌های رندر اصلی مثل سایه‌زنی، نقشه‌برداری باقت، عمق میدان و ردیابی پرتو متکی هستند. تکنولوژی‌هایی مثل Transframer این قابلیت را دارند که با استفاده از هوش مصنوعی و یادگیری ماشینی، محیط‌های مدنظر بازی‌سازان را با روشی کاملاً جدید ایجاد کنند و باعث صرفه‌جویی درخورتوج در زمان و منابع و تلاش‌های لازم برای ایجاد این محیط‌ها شوند.