Роботи навчилися генерувати майже секунду відео на основі лише одного статичного фотокадру.
Система двох конкуруючих штучних нейронних мереж навчилася цього на базі з приблизно 2 млн відеороликів, викладених у вільний доступ на сервісі Flickr.
Одна із вхідних нейронних мереж робота генерує варіанти продовження, а друга – оцінює їхню правдоподібність. Обидві тренуються один проти одного: перша – намагаючись обдурити другу, друга – шукаючи найменші ознаки обману.
Поки що система працює лише з картинками низького розширення і генерує 32 кадри – менше ніж на секунду екранного часу. Зате вони правильним чином розвивають те, що відбувається на першому вихідному кадрі: літак летить за правдивою траєкторією, дерева гойдаються на вітрі тощо.
Будь-який робот, який діє в реальному світі, повинен мати хоча б базові здатності передбачення майбутнього. Наприклад, якщо ви вирішили сісти, він повинен наблизити вам стілець, а не прибрати з-під вас, – каже Карл Вондрік з Массачусетського технологічного інституту.
Розробники планують представити свою систему на конференції, яка пройде в Іспанії на початку грудня.