Китайські дослідники розробили алгоритм на базі згорткових нейромереж, здатний створювати якісну піксельну графіку із звичайних намальованих зображень, а також відновлювати згладжене зображення з піксельної графіки. Розробники застосували метод навчання без вчителя, завдяки чому їм не довелося вручну створювати для навчання пари звичайних і піксельних зображень, інформує UkrMedia.
Піксельна графіка, також відома як піксель-арт, яка зародилася у 1970-х роках як спосіб відтворити реальні або вигадані об'єкти на моніторах з низьким дозволом. Незважаючи на те, що на сьогоднішній день дозвіл розширення моніторів становить мільйони пікселів, і вони здатні відображати вкрай реалістичну 3D-графіку, піксельна графіка залишилася досить популярною і використовується, наприклад, у багатьох сучасних відеоіграх.
Зазвичай таку графіку доводиться створювати вручну на рівні окремих пікселів. Якщо малюнок заснований на реальному зображенні, художникові необхідно не просто зменшити його дозвіл, а переробити, залишивши глобальну структуру об'єкта і лише важливі деталі. Саме через це створення піксельної графіки вимагає багато часу і зусиль, і деякі дослідники займаються створенням алгоритмів, здатних автоматизувати цей процес.
Дослідники під керівництвом Тянь-Цзінь Вонґа (Tien-Tsin Wong) з Китайського університету Гонконгу створили алгоритм, здатний створювати якісну піксельну графіку, що нагадує роботу справжніх художників. Алгоритм складається з трьох згорткових нейромереж і працює у двох напрямках. На вході він отримує вихідне зображення у високому дозволі, володіє великою кількістю деталей. Це зображення подається на нейромережі GridNet, яка створює на його основі попередній набір з трьох зображень з декількома рівнями пікселізації. Результат роботи цієї мережі передається на мережу PixelNet, яка перетворює цей набір зображень в три зображення, виконаних в стилі піксельної графіки. В кінці роботи алгоритму піксельні зображення передаються на мережу DepixelNet, яка ідентична PixelNet за будовою, але виконує зворотну функцію - створює згладжене зображення, що нагадує оригінал.
Розробники створили кілька функцій, що зв'язують різні підмережі і дозволяють мінімізувати відмінність структури і кольорів на зображеннях, отриманих на різних етапах роботи алгоритму.
Одна з головних проблем при навчанні алгоритму полягала в складності створення набору навчальних пар, які складаються із звичайного і піксельного зображення, оскільки малювання піксельної графіки вимагає багато часу і зусиль. Натомість дослідники створили два датасета, що складаються з 900 звичайних намальованих зображень та інших 900 зображень в стилі піксель-арт. Під час навчання алгоритм навчався в обох напрямках - створення піксельної графіки зі звичайних зображень і навпаки. В результаті розробникам вдалося навчити алгоритм створювати з довільного намальованого зображення якісну піксельну графіку, яка за рівнем промальовування перевершує результати робіт інших алгоритмів.
Крім малювання піксельної графіки нейромережі досягли успіху і в створенні реалістичних картин, виконаних у класичних стилях. Приміром, вони вміють перетворювати примітивні зображення картин, що нагадують стиль відомих художників і навіть поєднувати в одній згенерованій картині відразу декілька стилів. Крім того, деякі з них після навчання на безлічі реальних картин здатні не просто перетворювати фотографії в картини, але і створювати оригінальні твори мистецтва.