Не дуже точно, але схоже!

Американські розробники представили нейромережеву модель Speech2Face. Навчена на кількох мільйонах відео, ця модель вміє відтворювати за спектрограмою мови людини зразкове зображення її обличчя, ґрунтуючись на трьох основних параметрах: стать, раса і вік.

За голосом людини можна з різною точністю визначити деякі її особливості: легко можна визначити стать, трохи складніше (але все одно можливо) — вік, а наявність акценту дає загальне уявлення про національність. В результаті цього можна приблизно уявити, як виглядає людина, але це уявлення не буде достатньо точним, інформує Ukr.Media.

Вчені з Массачусетського технологічного інституту за участю Техена О (Tae-Hyun Oh) вирішили перевірити, чи можна точно відновити зовнішність людини за її голосом з допомогою машинного навчання. Для навчання нейромережі вони використовували датасет AVSpeech, що складається з більше мільйона коротких відео більше ста тисяч різних людей: кожне відео в базі даних поділене на аудіо — та відеодорожку.

Архітектура натренованої нейромережі влаштована таким чином. Спочатку попередньо натренований алгоритм VGG-Face (раніше його використовували для створення моделі, яка вміє визначати сексуальну орієнтацію людини — за умови її бінарности) використовує особливості обличчя людини з кадру на відео для створення зображення обличчя людини в анфас з нейтральним виразом. Інша частина алгоритму відтворює з аудіодоріжки використаного відео (невеликого фрагмента — від 3 до 6 секунд) спектрограму мови і, використовуючи результати з паралельної нейромережі, яка генерує зображення обличчя, дає на вихід зразкове зображення обличчя людини, яка розмовляє на відео.

Точність розробленого алгоритму оцінили за трьома демографічними показниками: вчені порівняли стать, приблизний вік і расу оригінального зображення людини з відео і зображення, відновленого на основі голосу. Незважаючи на те, що авторам вдалося домогтися успіхів у відновленні зображень деяких людей за відео, об'єктивні метрики показують недосконалість розробленої моделі. Зокрема, модель добре вгадує стать людини, але рідко може визначити вік з точністю до десяти років, а також найкраще «малює» людей з європеоїдною та азіатською зовнішністю.

Дослідники відзначили, що метою їх роботи не було точне відновлення зовнішності людини за її голосу; вони зосередилися саме на виділенні і точності деяких важливих параметрів: статі, віку та етнічної приналежності. Саме тому точно показати по голосу, як виглядає людина, поки що не можна: при цьому певних параметрів вистачить для того, щоб створювати, наприклад, анімаційні аватари людини за її голосом. Також вчені відзначають, що їх робота носить також дослідницьку користь: генерація цілих облич на основі голосу допоможе краще вивчити кореляцію із зовнішністю.

Минулого тижня інший алгоритм, який виділяє особливості обличчя з зображення людини, використовували для того, щоб перетворити статичні зображення (не тільки фотографії, але і картини) в анімовані зображення.