Алгоритм навчили передбачати мелодію на основі невеликого фрагмента.

Розробники з OpenAI створили алгоритм, здатний створювати нові музичні твори з різними інструментами та в різних стилях. Приміром, вона може взяти за основу невеликий фрагмент симфонії Моцарта і самостійно розвинути її далі в стилі джазу. Опис розробки опубліковано в блозі OpenAI, інформує Ukr.Media.

Дослідники в області машинного навчання активно працюють над створенням алгоритмів для створення нової музики. У цій області можна виділити декілька основних напрямів. Частина дослідників займається проблемою нейромережевого синтезу звуків, зокрема і тих, які неможливо створити за допомогою існуючих інструментів. Приміром, досить серйозних результатів в цій області досягла Google з алгоритмом NSynth, який, до речі, потім використовували у проекті нейромережевого синтезатора, доступного для самостійної збірки. Але створення звуків — це другорядне завдання, яке не так важливе без алгоритмів, здатних складати повноцінні музичні твори з цими звуками.

Розробники з OpenAI представили алгоритм MuseNet, здатний створювати нові композиції в певних стилях і з певними інструментами з нуля або розвивати фрагмент вже існуючої композиції. MuseNet схожий на алгоритм GPT-2, представлений OpenAI в лютому, і здатний створювати осмислені тексти на основі невеликих фрагментів, наприклад, заголовків новин. В основі обох алгоритмів лежить метод навчання без вчителя, при якому нейромережа отримує безліч послідовностей даних і вчиться передбачувати наступний елемент послідовності. Продемонструвавши успішність такого підходу на текстах, дослідники з OpenAI застосували цей підхід для музики.

В якості даних для навчання вони відібрали безліч композицій у різних музичних стилях, представлених у вигляді MIDI-файлів. Їх розробники представили у вигляді токенів, кожен з яких містить в собі інформацію про висоту, гучність і інструмент, для мінімального відрізка часу. Під час навчання нейромережа пророкувала наступний токен на підставі набору попередніх, маючи в пам'яті дані про 4096 токенів. Дослідники візуалізували вивчене подання нейромережі про семантичну близькість музичних стилів за допомогою алгоритму t-SNE.

Під час створення музики алгоритм використовує заданий стиль і інструменти для створення нової мелодії довжиною до чотирьох хвилин на основі невеликого відрізка або «з нуля». Крім досить якісних результатів, MuseNet відрізняється від попередніх підходів до створення музики нейромережами тим, що одна модель здатна працювати в різних музичних стилях, не вимагаючи створення окремих моделей. Розробники створили браузерну версію генератора, в якому користувач може керувати створюваною нейромережею музикою і слухати її. Генератор буде доступний до 12 травня, після чого розробники використовують дані, отримані від користувачів, для доопрацювання алгоритму і пізніше опублікують код алгоритму і навчену модель.

У минулому році дослідники з Facebook розробили нейромережу, здатну перетворювати існуючу в нову композицію, виконану в іншому стилі, жанрі та з використанням інших інструментів. В основі роботи нейромережі лежить кодування вихідного запису у високорівневе представлення і подальше декодування у новий запис, використовуючи відповідний декодувальник для певного стилю.