Литмир - Электронная Библиотека
Содержание  
A
A

В начале 2020 г. на свет появился Pop Music Transformer, описанный в статье Ю-Сян Хуана и И-Сюань Яна под названием «Трансформер для поп-музыки: моделирование на основе тактовых долей [beat-based] и создание выразительных поп-композиций для фортепиано» (Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions)[2971].

Основой данного музыкального трансформера стала популярная модель для моделирования естественного языка под названием Transformer-XL. В качестве обучающего датасета был использован набор из 775 фортепианных композиций. Изюминкой модели стало новое представление музыкальных данных, получившее название REMI (REvamped MIdi-derived events, Скорректированные события, полученные из MIDI-представления). MIDI (Musical Instrument Digital Interface, Цифровой интерфейс музыкальных инструментов) — стандартный формат для обмена данными между электронными музыкальными инструментами. Музыка в формате MIDI представлена в виде последовательности событий [events], которыми могут быть нажатия клавиш, выбор тембра, темпа, тональности и так далее.

Основная идея REMI заключается в том, чтобы в явном виде добавить в представление информацию о начале каждого такта и его долей. Получив на вход информацию о временной сетке произведения в явном виде, трансформер, как оказалось, способен обучаться гораздо эффективнее. К сожалению, в ходе эксперимента по оценке качества музыки авторы исследования сравнивали свои результаты только с результатами различных вариантов обычного музыкального трансформера (который им весьма убедительно удалось превзойти).

В целом наиболее продвинутой, основанной на трансформерах генеративной моделью для музыки является MuseNet от OpenAI. Её архитектура основана на тех же принципах, что и текстовые генеративные модели GPT-2 и GPT-3 (в MuseNet, как и в GPT-3, используются блоки разреженного трансформера). Длина контекста 72-слойной модели составляет 4096 токенов. По примерным прикидкам, в MuseNet должно быть около 2–3 млрд весов.

Для обучения модели был создан огромный датасет MIDI-файлов, в который вошли коллекции classicalarchives.com и bitmidi.com, датасет MAESTRO[2972], а также ряд тематических и этнических сборников MIDI-музыки, собранных авторами в интернете. Этот датасет был затем дополнительно аугментирован путём небольших изменений темпа. Также в модель был включён специальный механизм, предназначенный для снижения вероятности прямого плагиата, когда модель просто воспроизводит достаточно длинные фрагменты, представленные в обучающей выборке. К сожалению, хотя MuseNet и можно воспользоваться онлайн, информация о самой модели в настоящее время ограничивается лишь популярным постом[2973] в блоге OpenAI, то есть препринт исследования не был опубликован. Будем надеяться, что OpenAI рано или поздно поделится с сообществом деталями своих экспериментов.

В целом генеративные музыкальные модели, работающие на уровне нотного текста, стали в наши дни помощниками композиторов, а иногда способны и на создание вполне самостоятельных произведений на уровне лучших композиторов. В 2019 г. впервые в истории был подписан контракт между крупным музыкальным лейблом (Warner Music) и компанией, создавшей систему для алгоритмической генерации музыки — Endel[2974].

Семейство генеративных музыкальных моделей SymFormer, работающих в нотном домене, создано у нас в Управлении экспериментальных систем машинного обучения департамента SberDevices «Сбера» командой под руководством Алексея Минина[2975], [2976]. С творчеством этих нейросетей можно познакомиться в сервисе «Звук», где оно размещается от имени нейросетевого ансамбля Aiphoria[2977].

Концерт, где генеративная нейросеть впервые в мире стала солистом и импровизатором, состоялся в рамках культурной программы Восточного экономического форума (ВЭФ) в сентябре 2023 г. Это выступление стало результатом нашей совместной работы с известным российским музыкантом и композитором Петром Дрангой[2978].

Но нельзя ли добиться столь же впечатляющих результатов, работая с акустическими данными? В конце концов, мы же упоминали, что модель WaveNet, обученная на записях фортепианных концертов, способна на самостоятельную импровизацию? Почему бы не избавиться раз и навсегда от всех этих библиотек инструментов и математически точного исполнения нот, лишённого индивидуального стиля исполнителя? Быть может, удастся замахнуться и на большее? Быть может, такая модель сможет заодно воспроизводить и человеческое пение — чем голос не музыкальный инструмент, пусть и сложный? Так или иначе, всё многообразие звуков, составляющих в сумме музыку, сводится к колебаниям среды, которые можно описать в виде наборов чисел. С вычислительной точки зрения это, на первый взгляд, звучит совершенно фантастически. Однако в мире нашлись исследователи, которых это не испугало. Речь идёт о создателях модели Jukebox. В конце апреля 2020 г. в блоге компании OpenAI появилась статья[2979], описывающая доселе невиданную модель. Статья содержала ссылку на препринт исследования под названием «Jukebox: генеративная модель для музыки» (Jukebox: A Generative Model for Music)[2980], а также популярное объяснение принципов работы модели и примеры сгенерированных музыкальных произведений.

Jukebox получает на вход информацию о жанре, исполнителе, а также текст песни и генерирует на их основе готовое музыкальное произведение. Можно сказать, что Jukebox самостоятельно сочиняет и исполняет музыкальное произведение с заданным текстом в стиле заданного исполнителя. Выглядит как магия, не правда ли?

Типичная песня продолжительностью четыре минуты в CD-качестве (44 кГц, 16 бит) представляет собой последовательность из более чем 10 млн элементов. Современные модели на основе трансформеров способны «видеть» контекст длиною всего в несколько тысяч элементов. Этого совершенно недостаточно для того, чтобы «постичь» высокоуровневую музыкальную семантику. Одним из наиболее популярных инструментов глубокого обучения, предназначенных для борьбы с «проклятием размерности», являются автокодировщики. Автокодировщик может сжать оригинальный звук в пространство меньшей размерности, отбрасывая некоторые несущественные для восприятия части информации. Затем можно обучить модель генерировать звук в этом сжатом пространстве, а затем «развернуть» полученное латентное представление в исходное звуковое пространство при помощи декодера. В Jukebox роль автокодировщика выполняет усовершенствованная версия модели VQ-VAE. При этом используется сразу три уровня кодирования, которые сжимают исходный звук в 8, 32 и 128 раз соответственно. В зависимости от степени сжатия восстановленный звук становится всё более и более шумным, но даже сжатый в 128 раз сигнал сохраняет информацию о высоте тона, тембре и громкости звука.

Каждый уровень VQ-VAE кодирует вход независимо. Кодирование нижнего уровня (8 : 1) обеспечивает реконструкцию самого высокого качества, в то время как кодирование верхнего уровня (128 : 1) сохраняет только важную музыкальную информацию.

Каждому уровню VQ-VAE соответствует нейронная сеть для прогнозирования распределения вероятностей следующего элемента последовательности. Эти 72-слойные сети основаны на упрощённой версии блоков разреженного трансформера. Длина контекста каждой из сетей составляет 8192 элемента, что составляет для каждого из уровней 24 секунды, 6 секунд и 1,5 секунды соответственно. Модели более низкого уровня позволяют детализировать звук, внося в него более низкоуровневую структуру.

вернуться

2971

Huang Y.-S., Yang Y.-H. (2020). Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions // https://arxiv.org/abs/2002.00212

вернуться

2972

Hawthorne C., Stasyuk A., Roberts A., Simon I., Huang C.-Z. A., Dieleman S., Elsen E., Engel J., Eck D. (2019). Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset / In International Conference on Learning Representations // https://openreview.net/forum?id=r1lYRjC9F7

вернуться

2973

Payne C. M. (2019). MuseNet / OpenAI blog, April 25, 2019 // https://openai.com/blog/musenet/

вернуться

2974

Deahl D. (2019). Warner music signed an algorithm to a record deal — what happens next? / The Verge, Mar 27, 2019 // https://www.theverge.com/2019/3/27/18283084/warner-music-algorithm-signed-ambient-music-endel

вернуться

2975

Минин А. (2022). Маэстро: как виртуальные ассистенты Салют превращают текст в музыку / Хабр, 23 декабря 2022 // https://habr.com/ru/companies/sberdevices/articles/707138/

вернуться

2976

Минин А. (2021). SymFormer: как мы написали музыку с помощью трансформеров и вариационных автоэнкодеров / Хабр, 25 ноября 2021 // https://habr.com/ru/companies/sberdevices/articles/591441/

вернуться

2977

Aiphoria (2024) // https://zvuk.com/artist/211304339

вернуться

2978

ИИ впервые в мире солировал на концерте ВЭФ во Владивостоке // https://ria.ru/20230910/kontsert-1895341104.html

вернуться

2979

Dhariwal P., Jun H., Payne C. M., Kim J. W., Radford A., Sutskever I. (2020). Jukebox / OpenAI blog, April 30, 2020 // https://openai.com/blog/jukebox/

вернуться

2980

Dhariwal P., Jun H., Payne C., Kim J. W., Radford A., Sutskever I. (2020). Jukebox: A Generative Model for Music // https://arxiv.org/abs/2005.00341

299
{"b":"936964","o":1}