Литмир - Электронная Библиотека
Содержание  
A
A

В 2017 г. появилась интересная альтернативная модель на основе генеративных состязательных сетей — MidiNet[2953]. В ней авторы использовали в качестве генератора и дискриминатора свёрточные сети (модель была создана под впечатлением от DCGAN). К сожалению, авторы этой работы тоже избежали сравнения своих результатов с музыкой, сочинённой людьми, однако в небольшом эксперименте показали превосходство своей модели над более ранней моделью — MelodyRNN, созданной специалистами исследовательской лаборатории Google под названием Magenta. Основой MelodyRNN были LSTM-сети, причём модель существовала в двух вариантах (LookbackRNN и AttentionRNN), принципиальным отличием второго было использование в нём механизма внимания[2954].

В общем, во второй половине 2010-х гг. было создано немало генеративных моделей, оперирующих музыкой на уровне нот или аккордов и использующих техники, характерные для эпохи первой революции в обработке естественного языка. Помимо упомянутых выше, среди них можно отметить также Song from PI[2955], MusicVAE[2956], BALSTM[2957], MuseGAN[2958], HRNN[2959], PerformanceRNN[2960] и BachProp[2961].

В 2017 г. уже знакомые нам Алексей Тихонов и Иван Ямщиков использовали вариационный рекуррентный автокодировщик для генерации музыки в стиле знаменитого русского композитора Александра Скрябина. Создание музыкальных композиций в стиле Скрябина было приурочено ко дню 175-летия композитора. Треки, сгенерированные нейросетью, свела вместе Мария Чернова, композитор и эксперт по творчеству Скрябина. 30 мая 2017 г., на открытии конференции YaC 2017, получившееся произведение исполнил камерный оркестр в составе скрипки, арфы и терменвокса, на котором играл Пётр Термен — правнук создателя этого музыкального инструмента Льва Термена[2962], [2963], [2964].

С подробным описанием модели, лежавшей в основе этого эксперимента, можно ознакомиться в статье «Генерация музыки при помощи вариационного рекуррентного автокодировщика, поддержанного историей» (Music generation with variational recurrent autoencoder supported by history)[2965], опубликованной в 2017 г. Модель, предложенная Тихоновым и Ямщиковым, как можно догадаться из названия их статьи, получила название VRASH. Это довольно любопытная архитектура, построенная на основе парадигмы «кодировщик — декодер». При этом в основе моделей кодировщика и декодера лежит четырёхслойная рекуррентная сеть‑хайвей. В отличие от классического вариационного автокодировщика VRASH использует предыдущие выходы в качестве дополнительных входов. Таким образом, можно сказать, VRASH «слушает» ноты, которые сгенерировал, и использует их как дополнительный «исторический» вход.

В начале 2019 г. модель, созданная Тихоновым и Ямщиковым, стала соавтором композитора Кузьмы Бодрова при создании пьесы для альта с оркестром. «Я получил около двадцати с чем-то файлов от нейросети [компании] Яндекс, — говорит композитор. — Это были мелодические линии, изложенные на фортепиано. Как ни странно, в них были интересные зёрна, за которые цепляется слух. Но они были не оформлены. Это шло единым бессмысленным потоком, как бывает речь у нездоровых людей. Хотя возникали иногда ритмические образования в этом потоке. Я взял оттуда несколько таких тем и немножко отшлифовал их. Затем продолжил более осознанное выстраивание формы, сделал оркестровку и вывел партию солирующего альта. Получилось такое произведение». Даже нейросеть, которая неспособна в промышленных объёмах производить музыкальные шедевры, может генерировать музыкальный материал, помогающий авторам в поисках идей. Бодров говорит об этом так: «Композиторы, когда начинают сочинять, обычно сталкиваются с проблемой: за что зацепиться, за какую ниточку дёрнуть, чтобы найти мелодический оборот, либо аккорд, либо тембр. И это найденное начинает, как бы, обрастать. В этом поиске всегда состоит трудность. А в этом случае было легче. Эти зёрна уже были заданы. Я получил кирпичики, из которых начал строить здание. Это можно назвать соавторством, потому что мелодические линии были предложены не мной, а нейронной сетью»[2966].

Среди отечественных исследований, посвящённых генерации музыки при помощи нейросетевых моделей, следует отметить также выпускную квалификационную работу Сергея Иванова, выполненную им на факультете вычислительной математики и кибернетики МГУ под руководством профессора Дьяконова[2967]. Предлагаемая автором модель, обученная на подборке произведений с сайта classicalarchives.com, основана на комбинации LSTM-сети, оснащённой механизмом внимания, с RBM-сетью (ограниченной машиной Больцмана). Эта модель показала неплохой результат на соревнованиях по созданию музыки при помощи ИИ [AI‑generated Music Challenge], организованных в 2017 г. на платформе crowdAI Федеральной политехнической школой Лозанны (École Polytechnique Fédérale de Lausanne)[2968]. К сожалению, оценка сгенерированной музыки в ходе соревнований была основана только на автоматизированной метрике.

Вполне закономерным результатом второй революции в обработке естественного языка было появление музыкальных генеративных моделей, основанных на трансформерах. Первой такой моделью стало новое творение Magenta (кстати говоря, среди ведущих исследователей этой лаборатории — уже знакомый нам пионер нейросетевой генеративной музыки Дуглас Экк), модель под незатейливым названием «Музыкальный трансформер» (Music Transformer)[2969]. Авторы использовали датасет классической фортепианной музыки под названием Piano-e-Competition, содержащий около 1100 музыкальных произведений[2970]. В ходе эксперимента по оценке качества музыкальных произведений создатели музыкального трансформера использовали по десять мелодий, созданных двумя версиями модели (с двумя разными типами механизма внимания — с абсолютным и относительным способом кодирования позиции токена), десять мелодий, созданных моделью на основе LSTM, и десять мелодий, написанных людьми. В эксперименте участвовало, к сожалению, всего три оценщика, в итоге было осуществлено 160 попарных сравнений с использованием шкалы Ликерта, включающей пять возможных значений оценки степени согласия с некоторым утверждением (в данном случае с утверждением, что композиция A является более мелодичной [musical], чем композиция B): полностью не согласен, не согласен, где-то посередине, согласен, полностью согласен. В итоге лучшей из двух версий трансформера удалось победить LSTM (52 победы в сравнениях против 39), с небольшим отставанием от музыки, сочинённой людьми (61 победа в сравнениях). Согласно подсчётам авторов (включавших среди прочего поправку на множественную проверку гипотез, что является признаком весьма качественного статистического исследования; такая проверка позволяет учесть возможность того, что статистически значимый результат был получен случайно — лишь потому, что исследователи перебрали очень много гипотез), превосходство трансформерной модели с относительным кодированием позиции токена над моделью с абсолютным кодированием позиции токена оказалось статистически значимым, однако статистически значимое превосходство над LSTM ей показать не удалось, что неудивительно при таких скромных объёмах выборки. Конечно, в исследованиях, претендующих на уровень SOTA, хотелось бы видеть эксперименты с большим количеством оценщиков.

вернуться

2953

Yang L.-C., Chou S.-Y., Yang Y.-H. (2017). MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation // https://arxiv.org/abs/1703.10847

вернуться

2954

Waite E. (2016). Generating Long-Term Structure in Songs and Stories // https://magenta.tensorflow.org/2016/07/15/lookback-rnn-attention-rnn/

вернуться

2955

Chu H., Urtasun R., Fidler S. (2016). Song From PI: A Musically Plausible Network for Pop Music Generation // https://arxiv.org/abs/1611.03477

вернуться

2956

Roberts A., Engel J., Raffel C., Hawthorne C., Eck D. (2018). A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music // https://arxiv.org/abs/1803.05428

вернуться

2957

Kotecha N., Young P. (2018). Generating Music using an LSTM Network // https://arxiv.org/abs/1804.07300

вернуться

2958

Dong H.-W., Hsiao W.-Y., Yang L.-C., Yang Y.-H. (2017). MuseGAN: Symbolic-domain music generation and accompaniment with multitrack sequential generative adversarial networks // https://arxiv.org/abs/1709.06298

вернуться

2959

Wu J., Hu C., Wang Y., Hu X., Zhu J. (2017). A Hierarchical Recurrent Neural Network for Symbolic Melody Generation // https://arxiv.org/abs/1712.05274

вернуться

2960

Simon I., Oore S. (2017). Performance RNN: Generating music with expressive timing and dynamics // https://magenta.tensorflow.org/performance-rnn

вернуться

2961

Colombo F., Gerstner W. (2018). BachProp: Learning to Compose Music in Multiple Styles // https://arxiv.org/abs/1802.05162

вернуться

2962

Нейросеть Яндекса создала музыку в стиле Скрябина (2017) / Викиновости, 30 мая 2017 // https://ru.wikinews.org/wiki/Нейросеть_Яндекса_создала_музыку_в_стиле_Скрябина

вернуться

2963

Камерный оркестр исполнил музыку, написанную нейросетью «Яндекса» под Скрябина (2017) / Meduza, 30 мая 2017 // https://meduza.io/shapito/2017/05/30/kamernyy-orkestr-ispolnil-muzyku-napisannuyu-neyrosetyu-yandeksa-pod-skryabina

вернуться

2964

Yamshchikov I. P., Tikhonov A. (2018). I Feel You: What makes algorithmic experience personal? / EVA Copenhagen 2018, Politics of the Machines — Art and After, Aalborg University, Copenhagen, Denmark, 15—17 May 2018 // https://doi.org/10.14236/ewic/EVAC18.32

вернуться

2965

Yamshchikov I. P., Tikhonov A. (2017). Music generation with variational recurrent autoencoder supported by history // https://arxiv.org/abs/1705.05458

вернуться

2966

Ализар А. (2019). Нейросеть «Яндекса» стала соавтором пьесы для альта с оркестром / Хабр, 22 февраля // https://habr.com/ru/post/441286/

вернуться

2967

Иванов С. М. (2018). Нейросетевая Генерация Музыки. Выпускная квалификационная работа. Московский государственный университет имени М.В. Ломоносова. Факультет вычислительной математики и кибернетики. Кафедра математических методов прогнозирования // http://www.machinelearning.ru/wiki/images/2/2c/2018_417_IvanovSM.pdf

вернуться

2968

AI-generated music challenge // https://www.crowdai.org/challenges/ai-generated-music-challenge

вернуться

2969

Huang C.-Z. A., Vaswani A., Uszkoreit J., Shazeer N., Simon I., Hawthorne C., Dai A. M., Hoffman M. D., Dinculescu M., Eck D. (2018). Music Transformer // https://arxiv.org/abs/1809.04281

вернуться

2970

Piano-e-Competition dataset (competition history): http://www.piano-e-competition.com/

298
{"b":"936964","o":1}