Лучшие нейросети для создания музыки: 15 сервисов для работы с музыкой

Написание музыки — один из древнейших, но при этом и сложнейших видов творчества. Впрочем, в 2024 году искусственный интеллект упростил и эту задачу. Фразы вроде «Нейросеть написала музыку» уже никого не удивляют, ведь существует множество сервисов, которые генерируют песни по запросу пользователя. О том, как они работают, и о лучших из них — рассказываем в этом материале.

Содержание

Что такое музыкальная нейросеть?
Как музыкальные нейросети создают музыку?

Плюсы музыки, сгенерированной с помощью нейросети
Лучшие нейросети для создания музыки

Что такое музыкальная нейросеть?

Нейросеть представляет собой форму машинного обучения, в которой компьютерная программа воспроизводит функции человеческого мозга. Как нейроны в нашем мозге передают сигналы друг другу, так и в нейросетях происходит обмен информацией между вычислительными элементами.

Современные графические процессоры открыли новые горизонты для «глубокого обучения», позволяя увеличивать количество слоев в нейросетях. Это стало основой для создания самообучающихся нейросетей, которые могут самостоятельно обрабатывать входящую информацию без необходимости в специальной настройке.

Любая нейронная сеть построена на основе искусственных нейронов, которые моделируют работу человеческого мозга. По сути эти нейроны представляют собой программные модули или узлы, которые взаимодействуют друг с другом и обмениваются информацией.

Обычно в нейросетях есть три слоя нейронов.

Входной слой — принимает информацию из внешней среды, анализирует ее и передает на следующий уровень.
Скрытый слой (чаще всего не один) — обрабатывает данные, полученные от предыдущего слоя, и подготавливает их для передачи далее.
Выходной слой — предоставляет финальный результат после завершения обработки всех данных, выступая интерфейсом.

Глубокие нейронные сети отличаются тем, что их нейроны взаимосвязаны, а каждой связи присваивается определенный вес, отражающий ее важность. Кроме того, связи могут быть «односторонними» — информация движется только в одном направлении, если значение веса ниже установленного порога.

В процессе обучения нейронной сети все веса изначально задаются случайными значениями. Обучающие данные поступают на входной слой и проходят через все последующие уровни до выхода. В процессе обучения веса и пороговые значения постоянно обновляются, пока сеть не начнет выдавать стабильные результаты.

На этих же принципах построена и любая нейросеть для создания музыки. Музыкальные композиции генерируются так же, как и картинки с видео: нейросеть использует данные, на которых она была обучена. Например, если загрузить условной нейронке все многочисленные альбомы группы Beatles, то сгенерированные алгоритмом произведения будут иметь схожий стиль. Таким образом, чем больше мелодий, жанров и исполнителей изучит нейросеть, тем более разнообразными и оригинальными будут ее результаты.

Компьютерные программы, умеющие генерировать треки, появились еще в середине прошлого века. Первую музыкальную композицию, созданную с помощью компьютера, представили в 1957 году. Это была 17-секундная мелодия под названием «Серебряная чешуя», ее написал программист Ньюман Гутман.

За прошедшие почти семьдесят лет подобное ПО стало куда комплекснее и прошло большой путь развития. Пока что созданная с помощью нейросети музыка не попадает в хит-парады, но многие популярные исполнители не скрывают, что уже пользуются искусственным интеллектом для создания и доработки собственных идей.

Как музыкальные нейросети создают музыку?

Алгоритмы для создания музыки чаще всего основаны на автокодировщиках и генеративно-состязательных нейросетях, также известных как GAN. Смысл их работы в том, чтобы преобразовать данные в более компактный формат, что позволяет исключить несущественные элементы информации. На основе этого сжатого представления они способны генерировать новые музыкальные произведения.

Генеративно-состязательные нейросети функционируют по принципу соревнования между двумя моделями: генератором и дискриминатором. Генератор создает новые музыкальные треки, а дискриминатор пытается различить их среди оригинальных. Эта конкуренция помогает генеративной модели улучшать качество создаваемой музыки, чтобы сделать ее максимально похожей на настоящую, написанную человеком композицию.

При этом существуют два подхода, которые применяются в случаях, когда нужно создать музыку нейросетью.

Генерация нот

В более простом варианте нейросеть работает с музыкой как с математическим уравнением, не выходя за рамки теории. В таком случае программа создает последовательность нот и аккордов, то есть гармонию. Она может также написать текст и прописать партии разных инструментов. Но вот озвучить все это у нее возможности не будет. То есть сделать музыку нейросеть способна, но вот превратить ее в трек у нее уже не получится.

В некоторых случаях к музыкальным ИИ подключают MIDI-генератор. Поскольку такие нейросети по сути пишут партитуру инструментов, несложно перевести их в MIDI — распространенный формат цифровой звукозаписи, по сути заменяющий нотную грамоту для компьютера. На основе MIDI построены синтезаторы и современные программы для создания музыки, которые настроены выдавать определенный звук, то есть ноту.

Такие нейросети пригодятся для авторов и композиторов, которые ищут вдохновения или пытаются доработать собственный материал, идеи для которого закончились. Менее искушенным в музыкальных делах пользователям подобные нейросети вряд ли пригодятся — они либо вообще не смогут предоставить аудиофайл, либо он будет в формате MIDI или с примитивным звуком. Важный момент — даже такие продвинутые нейросети со встроенным синтезатором не смогут генерировать голос или будут делать это в крайне низком качестве.

Зачастую роль подобного генератора может выполнить обычный чат-бот с генеративным искусственным интеллектом, будь то ChatGPT или GigaChat от «Сбера». Впрочем, поскольку эти модели обучены на общем массиве данных из интернета, а не на музыкальном контенте, качество у них может варьироваться.

Генерация аудиосигналов

Второй вариант нейросетей для генерации музыки принес популярность этому явлению. Если ранее мы говорили о нейронках, которые способны работать только с текстовой информацией, а потом переводить ее в звук посредством MIDI-синтезаторов, то генерирующие аудиосигналы нейросети сразу создают звуки.

Обученные на массивах музыкальных данных, подобные нейросети не ограничены написанием нот: они сразу работают и с ритмом, и с тембром, и, что еще важнее, с голосом. Разумеется, создавать такие файлы гораздо сложнее, чем работать с текстом, поэтому требуется куда больше вычислительной мощности.

С другой стороны, любой желающий с помощью такой нейросети может сгенерировать себе музыкальный трек, написанный по всем современным стандартам. При определенном везении композиция может даже получить относительно чистый звук, благодаря чему ее можно будет выдать чуть ли не за собственное творчество.

Плюсы музыки, сгенерированной с помощью нейросети

Для чего нейросетями пользуются музыканты?

Нейросеть, пишущая музыку, может не только выдать полностью готовый трек, но и доработать загруженный в нее мотив, аранжировав его другими инструментами. Или пользователь, напротив, может позаимствовать у созданного нейросетью произведения лишь отдельные части, чтобы таким образом решить проблему творческого блока при написании новой песни.

Тем не менее качество и зачастую осмысленность материала, созданного нейросетью, оставляют желать лучшего. Современные средства записи стали доступны и повсеместно распространены, как и программы для написания музыки, благодаря чему качество любительских произведений в последние годы резко выросло. Большинство нейросетевой музыки по качеству уступает песням, сделанным людьми. Это обусловлено тем, что для высокого качества звучания сгенерированных треков понадобится еще больше вычислительных мощностей.

Где использовать треки, которые создала нейросеть?

Зато нейросетевая музыка успешно решает юридический вопрос, связанный с авторскими правами. Это особенно актуально для тех, кто создает уникальный контент в интернете и там же его распространяет.

На многих площадках, будь то YouTube, Twitch или отечественные RuTube и VK, действует свод правил, который регулирует использование чужих произведений в рамках своих собственных. На западных площадках эти ограничения более жесткие — там они должны соответствовать так называемому DMCA, то есть Закону об авторском праве в цифровую эпоху (входит в законодательство США).

Из-за следования DMCA многие блогеры и простые пользователи сталкиваются с тем, что даже при добросовестном использовании они получают предупреждения, их видео блокируются, а в некоторых случаях блокировку получают и целые аккаунты. Ситуация осложняется тем, что площадки не всегда успевают уследить, кто же действительно правообладатель, а система иногда блокирует контент по ложным заявкам от злоумышленников.

Использование сгенерированной нейросетью музыки решает эту проблему полностью. Это в любом случае уникальные аудиофайлы, которые местами случайно могут повторить что-то из уже ранее написанного и защищенного авторским правом материала, но все равно у них есть уникальное звучание — это поможет избежать DMCA-страйка.

Таким образом использовать сгенерированные треки имеет смысл тем, кто часто создает разного рода контент для интернет-сервисов, будь то видеоролики или прямые трансляции.

Содержание

Что такое музыкальная нейросеть?

Как музыкальные нейросети создают музыку?

Генерация нот

Генерация аудиосигналов

Ранее мы рассказывали:

Плюсы музыки, сгенерированной с помощью нейросети

Для чего нейросетями пользуются музыканты?

Где использовать треки, которые создала нейросеть?

Лучшие нейросети для создания музыки

Suno

Soundraw

Riffusion

Mubert

Loudly

Veed.io

Ранее мы рассказывали:

AIVA

Media.io

«Маэстро»

Soundful

Jukebox

Amper Music

Image to Music

NSynth

Flow Machines

Вам также понравятся