Написание музыки — один из древнейших, но при этом и сложнейших видов творчества. Впрочем, в 2024 году искусственный интеллект упростил и эту задачу. Фразы вроде «Нейросеть написала музыку» уже никого не удивляют, ведь существует множество сервисов, которые генерируют песни по запросу пользователя. О том, как они работают, и о лучших из них — рассказываем в этом материале.
Содержание
Что такое музыкальная нейросеть?
Нейросеть представляет собой форму машинного обучения, в которой компьютерная программа воспроизводит функции человеческого мозга. Как нейроны в нашем мозге передают сигналы друг другу, так и в нейросетях происходит обмен информацией между вычислительными элементами.
Современные графические процессоры открыли новые горизонты для «глубокого обучения», позволяя увеличивать количество слоев в нейросетях. Это стало основой для создания самообучающихся нейросетей, которые могут самостоятельно обрабатывать входящую информацию без необходимости в специальной настройке.
Любая нейронная сеть построена на основе искусственных нейронов, которые моделируют работу человеческого мозга. По сути эти нейроны представляют собой программные модули или узлы, которые взаимодействуют друг с другом и обмениваются информацией.
Обычно в нейросетях есть три слоя нейронов.
- Входной слой — принимает информацию из внешней среды, анализирует ее и передает на следующий уровень.
- Скрытый слой (чаще всего не один) — обрабатывает данные, полученные от предыдущего слоя, и подготавливает их для передачи далее.
- Выходной слой — предоставляет финальный результат после завершения обработки всех данных, выступая интерфейсом.
Глубокие нейронные сети отличаются тем, что их нейроны взаимосвязаны, а каждой связи присваивается определенный вес, отражающий ее важность. Кроме того, связи могут быть «односторонними» — информация движется только в одном направлении, если значение веса ниже установленного порога.
В процессе обучения нейронной сети все веса изначально задаются случайными значениями. Обучающие данные поступают на входной слой и проходят через все последующие уровни до выхода. В процессе обучения веса и пороговые значения постоянно обновляются, пока сеть не начнет выдавать стабильные результаты.
На этих же принципах построена и любая нейросеть для создания музыки. Музыкальные композиции генерируются так же, как и картинки с видео: нейросеть использует данные, на которых она была обучена. Например, если загрузить условной нейронке все многочисленные альбомы группы Beatles, то сгенерированные алгоритмом произведения будут иметь схожий стиль. Таким образом, чем больше мелодий, жанров и исполнителей изучит нейросеть, тем более разнообразными и оригинальными будут ее результаты.
Компьютерные программы, умеющие генерировать треки, появились еще в середине прошлого века. Первую музыкальную композицию, созданную с помощью компьютера, представили в 1957 году. Это была 17-секундная мелодия под названием «Серебряная чешуя», ее написал программист Ньюман Гутман.
За прошедшие почти семьдесят лет подобное ПО стало куда комплекснее и прошло большой путь развития. Пока что созданная с помощью нейросети музыка не попадает в хит-парады, но многие популярные исполнители не скрывают, что уже пользуются искусственным интеллектом для создания и доработки собственных идей.
Как музыкальные нейросети создают музыку?
Алгоритмы для создания музыки чаще всего основаны на автокодировщиках и генеративно-состязательных нейросетях, также известных как GAN. Смысл их работы в том, чтобы преобразовать данные в более компактный формат, что позволяет исключить несущественные элементы информации. На основе этого сжатого представления они способны генерировать новые музыкальные произведения.
Генеративно-состязательные нейросети функционируют по принципу соревнования между двумя моделями: генератором и дискриминатором. Генератор создает новые музыкальные треки, а дискриминатор пытается различить их среди оригинальных. Эта конкуренция помогает генеративной модели улучшать качество создаваемой музыки, чтобы сделать ее максимально похожей на настоящую, написанную человеком композицию.
При этом существуют два подхода, которые применяются в случаях, когда нужно создать музыку нейросетью.
Генерация нот
В более простом варианте нейросеть работает с музыкой как с математическим уравнением, не выходя за рамки теории. В таком случае программа создает последовательность нот и аккордов, то есть гармонию. Она может также написать текст и прописать партии разных инструментов. Но вот озвучить все это у нее возможности не будет. То есть сделать музыку нейросеть способна, но вот превратить ее в трек у нее уже не получится.
В некоторых случаях к музыкальным ИИ подключают MIDI-генератор. Поскольку такие нейросети по сути пишут партитуру инструментов, несложно перевести их в MIDI — распространенный формат цифровой звукозаписи, по сути заменяющий нотную грамоту для компьютера. На основе MIDI построены синтезаторы и современные программы для создания музыки, которые настроены выдавать определенный звук, то есть ноту.
Такие нейросети пригодятся для авторов и композиторов, которые ищут вдохновения или пытаются доработать собственный материал, идеи для которого закончились. Менее искушенным в музыкальных делах пользователям подобные нейросети вряд ли пригодятся — они либо вообще не смогут предоставить аудиофайл, либо он будет в формате MIDI или с примитивным звуком. Важный момент — даже такие продвинутые нейросети со встроенным синтезатором не смогут генерировать голос или будут делать это в крайне низком качестве.
Зачастую роль подобного генератора может выполнить обычный чат-бот с генеративным искусственным интеллектом, будь то ChatGPT или GigaChat от «Сбера». Впрочем, поскольку эти модели обучены на общем массиве данных из интернета, а не на музыкальном контенте, качество у них может варьироваться.
Генерация аудиосигналов
Второй вариант нейросетей для генерации музыки принес популярность этому явлению. Если ранее мы говорили о нейронках, которые способны работать только с текстовой информацией, а потом переводить ее в звук посредством MIDI-синтезаторов, то генерирующие аудиосигналы нейросети сразу создают звуки.
Обученные на массивах музыкальных данных, подобные нейросети не ограничены написанием нот: они сразу работают и с ритмом, и с тембром, и, что еще важнее, с голосом. Разумеется, создавать такие файлы гораздо сложнее, чем работать с текстом, поэтому требуется куда больше вычислительной мощности.
С другой стороны, любой желающий с помощью такой нейросети может сгенерировать себе музыкальный трек, написанный по всем современным стандартам. При определенном везении композиция может даже получить относительно чистый звук, благодаря чему ее можно будет выдать чуть ли не за собственное творчество.
Плюсы музыки, сгенерированной с помощью нейросети
Для чего нейросетями пользуются музыканты?
Нейросеть, пишущая музыку, может не только выдать полностью готовый трек, но и доработать загруженный в нее мотив, аранжировав его другими инструментами. Или пользователь, напротив, может позаимствовать у созданного нейросетью произведения лишь отдельные части, чтобы таким образом решить проблему творческого блока при написании новой песни.
Тем не менее качество и зачастую осмысленность материала, созданного нейросетью, оставляют желать лучшего. Современные средства записи стали доступны и повсеместно распространены, как и программы для написания музыки, благодаря чему качество любительских произведений в последние годы резко выросло. Большинство нейросетевой музыки по качеству уступает песням, сделанным людьми. Это обусловлено тем, что для высокого качества звучания сгенерированных треков понадобится еще больше вычислительных мощностей.
Где использовать треки, которые создала нейросеть?
Зато нейросетевая музыка успешно решает юридический вопрос, связанный с авторскими правами. Это особенно актуально для тех, кто создает уникальный контент в интернете и там же его распространяет.
На многих площадках, будь то YouTube, Twitch или отечественные RuTube и VK, действует свод правил, который регулирует использование чужих произведений в рамках своих собственных. На западных площадках эти ограничения более жесткие — там они должны соответствовать так называемому DMCA, то есть Закону об авторском праве в цифровую эпоху (входит в законодательство США).
Из-за следования DMCA многие блогеры и простые пользователи сталкиваются с тем, что даже при добросовестном использовании они получают предупреждения, их видео блокируются, а в некоторых случаях блокировку получают и целые аккаунты. Ситуация осложняется тем, что площадки не всегда успевают уследить, кто же действительно правообладатель, а система иногда блокирует контент по ложным заявкам от злоумышленников.
Использование сгенерированной нейросетью музыки решает эту проблему полностью. Это в любом случае уникальные аудиофайлы, которые местами случайно могут повторить что-то из уже ранее написанного и защищенного авторским правом материала, но все равно у них есть уникальное звучание — это поможет избежать DMCA-страйка.
Таким образом использовать сгенерированные треки имеет смысл тем, кто часто создает разного рода контент для интернет-сервисов, будь то видеоролики или прямые трансляции.
Лучшие нейросети для создания музыки
Suno
Стоимость: от 10 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский
Начнем с Suno — пожалуй, самой популярной на текущей момент платформы, которая создает музыкальные композиции на основе написанного вами текста. Она способна генерировать как инструментальные треки, так и песни с вокалом.
Пользоваться сервисом довольно просто: достаточно ввести описание — и Suno самостоятельно напишет музыку и озвучит текст. Вы можете использовать как предложенные шаблоны, так и собственные идеи для создания текста и музыки.
Впрочем, зачастую Suno проявляет самовольность и может игнорировать заданные промпты. С другой стороны, это искупается тем, что сервис предлагает несколько вариантов трека, из которых можно выбрать нужный и при желании увеличить длительность.
Свою популярность Suno завоевала благодаря простоте использования, наличию бесплатной версии (подписка нужна для большего числа генераций и коммерческой лицензии на музыку) и относительно качественной генерации голоса.
- бесплатная версия
- простота использования
- генерация голоса
- иногда игнорируются заданные параметры
- бесплатно доступно до 10 треков в день
Soundraw
Стоимость: от 20 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский, китайский
Еще один сервис, который находится в числе лидеров по запросу «нейросеть музыка онлайн». Soundraw не ограничивает воображение пользователя, поскольку также дает возможность создавать мелодии в разнообразных жанрах. В отличие от других подобных нейросетей, здесь вы можете задать продолжительность (от 10 секунд до 5 минут), выбрать музыкальный стиль, настроить атмосферу и темп. Также имеется встроенный микшер: с ним можно редактировать параметры сгенерированной композиции.
С подпиской на платный тариф вы получаете право скачивать треки, использовать их в коммерческих целях и публиковать на стриминговых платформах.
- бесконечные генерации на бесплатном тарифе
- множество настроек
- для скачивания треков нужна платная подписка
Riffusion
Эта платформа чаще всего используется для генерации музыки для контента в TikTok, YouTube и других соцсетях. Сервис позволяет генерировать музыкальные треки на основе текстовых запросов, а также создает 2D-обложки: на них визуализируется звуковая волна, она изменяется в зависимости от силы сигнала и времени. Чтобы получить трек, достаточно ввести свой запрос — и нейросеть создаст статичное видео с музыкой и соответствующим изображением, что идеально подходит для форматов Reels и Shorts.
На каждый текстовый запрос система генерирует три альтернативные композиции длиной по 12 секунд. Эти треки можно сохранить в формате MP3 или как вертикальные видео (MP4) для TikTok и других соцсетей. Кроме того, есть возможность поделиться ссылками на созданные работы.
- распознает запросы на русском
- простой интерфейс
- зачастую сгенерированные треки бесполезны
- длина ограничена 12 секундами
Mubert
Стоимость: от 12 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский, испанский, корейский
Mubert — это не просто нейросеть, а целая социальная сеть и набор сервисов. Разработчики предлагают несколько разделов, некоторые подходят для генерации музыки. А еще есть пользовательский раздел, где можно выкладывать свои треки, слушать и оценивать чужие.
При публикации сгенерированного бесплатного трека на других платформах необходимо указать источник — оставить ссылку на сайт Mubert.com. Обратите внимание, что по условиям сервиса бесплатные треки нельзя монетизировать или размещать на стриминговых сервисах.
- длина треков до 25 минут
- возможность смешивать треки
- иногда игнорирует промпты
Loudly
Стоимость: от 15 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский
Еще одна довольно простая нейросеть, которая позволяет создавать музыку с нуля, накладывать эффекты на существующие треки и смешивать разные композиции. В базовой версии можно генерировать треки до 30 секунд, но платная подписка позволяет увеличить длину до 7 минут.
- удобный интерфейс
- наложение эффектов
- смешение треков
- длина треков до 30 секунд
Veed.io
Стоимость: от 12 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский
Это целый набор сервисов, которые предлагают создавать не только музыку и голосовые сообщения, но и изображения, видео и редактирование медиафайлов. В этом плане Veed особенно понравится тем, кто хочет создавать уникальный контент для своих соцсетей. Но если нужна лишь музыка, то придется продираться через загруженный интерфейс и множество дополнительных функций.
К тому же у сервиса неоднозначная система по загрузке сгенерированного контента. С одной стороны, можно скачать созданные видео, хотя на бесплатном тарифе только с водяным знаком поверх изображения. Однако скачивать аудио можно только при оплате подписки.
- множество инструментов для создания контента
- сложный интерфейс
- нельзя скачивать созданные композиции без подписки
AIVA
Стоимость: от 11 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский
Этот генератор аудиофайлов, помимо создания полностью оригинальных треков, дает возможность редактировать уже созданные композиции. В отличие от многих аналогичных нейросетей, AIVA готова принимать в качестве референса чужое творчество. Как исходный материал можно использовать и аудио, и видеофайлы. Сгенерированные мелодии автоматически загружаются на YouTube-канал AIVA, и после этого их можно использовать без каких-либо ограничений (не считая DMCA-политики площадки).
- наличие приложения для ПК
- использование референсов
- неограниченное число генераций
- скачать можно лишь три файла в месяц
- качество иногда оставляет желать лучшего
Media.io
Стоимость: от 20 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский
Еще один многофункциональный инструмент. Нейросеть Media.io больше заточена под создание музыки, чем под редактирование: пользователи могут выбрать лишь стиль, настроение и тему либо создать трек на основе текстового описания. Возможности добавить эффект и другую постобработку на платформе отсутствуют.
В бесплатной версии доступно всего две музыкальные композиции продолжительностью до 5 минут: по два трека на основе текстового запроса и по жанру. Загружать готовые треки можно без оплаты, но для дальнейшего использования сервиса потребуется оформить платную подписку, которая к тому же стоит дороже большинства конкурентов.
- длительность треков от 10 секунд до 5 минут
- удобный интерфейс
- всего четыре генерации в месяц
- высокая стоимость подписки
«Маэстро»
Основная фишка «Маэстро» заключается в том, что создавать треки можно прямо в приложении «Сбера». Учитывая простоту интерфейса и распространенность платформы (по сути она доступна всем клиентам банка), «Маэстро» может быть отличным развлечением для тех, кому финансовые услуги оказывают слишком долго.
Однако возможности генерации ограничены. Программа позволяет задать лишь автора, жанр и название будущего трека, и на основе этих данных готовит композицию. После этого готовую песню можно опубликовать в социальных сетях или скачать — никаких возможностей по редактированию не предлагается.
- распространенность
- бесплатность
- простой интерфейс
- минимум функционала для генерации и редактирования треков
Soundful
Стоимость: от 10 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский
Еще один очень простой музыкальный нейросетевой генератор, обратной стороной плюсов которого стала примитивность функционала. Soundful предлагает создавать треки с минимальным количеством усилий: достаточно указать жанры и темп будущего произведения.
Это отличный вариант для быстрой генерации фоновой музыки в контент для соцсетей — у Soundful нет ни жесткой политики использования созданных треков, ни лимитов по их количеству.
- простой интерфейс
- доступная коммерческая основа
- отсутствие лимитов на генерации
- минимум функционала для редактирования и создания треков
- возможность скачать до 10 треков в месяц без подписки
Jukebox
Это, пожалуй, самый замороченный, но в то же время и самый мощный инструмент по созданию качественного аудио. Jukebox разработан компанией OpenAI — той самой, которая недавно прославилась на весь мир своим ChatGPT. К сожалению, назвать этот продукт таким же доступным нельзя: для качественной генерации понадобятся навыки программирования.
Поскольку аудиосигналы здесь генерируются в высоком качестве, то и на создание минуты трека может уходить до нескольких часов. При этом результат того стоит: созданные с помощью jukebox композиции обычно неотличимы от качественно записанной музыки.
- бесплатный доступ
- высокое качество генерируемых треков
- нужны навыки программирования
- требуется собственное оборудование для разворачивания модели
Amper Music
Стоимость: от 5 долларов в месяц
Бесплатная версия: есть
Язык интерфейса: английский
Сервис предлагает два варианта использования: упрощенный и продвинутый. В первом для создания музыки достаточно ввести всего несколько параметров, среди которых уже привычные темп, стиль, настроение. А вот второй вариант позволяет выбирать уже не просто настроение и жанр, а инструменты и структуру песни. Они помогут выйти за пределы куплетно-припевных шаблонов, используемых в большинстве подобных нейросетей.
- несколько режимов работы
- возможность детально настраивать структуру и звучание песни
- чтобы получить доступ, нужно отправлять запрос разработчикам и ждать одобрения
Image to Music
Удивительная и полностью бесплатная нейросеть, которая позволяет генерировать музыку по изображению. Достаточно загрузить картинку с желаемым настроением, а также задать несколько доступных параметров вроде продолжительности и скорости. И нейросеть напишет музыку под ваш пример.
- простой интерфейс
- полная бесплатность
- безлимитное создание и скачивание треков
- небольшое количество параметров для настройки
NSynth
Проект от Google, который позволяет настраивать генерируемые треки. У этой нейросети настолько качественные и продвинутые алгоритмы, что выдаваемые ею звуки уже давно используются профессиональными звукорежиссерами для создания саунд-дизайна в кино и других медиа.
Но за высокое качество нужно платить. Во-первых, это по сути исследовательский проект, к которому нужно запрашивать доступ. Помимо этого, для детальной работы с нейросетью потребуются навыки программирования.
- высокое качество генерируемых треков
- бесплатность
- сложность в освоении
- необходимо запрашивать доступ к проекту
Flow Machines
Еще одно продвинутое решение для создания высококачественной музыки, но в этот раз от музыкального подразделения Sony. Flow Machines — это классический современный синтезатор с функцией автоматического создания мелодий и гармоний, который инженеры японской компании смогли уместить в плагин для музыкальных редакторов.
Программа уже давно используется профессиональными музыкантами в качестве подспорья при создании аранжировок или сочинении песен, однако Flow Machines могут написать и композицию с нуля.
- богатый функционал для написания песен
- бесплатность
- необходимо использовать в связке с музыкальной программой