Разложить аудио на голоса: Онлайн разделитель музыки и голоса на базе нейронной сети

Онлайн разделитель музыки и голоса на базе нейронной сети

Необработанные файлы в очереди: 0. В данный момент обрабатываются на GPU: 3/4

Информация: сайт выполняет разделение музыкального трека на отдельные составляющие: голос, отдельная музыка, барабаны, гитара, пианино и т.д.
Примеры разделения трека на две части — голос и музыку можно посмотреть в видео ниже. Также посмотреть результаты разделений можно на демо-странице.

Новости [2022.11.13]

  1. На сайт была добавлена собственная оригинальная модель MVSep Vocal Model, натренированная на собственном большом датасете. Она показывает отличные результаты на тестовых данных:
    Synth dataset vocal SDR: 10.4523
    Synth dataset instrumental SDR: 10. 1561
    MUSDB18HQ dataset vocal SDR: 8.8292
    MUSDB18HQ dataset instrumental SDR: 15.2719
  2. На сайт была добавлена новая модель от команды Facebook — Demucs4 Hybrid Transformer.

Новости [2022.07.29]

  1. На сайт был добавлен экспериментальный алгоритм MVSep DNR, который разделяет треки на 3 части: музыку, спец-эффекты и голос. Алгоритм был натренирован на датасете «Divide and Remaster».
    Метрики качества:
    SDR DNR for music: 6.17
    SDR DNR for sfx: 7.26
    SDR DNR for speech: 14.13
    Алгоритм плохо подходит для обычной музыки, но неплохо справляется, когда нужно, скажем, почистить голос диктора от посторонних шумов на фоне.
    Примеры работы алгоритма MVSep DNR

Новости [2022.07.25]

  1. Мы создали независимый синтетический набор данных для сравнения различных алгоритмов разделения музыкальных треков. Мы опубликовали датасет здесь вместе с автоматической проверяющей системой. Также доступна таблица наиболее эффективных алгоритмов.
  2. Добавлена новая вокальная модель MDX-B UVR. Это последняя версия от команды UVR. Опция доступна при выборе алгоритма MDX-B в форме.

Новости [2022.07.07]. Последние изменения на MVSep:

  1. Были добавлены новые модели из пакета Ultimate Vocal Remover построенные на базе архитектуры demucs3. На сайте они доступны под названием UVR Demucs в списке алгоритмов.

Метрики качества для разных алгоритмов, включая UVR Demucs, можно посмотреть здесь.

Новости [2022.04.18]. Последние изменения на MVSep:

  1. Добавлен алгоритм Danna Sep. Этот алгоритм занял 3 место на Leaderboard A в соревновании Sony Music Demixing Challenge.
  2. Добавлен алгоритм Byte Dance. Этот алгоритм занял второе место в категории vocals на Leaderboard A в соревновании Sony Music Demixing Challenge. Он тренировался только на данных MUSDB18HQ и имеет потенуиал в дальнейшем в случае добавления большего числа данных на обучение.

Метрики качества для этих и других алгоритмов можно посмотреть здесь.

Новости [2022.02.24]. Последние изменения на MVSep:

  1. Добавлены новые модели UVR: Piano, Bass, Drums и несколько различных Vocal моделей. Добавлен выбор aggressivness для UVR моделей.
  2. Добавлены удалённые GPU, которые обрабатывают задания в очереди. Размер очереди должен значительно сократиться.
  3. Для spleeter (вокал, барабаны, бас, остальное) и spleeter (вокал, барабаны, бас, пианино, остальное) добавлен вывод instrumental дорожек.

Новости [2021.12.23]. Последние изменения на MVSep:

  1. Добавлена возможность выбрать lossless-кодирование полученных файлов. Ранее была возможность использовать только MP3. Теперь добавлен вывод в WAV и FLAC.
  2. Для всех основных алгоритмов: MDX, Demucs3 и Unmix добавлен вывод общего инструментального трека (instrumental).
  3. Добавлен перевод сайта на Польский и Индонезийский языки.
  4. Добавлен скрипт сброса GPU в случае зависания. Больше не должно быть длительных простоев сервера.

К сожалению, все самые качественные алгоритмы работают очень медленно из-за чего периодически образуются очереди ожидания. Думаем, что с этим делать.

Новости [2021.11.12]: У нас три больших новости:

  1. Пришлось переехать на новый сервер из-за нехватки места на старом. Позитивный эффект — поменялась видеокарта на более мощную и с большим объемом памяти. Как следствие очереди ожидания уменьшились и ошибок связанных с недостатком GPU памяти стало меньше. Минус, что в два раза выросли затраты на сервер.
  2. Был добавлен новый алгоритм Ultimate Vocal Remover (UVR). Он разбивает трек на две части музыку и вокал. При этом обычно делает это лучше spleeter. В оригинальном UVR очень много моделей и разных настроек. Мы выбрали одну из лучших моделей и оптимальные настройки. Возможно позже будет добавлен гибкий выбор настроек для алгоритма.
  3. Победитель конкурса Music Demuxing Challenge наконец сделал релиз своего кода. Мы добавили его модели на сайт под названиями Demux3 Model A и Demux3 Model B. Demux3 Model B даёт более качественный результат, а для басов и барабанов работает лучше всех моделей, но слегка уступает по вокалу алгоритму MDX-B.

Ниже обновленная табличка сравнения качества алгоритмов (данные для UVR отсутствуют). Значения в таблице рассчитаны на закрытом конкурсном датасете Music Demuxing Challenge (доступен только организаторам). Чем больше значение, тем лучше работает алгоритм.

АлгоритмКачество (Bass)Качество (Drums)Качество (Other)Качество (Vocals)Пример
Spleeter (4 stems)5.7745.8454.3216.939Пример
UmxXL6.6196.8384.8917.732Пример
MDX A7. 2327.1735.6368.901Пример
MDX B (Orig)7.4957.5545.5338.896
MDX B (UVR)7.4957.5545.5339.482Пример
Ultimate Vocal Remover HQПример
Demucs 3 Model A8.1158.0375.1937.968Пример
Demucs 3 Model B8.8568.8505.9788.756Пример

Новости [2021.10.19]: На сайт mvsep.com добавлены два новых алгоритма для разделения треков: MDX A и MDX B. Это модели, созданные участниками конкурса Music Demuxing Challenge, которые заняли второе место. Код их решения и модели нейронных сетей были выложены в открытый доступ. Мы всё ещё ждем решение первого места.
Но и эти модели по конкурсным метрикам значительно обгоняют Spleeter и UmxXL (см. табличку выше), но пока проигрывают по скорости. MDX A отличается от MDX B тем что первый алгоритм не использовал внешние данные для обучения, поэтому результаты чуть хуже, чем у MDX B. Позже энтузиасты проекта UVR доработали модель по отделению вокала, получив лучше значение для метрики качества (8.896 -> 9.482).

Новости [2021.08.30]: на сайте mvsep.com несколько полезных обновлений

  • Обновлены ПО и код сайта. Разделение треков стало работать быстрее и стабильнее. Всё реже случаются падения нашего бекэнда.
  • Добавлен новый алгоритм разделения, который называется UnMix. У алгоритма доступно 4 модели «umxXL», «umxHQ», «umxSD», «umxSE». Самая качественная — первая «umxXL». По первым тестам, голос отделяет чуть хуже, чем spleeter, а вот инструменты лучше. В любом случае теперь открыто большое поле для экспериментов с треками.
  • Переделана страница с результатми разделения: добавлен оригинальный трек, удобно сравнивать с одной страницы. Добавлена информация по настройкам разделения, выводится информация по загруженному файлу, ID3-теги и изображение (если они есть).

Примеры разделения на базе нового алгоритма:
umxXL: Monk Turner Fascinoma — Its Your Birthday
umxHQ: Robin Grey — These Days
umxSD: Brad Sucks — Total Breakdown
umxSE: Paper Navy — Swan Song

И напоследок немного статистики. В день на сайте разделяется около 600-750 треков. А за всё время было разделено более 300,000 треков. Двигаемся в сторону миллиона.

Статистика: количество разделенных треков за последний день

Legend

  • Удачно
  • С ошибкой

Статистика: наиболее популярные алгоритмы

Legend

  • Алгоритмы

Другие проекты: удаление лиц с фото и видео hide-face.com

Hit’n’Mix — программа для разбивки аудио файлов на партии отдельных инструментов

DAZZER
Электронный англоаудиофил