Ícono del sitio TechGames

MAGNeT el modelo de IA que crea música mediante texto

MAGNeT texto a musica
Comparte

MAGNeT es un modelo texto-música y texto-sonido que puede generar muestras de audio de alta calidad condicionadas a descripciones textuales.

MAGNet o Masked Audio Generation using a Single Non-Autoregressive Transformer está desarrollado por Alon Ziv; Itai Gat; Gael Le Lan; Tal Remez; Felix Kreuk; Alexandre ©fossez; Jade Copet; Gabriel Synnaeve y Yossi Adi. META es quien los apoya para su desarrollo.

A diferencia de otros trabajos sobre transformadores de audio generativos enmascarados, como SoundStorm y VampNet, MAGNeT no requiere condicionamiento semántico de tokens, modelos en cascada ni avisos de audio. Emplea una conversión completa de texto a audio usando un único transformador no autorregresivo.

MAGNeT es un transformador generativo enmascarado no autorregresivo entrenado sobre un tokenizador EnCodec de 32 kHz con 4 libros de códigos muestreados a 50 Hz. 

“Presentamos MAGNET, un método de modelado de secuencias generativas enmascaradas que opera directamente sobre varios flujos de tokens de audio. A diferencia de trabajos anteriores, MAGNET se compone de un transformador no autorregresivo de una sola etapa”

Durante el proceso, los desarrolladores predicen tramos de señales enmascaradas obtenidas a partir de un programador de enmascaramiento, mientras que durante la inferencia construyen gradualmente la secuencia de salida usando varios pasos de descodificación.

Para mejorar aún más la calidad del audio generado, se introduce un novedoso método de revalorización en el que aprovechan un modelo externo preentrenado para revalorizar y clasificar las predicciones de MAGNET, que luego se usarán para los pasos de descodificación posteriores de decodificación posterior.

Por último, los desarrolladores exploran una versión híbrida de MAGNET, en la que fusionan modelos autorregresivos y no autorregresivos para generar los primeros segundos de forma autorregresiva mientras el resto de la secuencia se descodifica en paralelo. 

“Demostramos la eficacia de MAGNET para la tarea de generación de texto-música y texto-audio y realizamos una amplia evaluación empírica, considerando tanto métricas objetivas como estudios en humanos. Mediante estudios y análisis de ablación, arrojamos luz sobre la importancia de cada uno de los componentes que integran MAGNET, además de señalar las compensaciones entre el modelado autorregresivo y el no autorregresivo, teniendo en cuenta la latencia, el rendimiento y la calidad de generación”

Demotración de MAGNeT

Comparte
Salir de la versión móvil