Meta, la empresa anteriormente conocida como Facebook, ha anunciado el lanzamiento de AudioCraft, un marco de trabajo innovador que promete cambiar el panorama de la generación de sonidos y música. AudioCraft utiliza la inteligencia artificial (IA) para generar audio y música de alta calidad a partir de breves descripciones de texto.
AudioCraft: Tres modelos de IA que prometen transformar la creación de sonidos y música
AudioCraft se compone de tres modelos de IA generativa: MusicGen, AudioGen y EnCodec. Cada uno de estos modelos tiene un enfoque y una funcionalidad únicos, y juntos, ofrecen un conjunto de herramientas de generación de sonido y música sin precedentes.
MusicGen, que ya había sido lanzado en código abierto por Meta en junio, es un generador de música impulsado por IA. Con el lanzamiento de AudioCraft, Meta ha publicado el código de entrenamiento para MusicGen, permitiendo a los usuarios entrenar el modelo en su propio conjunto de datos de música. Sin embargo, este avance plantea importantes cuestiones éticas y legales, ya que MusicGen "aprende" de la música existente para producir efectos similares.
Por otro lado, AudioGen se centra en generar sonidos ambientales y efectos de sonido en lugar de música y melodías. Este modelo utiliza un enfoque basado en difusión, similar al utilizado por la mayoría de los generadores de imágenes modernos. Según Meta, AudioGen puede generar sonidos ambientales con "condiciones de grabación realistas" y "contenido de escena complejo".
El tercer modelo, EnCodec, es una mejora sobre un modelo anterior de Meta para generar música con menos artefactos. Meta afirma que EnCodec modela de manera más eficiente las secuencias de audio, capturando diferentes niveles de información en las formas de onda de audio de los datos de entrenamiento para ayudar a crear audio novedoso.
Meta ha destacado las posibles ventajas de AudioCraft, como proporcionar inspiración para los músicos y ayudar a las personas a iterar en sus composiciones de nuevas maneras. Sin embargo, también ha reconocido que AudioCraft podría ser mal utilizado para falsificar la voz de una persona, y que plantea las mismas preguntas éticas que MusicGen en cuanto a la generación de música.
A pesar de estos desafíos, Meta ha declarado que planea seguir investigando mejores formas de controlar y mejorar el rendimiento de los modelos generativos de audio, así como formas de mitigar las limitaciones y sesgos de dichos modelos. En particular, Meta ha señalado que MusicGen no funciona bien con descripciones en idiomas que no sean el inglés y con estilos y culturas musicales que no sean occidentales, debido a sesgos evidentes en sus datos de entrenamiento.
En resumen, AudioCraft representa un paso significativo en la evolución de la generación de sonidos y música por IA. Aunque plantea importantes cuestiones éticas y legales, también ofrece un potencial enorme para transformar la forma en que creamos y experimentamos el sonido y la música.