La empresa Intel ha publicado, con su código fuente, un conjunto de herramientas con inteligencia artificial para el editor de audio Audacity, útiles para trabajar con música, podcasts, entrevistas y grabaciones de voz. Denominadas “Plugines OpenVINO para Audacity“, estas herramientas funcionan en el propio computador del usuario, sin necesidad de Internet ni de suscripciones. Es decir, no son aplicaciones en la nube, sino que se instalan en el computador del usuario.
Texto: Alba Ciudad (LBR)
Según una nota de prensa en la página web de Audacity, las herramientas incluyen efectos útiles para podcasts, audiolibros y entrevistas (que involucran grabaciones de voz), así como efectos para la creación y producción de música. Entre otros, hay efectos para:
- Supresión de ruido: Parecido al plugin que ya viene con Audacity.
- Transcripción: para transcribir y traducir de forma automática palabras habladas; la salida se puede colocar en una pista de etiquetas. Se puede seleccionar el idioma en el que se habla el audio.
- Generación de música: permite crear música totalmente nueva escribiendo un texto o “prompt” explicando cómo deseas esa música. Puede ser un género, un estilo musical, un artista, etc.
- Remezclar música: para generar música nueva, basándose en música preexistente. Se selecciona una parte o la totalidad de una canción, se ingresa al plugin, se coloca un “prompt” indicando cómo se desea que se remezcle o modifique la canción y se juega con otros parámetros hasta tener el producto deseado.
- Separación musical: Para dividir una canción entre sus partes vocales e instrumentales. Funciona en dos modalidades: una en la cual se generan dos pistas (una con la voz y otra con los instrumentos), y otra en la que se producen 4 nuevas pistas: una con la percusión, otra con los bajos, otra con las voces y una última con los demás instrumentos.
Las herramientas están basadas en Whisper, una herramienta de inteligencia artificial para reconocimiento de voz desarrollada por OpenAI (los creadores de ChatGPT) y que fue liberada como software libre; y en Riffusion, una red neural diseñada por Seth Forsgren y Hayk Martiros, que genera música usando imágenes de sonido en vez de audio, y que fue creada a partir de Stable Diffusion, un modelo de inteligencia artificial en código abierto que genera imágenes a partir de órdenes en texto (“prompts”).
Instalación
Al momento de escribir esta noticia, hay una versión para Windows que puede descargarse desde este enlace y es relativamente sencilla de instalar.
Aún no hay paquetes para distribuciones GNU/Linux; sin embargo, han publicado una guía paso a paso para compilar y generar los archivos para Ubuntu 22.04 y distribuciones similares. “Compilar requiere una gran cantidad de dependencias (algunas de varios gigabytes)”, advierte el sitio web OMGUbuntu.
Es importante recordar que “software libre” son todas aquellas aplicaciones y programas que pueden usarse sin limitaciones y cuentan con su código fuente para su estudio, modificación y redistribución.