Microsoft Revela KOSMOS-2: Un Avanzado Modelo de Lenguaje Multimodal que se Ancla al Mundo Visual

Microsoft Revela KOSMOS-2: Un Avanzado Modelo de Lenguaje Multimodal que se Ancla al Mundo Visual

En un avance significativo en el campo de la inteligencia artificial, los investigadores de Microsoft han presentado KOSMOS-2, un innovador Modelo de Lenguaje Grande Multimodal (MLLM) que tiene la capacidad de "anclarse" al mundo visual. Este modelo es una mejora de su predecesor, KOSMOS-1, y presenta nuevas capacidades de anclaje que permiten una interacción más efectiva y práctica entre humanos y la inteligencia artificial.

Los MLLMs han demostrado ser una interfaz de propósito general exitosa en diversas actividades, incluyendo tareas de lenguaje, visión y visión-lenguaje. Sin embargo, KOSMOS-2 lleva esto un paso más allá con su capacidad de anclaje. Esta característica permite que el modelo interprete una región de una imagen con sus coordenadas geográficas, lo que significa que los usuarios pueden señalar directamente un objeto o región en una imagen en lugar de tener que describirlo con texto. Esta capacidad de anclaje también permite al modelo proporcionar respuestas visuales, como cuadros delimitadores, que pueden ser útiles en otras tareas de visión-lenguaje.

Para entrenar KOSMOS-2, los investigadores de Microsoft crearon un conjunto de datos a escala web de pares de imágenes y textos anclados. Este conjunto de datos se integró con los corpus multimodales en KOSMOS-1, lo que permitió al modelo aprender a utilizar plenamente su potencial de anclaje. El entrenamiento de KOSMOS-2 se basó en una tarea de predicción de la siguiente palabra utilizando la arquitectura Transformer, una técnica comúnmente utilizada en los modelos de lenguaje.

Los resultados de los experimentos realizados con KOSMOS-2 han sido impresionantes. El modelo no solo se desempeña excepcionalmente bien en las tareas de anclaje y referencia, sino que también es competitivo en las tareas de lenguaje y visión-lenguaje evaluadas en KOSMOS-1. Estos resultados demuestran la versatilidad y la capacidad de KOSMOS-2 para manejar una variedad de tareas.

Además, la inclusión de la característica de anclaje permite que KOSMOS-2 se utilice para tareas adicionales, como la generación de subtítulos de imágenes ancladas y la respuesta a preguntas visuales ancladas. Esto amplía aún más las posibilidades de uso de KOSMOS-2 y demuestra su potencial para mejorar la interacción entre humanos y la inteligencia artificial.

Para que los interesados puedan explorar las capacidades de KOSMOS-2, los investigadores de Microsoft han proporcionado una demostración en línea en GitHub. Esta demostración permite a los usuarios ver de primera mano cómo funciona KOSMOS-2 y cómo puede ser utilizado en una variedad de tareas.

De seguro te puede interesar..

No te pierdas ninguna información!

Mantente informado con nueva información, suscríbete a nuestra NewsLetter

*Te prometemos que no enviaremos SPAM!

Portal informativo sobre Inteligencia Artificial


2023 derechos reservados a GerenacionIA