Modelo multimodal de IA con arquitectura early-fusion que procesa y genera texto + imágenes en una misma secuencia, logrando resultados de nivel SOTA en captioning y VQA.

Estrategias en constante evoluci?n.