Modelo multimodal de IA con arquitectura early-fusion que procesa y genera texto + imágenes en una misma secuencia, logrando resultados de nivel SOTA en captioning y VQA.
Modelo multimodal de IA con arquitectura early-fusion que procesa y genera texto + imágenes en una misma secuencia, logrando resultados de nivel SOTA en captioning y VQA.