Awesome Image Captioning Papers and Source Codes

Caption Anything: Interactive, Multimodal Image Captioning Controlled by You 1770

Traditional image captioning systems produce static, one-size-fits-all descriptions—often generic, inflexible, and disconnected from actual user intent. What if you could…

12/19/2025Image Captioning, Multimodal Control, vision-language modeling