ASID-Caption

community

https://asid-caption.github.io/

AI & ML interests

Video Understanding, Audio-Visual, Multimodal LLMs, Video Captioning, Instruction Tuning, Dataset Curation, Qwen-based, Open-source, Fully-Open-MLLMs

Papers

Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

View all Papers

Organization Card

Community About org cards

ASID-Caption

[🏠 Homepage] [📖 Arxiv Paper] [🤗 Models & Datasets] [💻 Code]

We build ASID-Caption, a data-and-model suite for fine-grained audiovisual video understanding.

Our goal is to move beyond “one video → one generic caption” by providing attribute-structured supervision and quality-verified annotations, enabling models to produce more complete, more controllable, and more temporally consistent descriptions that cover both visual content and audio cues.

What we release

ASID-1M: a large-scale collection of attribute-structured audiovisual instructions with both single-attribute and all-attributes training formats.
ASID-Verify: a scalable curation pipeline that generates, ensembles, verifies, and refines annotations to improve semantic and temporal consistency.
ASID-Captioner: Qwen2.5-Omni-based audiovisual captioning models fine-tuned on ASID-1M.

Research interests

Video understanding & video captioning
Audio-visual learning
Multimodal LLMs / instruction tuning
Data curation, verification, and quality control

models 2

AudioVisual-Caption/ASID-Captioner-7B

Image-Text-to-Text • 9B • Updated Mar 11 • 12 • 6

ASID-Caption

AI & ML interests

Papers

ASID-Caption

What we release

Research interests

models 2

AudioVisual-Caption/ASID-Captioner-7B

AudioVisual-Caption/ASID-Captioner-3B

datasets 1

AudioVisual-Caption/ASID-1M

AI & ML interests

Papers

Team members 1

ASID-Caption

What we release

Research interests

models 2 Sort: Recently updated

datasets 1

models 2