Breynald Shelter

Posted 2024-12-25Paper / VQA14 minutes read (About 2106 words)

一种新的基于自监督多层次对比学习的VQA自然语言解释模型 (MCLE)，该模型具有语义级、图像级和实例级的事实和反事实样本。
MCLE提取判别特征，并将特征空间中的解释与视觉问题和答案对齐，以产生更一致的解释。作者进行了大量的实验和案例研究，以证明提出的方法在两个VQA-NLE基准上的有效性。