Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA

Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA

一种新的基于自监督多层次对比学习的VQA自然语言解释模型 (MCLE),该模型具有语义级、图像级和实例级的事实和反事实样本。
MCLE提取判别特征,并将特征空间中的解释与视觉问题和答案对齐,以产生更一致的解释。作者进行了大量的实验和案例研究,以证明提出的方法在两个VQA-NLE基准上的有效性。

Read more