Visual Causal Scene Refinement for Video Question Answering

计算机科学 因果推理 答疑 虚假关系 因果模型 人工智能 视觉推理 因果参照理论 集合(抽象数据类型) 帧(网络) 因果推理 语义学(计算机科学) 自然语言处理 认知 机器学习 心理学 医学 哲学 认识论 病理 神经科学 程序设计语言 电信 经济 计量经济学
作者
Yu-Shen Wei,Yang Liu,Hong Yan,Guanbin Li,Liang Lin
标识
DOI:10.1145/3581783.3611873
摘要

Existing methods for video question answering (VideoQA) often suffer from spurious correlations between different modalities, leading to a failure in identifying the dominant visual evidence and the intended question. Moreover, these methods function as black boxes, making it difficult to interpret the visual scene during the QA process. In this paper, to discover critical video segments and frames that serve as the visual causal scene for generating reliable answers, we present a causal analysis of VideoQA and propose a framework for cross-modal causal relational reasoning, named Visual Causal Scene Refinement (VCSR). Particularly, a set of causal front-door intervention operations is introduced to explicitly find the visual causal scenes at both segment and frame levels. Our VCSR involves two essential modules: i) the Question-Guided Refiner (QGR) module, which refines consecutive video frames guided by the question semantics to obtain more representative segment features for causal front-door intervention; ii) the Causal Scene Separator (CSS) module, which discovers a collection of visual causal and non-causal scenes based on the visual-linguistic causal relevance and estimates the causal effect of the scene-separating intervention in a contrastive learning manner. Extensive experiments on the NExT-QA, Causal-VidQA, and MSRVTT-QA datasets demonstrate the superiority of our VCSR in discovering visual causal scene and achieving robust video question answering.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小小脸完成签到,获得积分20
1秒前
1秒前
共享精神应助liguanyu1078采纳,获得10
1秒前
苏灿完成签到,获得积分10
1秒前
啊饭完成签到,获得积分10
2秒前
水上书完成签到,获得积分10
2秒前
搜集达人应助LFJ采纳,获得10
3秒前
S先生完成签到,获得积分10
3秒前
3秒前
XIN完成签到,获得积分20
3秒前
JamesPei应助明亮的凝琴采纳,获得10
3秒前
笑笑丶不爱笑完成签到,获得积分10
3秒前
Liu完成签到,获得积分10
3秒前
小小脸发布了新的文献求助30
4秒前
温言完成签到,获得积分10
4秒前
彭于晏应助Nangong采纳,获得10
5秒前
寻梦完成签到,获得积分10
6秒前
ZHY发布了新的文献求助10
6秒前
科研乞讨专员完成签到,获得积分10
6秒前
邬不污完成签到,获得积分10
6秒前
夏天完成签到,获得积分10
6秒前
Owen应助yao采纳,获得10
6秒前
郝田田完成签到,获得积分10
7秒前
8秒前
9秒前
流子完成签到,获得积分10
10秒前
10秒前
wyfyq完成签到,获得积分10
10秒前
11秒前
Key发布了新的文献求助10
11秒前
大模型应助xiaxianong采纳,获得30
11秒前
12秒前
Kalimba完成签到,获得积分10
13秒前
hff发布了新的文献求助10
13秒前
ybdx完成签到,获得积分10
13秒前
专注水杯完成签到,获得积分10
14秒前
cindy完成签到,获得积分10
14秒前
GL完成签到 ,获得积分10
14秒前
15秒前
15秒前
高分求助中
The Mother of All Tableaux Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 2400
Ophthalmic Equipment Market by Devices(surgical: vitreorentinal,IOLs,OVDs,contact lens,RGP lens,backflush,diagnostic&monitoring:OCT,actorefractor,keratometer,tonometer,ophthalmoscpe,OVD), End User,Buying Criteria-Global Forecast to2029 2000
Optimal Transport: A Comprehensive Introduction to Modeling, Analysis, Simulation, Applications 800
Official Methods of Analysis of AOAC INTERNATIONAL 600
ACSM’s Guidelines for Exercise Testing and Prescription, 12th edition 588
A new approach to the extrapolation of accelerated life test data 500
T/CIET 1202-2025 可吸收再生氧化纤维素止血材料 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3953688
求助须知:如何正确求助?哪些是违规求助? 3499494
关于积分的说明 11095814
捐赠科研通 3230038
什么是DOI,文献DOI怎么找? 1785859
邀请新用户注册赠送积分活动 869602
科研通“疑难数据库(出版商)”最低求助积分说明 801479