清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering

计算机科学 答疑 模式 模态(人机交互) 任务(项目管理) 透视图(图形) 视听 特征(语言学) 特征提取 人工智能 情报检索 自然语言处理 多媒体 语言学 社会科学 哲学 管理 社会学 经济
作者
Zailong Chen,Lei Wang,Peng Wang,Peng Gao
出处
期刊:IEEE Transactions on Circuits and Systems for Video Technology [Institute of Electrical and Electronics Engineers]
卷期号:: 1-1
标识
DOI:10.1109/tcsvt.2023.3318220
摘要

As a newly emerging task, audio-visual question answering (AVQA) has attracted research attention. Compared with traditional single-modality (e.g., audio or visual) QA tasks, it poses new challenges due to the higher complexity of feature extraction and fusion brought by the multimodal inputs. First, AVQA requires more comprehensive understanding of the scene which involves both audio and visual information; Second, in the presence of more information, feature extraction has to be better connected with a given question; Third, features from different modalities need to be sufficiently correlated and fused. To address this situation, this work proposes a novel framework for multimodal question answering task. It characterises an audiovisual scene at both global and local levels, and within each level, the features from different modalities are well fused. Furthermore, the given question is utilised to guide not only the feature extraction at the local level but also the final fusion of global and local features to predict the answer. Our framework provides a new perspective for audio-visual scene understanding through focusing on both general and specific representations as well as aggregating multimodalities by prioritizing question-related information. As experimentally demonstrated, our method significantly improves the existing audio-visual question answering performance, with the averaged absolute gain of 3.3% and 3.1% on MUSIC-AVQA and AVQA datasets, respectively. Moreover, the ablation study verifies the necessity and effectiveness of our design. Our code will be publicly released.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
上官若男应助从容的绮烟采纳,获得10
9秒前
段采萱完成签到 ,获得积分10
11秒前
zzhui完成签到,获得积分10
19秒前
25秒前
cva9514完成签到,获得积分10
27秒前
neocc123完成签到 ,获得积分10
32秒前
任伟超完成签到,获得积分10
38秒前
万能图书馆应助迷路安雁采纳,获得10
45秒前
52秒前
迷路安雁发布了新的文献求助10
55秒前
emxzemxz完成签到 ,获得积分10
1分钟前
1分钟前
xichang完成签到 ,获得积分10
1分钟前
jewel9完成签到,获得积分10
1分钟前
zjq完成签到 ,获得积分10
1分钟前
1分钟前
1分钟前
1分钟前
shikaly完成签到,获得积分0
1分钟前
TaooSHuu完成签到,获得积分20
2分钟前
2分钟前
2分钟前
2分钟前
黄花完成签到 ,获得积分10
2分钟前
BBK发布了新的文献求助10
2分钟前
庄怀逸完成签到 ,获得积分10
2分钟前
金刚提提发布了新的文献求助10
2分钟前
想休息完成签到 ,获得积分10
3分钟前
终究是残念完成签到,获得积分10
3分钟前
wyh295352318完成签到 ,获得积分10
3分钟前
jlwang发布了新的文献求助10
3分钟前
诺亚方舟哇哈哈完成签到 ,获得积分0
3分钟前
gobi完成签到 ,获得积分10
4分钟前
amar完成签到 ,获得积分10
4分钟前
Axs完成签到,获得积分10
4分钟前
张颖完成签到 ,获得积分10
4分钟前
jlwang发布了新的文献求助10
5分钟前
英姑应助zzf采纳,获得10
5分钟前
花开四海完成签到 ,获得积分10
5分钟前
大气夜山完成签到 ,获得积分10
5分钟前
高分求助中
Exploring Mitochondrial Autophagy Dysregulation in Osteosarcoma: Its Implications for Prognosis and Targeted Therapy 4000
Impact of Mitophagy-Related Genes on the Diagnosis and Development of Esophageal Squamous Cell Carcinoma via Single-Cell RNA-seq Analysis and Machine Learning Algorithms 2000
Evolution 1100
How to Create Beauty: De Lairesse on the Theory and Practice of Making Art 1000
Research Methods for Sports Studies 1000
Gerard de Lairesse : an artist between stage and studio 670
T/CAB 0344-2024 重组人源化胶原蛋白内毒素去除方法 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 内科学 物理 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 免疫学 病理 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 2980295
求助须知:如何正确求助?哪些是违规求助? 2641388
关于积分的说明 7124852
捐赠科研通 2274285
什么是DOI,文献DOI怎么找? 1206476
版权声明 592005
科研通“疑难数据库(出版商)”最低求助积分说明 589477