亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Multi-Modal and Multi-Scale Temporal Fusion Architecture Search for Audio-Visual Video Parsing

计算机科学 判别式 人工智能 解析 模态(人机交互) 集合(抽象数据类型) 模式 事件(粒子物理) 特征(语言学) 比例(比率) 语义学(计算机科学) 语音识别 可视化 模式识别(心理学) 机器学习 社会科学 语言学 哲学 物理 量子力学 社会学 程序设计语言
作者
Jiayi Zhang,Weixin Li
标识
DOI:10.1145/3581783.3611947
摘要

The weakly supervised audio-visual video parsing (AVVP) task aims to parse a video into a set of modality-wise events (i.e., audible, visible, or both), recognize categories of these events, and localize their temporal boundaries. Given the prevalence of audio-visual synchronous and asynchronous contents in multi-modal videos, it is crucial to capture and integrate the contextual events occurring at different moments and temporal scales. Although some researchers have made preliminary attempts at modeling event semantics with various temporal lengths, they mostly only perform a late fusion of multi-scale features across modalities. A comprehensive cross-modal and multi-scale temporal fusion strategy remains largely unexplored in the literature. To address this gap, we propose a novel framework named Audio-Visual Fusion Architecture Search (AVFAS) that can automatically find the optimal multi-scale temporal fusion strategy within and between modalities. Our framework generates a set of audio and visual features with distinct temporal scales and employs three modality-wise modules to search multi-scale feature selection and fusion strategies, jointly modeling modality-specific discriminative information. Furthermore, to enhance the alignment of audio-visual asynchrony, we introduce a Position- and Length-Adaptive Temporal Attention (PLATA) mechanism for cross-modal feature fusion. Extensive quantitative and qualitative experimental results demonstrate the effectiveness and efficiency of our framework.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
11秒前
30秒前
搜集达人应助科研通管家采纳,获得10
32秒前
tejing1158完成签到 ,获得积分10
41秒前
老迟到的友桃完成签到 ,获得积分10
1分钟前
嘻嘻完成签到,获得积分10
1分钟前
煎饼果子不加葱完成签到,获得积分10
1分钟前
2分钟前
SciGPT应助YangY采纳,获得10
2分钟前
朱1591完成签到,获得积分10
3分钟前
3分钟前
YangY发布了新的文献求助10
3分钟前
彭晓雅完成签到 ,获得积分10
3分钟前
lzy完成签到,获得积分10
3分钟前
饱满御姐发布了新的文献求助10
3分钟前
3分钟前
佳佳发布了新的文献求助10
4分钟前
4分钟前
优秀棒棒糖完成签到 ,获得积分10
4分钟前
4分钟前
科研通AI6应助王佳俊采纳,获得10
4分钟前
研友_VZG7GZ应助佳佳采纳,获得10
4分钟前
4分钟前
天雨流芳完成签到 ,获得积分10
4分钟前
zxin关注了科研通微信公众号
4分钟前
JiangHan发布了新的文献求助10
4分钟前
4分钟前
英俊的铭应助JiangHan采纳,获得10
5分钟前
5分钟前
李剑鸿发布了新的文献求助200
5分钟前
5分钟前
王佳俊发布了新的文献求助10
5分钟前
深情安青应助zxin采纳,获得10
5分钟前
JiangHan发布了新的文献求助10
5分钟前
Ava应助JiangHan采纳,获得10
6分钟前
XHONG完成签到 ,获得积分10
6分钟前
猪猪侠发布了新的文献求助10
6分钟前
饱满御姐完成签到,获得积分10
6分钟前
猪猪侠完成签到,获得积分10
6分钟前
万能图书馆应助yehata采纳,获得50
7分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Vertébrés continentaux du Crétacé supérieur de Provence (Sud-Est de la France) 600
A complete Carnosaur Skeleton From Zigong, Sichuan- Yangchuanosaurus Hepingensis 四川自贡一完整肉食龙化石-和平永川龙 600
Le transsexualisme : étude nosographique et médico-légale (en PDF) 500
Elle ou lui ? Histoire des transsexuels en France 500
FUNDAMENTAL STUDY OF ADAPTIVE CONTROL SYSTEMS 500
微纳米加工技术及其应用 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5313616
求助须知:如何正确求助?哪些是违规求助? 4457033
关于积分的说明 13867422
捐赠科研通 4345860
什么是DOI,文献DOI怎么找? 2386787
邀请新用户注册赠送积分活动 1381049
关于科研通互助平台的介绍 1349694