亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

DHHN: Dual Hierarchical Hybrid Network for Weakly-Supervised Audio-Visual Video Parsing

计算机科学 解析 模式 人工智能 背景(考古学) 任务(项目管理) 语义学(计算机科学) 事件(粒子物理) 上下文模型 机器学习 语音识别 自然语言处理 对象(语法) 经济 管理 程序设计语言 古生物学 社会学 物理 生物 量子力学 社会科学
作者
Xun Jiang,Xing Xu,Zhiguo Chen,Jingran Zhang,Jingkuan Song,Fumin Shen,Huimin Lu,Heng Tao Shen
标识
DOI:10.1145/3503161.3548309
摘要

The Weakly-Supervised Audio-Visual Video Parsing (AVVP) task aims to parse a video into temporal segments and predict their event categories in terms of modalities, labeling them as either audible, visible, or both. Since the temporal boundaries and modalities annotations are not provided, only video-level event labels are available, this task is more challenging than conventional video understanding tasks.Most previous works attempt to analyze videos by jointly modeling the audio and video data and then learning information from the segment-level features with fixed lengths. However, such a design exist two defects: 1) The various semantic information hidden in temporal lengths is neglected, which may lead the models to learn incorrect information; 2) Due to the joint context modeling, the unique features of different modalities are not fully explored. In this paper, we propose a novel AVVP framework termedDual Hierarchical Hybrid Network (DHHN) to tackle the above two problems. Our DHHN method consists of three components: 1) A hierarchical context modeling network for extracting different semantics in multiple temporal lengths; 2) A modality-wise guiding network for learning unique information from different modalities; 3) A dual-stream framework generating audio and visual predictions separately. It maintains the best adaptions on different modalities, further boosting the video parsing performance. Extensive quantitative and qualitative experiments demonstrate that our proposed method establishes the new state-of-the-art performance on the AVVP task.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
风趣雪一应助科研通管家采纳,获得10
15秒前
SciGPT应助科研通管家采纳,获得10
15秒前
16秒前
未夕晴完成签到,获得积分10
24秒前
1分钟前
栗悟饭发布了新的文献求助10
1分钟前
黄玉发布了新的文献求助10
1分钟前
852应助南极冰采纳,获得10
1分钟前
Gydl完成签到,获得积分10
1分钟前
1分钟前
Boro发布了新的文献求助10
1分钟前
HY完成签到 ,获得积分10
1分钟前
2分钟前
南极冰发布了新的文献求助10
2分钟前
2分钟前
风趣雪一应助科研通管家采纳,获得10
2分钟前
ZanE完成签到,获得积分10
2分钟前
2分钟前
端庄豌豆发布了新的文献求助30
2分钟前
3分钟前
xiaolizi发布了新的文献求助10
3分钟前
Mark完成签到 ,获得积分10
3分钟前
听风说雨应助xiaolizi采纳,获得10
3分钟前
3分钟前
miki完成签到,获得积分10
3分钟前
Liu丰发布了新的文献求助10
3分钟前
快乐的笑阳完成签到,获得积分10
3分钟前
3分钟前
yh完成签到,获得积分10
4分钟前
Lucas应助端庄豌豆采纳,获得30
4分钟前
4分钟前
4分钟前
风趣雪一应助科研通管家采纳,获得10
4分钟前
4分钟前
4分钟前
4分钟前
北辰zdx完成签到,获得积分10
4分钟前
露营发布了新的文献求助30
4分钟前
LRRRrRT发布了新的文献求助10
4分钟前
5分钟前
高分求助中
Cronologia da história de Macau 1600
Treatment response-adapted risk index model for survival prediction and adjuvant chemotherapy selection in nonmetastatic nasopharyngeal carcinoma 1000
Lloyd's Register of Shipping's Approach to the Control of Incidents of Brittle Fracture in Ship Structures 1000
BRITTLE FRACTURE IN WELDED SHIPS 1000
Intentional optical interference with precision weapons (in Russian) Преднамеренные оптические помехи высокоточному оружию 1000
Atlas of Anatomy 5th original digital 2025的PDF高清电子版(非压缩版,大小约400-600兆,能更大就更好了) 1000
Toughness acceptance criteria for rack materials and weldments in jack-ups 800
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 纳米技术 计算机科学 化学工程 生物化学 物理 复合材料 内科学 催化作用 物理化学 光电子学 细胞生物学 基因 电极 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6195324
求助须知:如何正确求助?哪些是违规求助? 8022415
关于积分的说明 16696219
捐赠科研通 5290297
什么是DOI,文献DOI怎么找? 2819501
邀请新用户注册赠送积分活动 1799244
关于科研通互助平台的介绍 1662150