Audio-Visual Event Localization using Multi-task Hybrid Attention Networks for Smart Healthcare Systems

计算机科学 任务(项目管理) 事件(粒子物理) 情态动词 代表(政治) 块(置换群论) 人工智能 人机交互 感知 特征学习 多任务学习 多模式学习 语义学(计算机科学) 机器学习 深度学习 物理 管理 量子力学 经济 程序设计语言 化学 几何学 数学 神经科学 政治 政治学 高分子化学 法学 生物
作者
Han Liang,Jincai Chen,Fazlullah Khan,Gautam Srivastava,Jiangfeng Zeng
出处
期刊:ACM Transactions on Internet Technology [Association for Computing Machinery]
被引量:1
标识
DOI:10.1145/3653018
摘要

Human perception heavily relies on two primary senses: vision and hearing, which are closely inter-connected and capable of complementing each other. Consequently, various multimodal learning tasks have emerged, with audio-visual event localization (AVEL) being a prominent example. AVEL is a popular task within the realm of multimodal learning, with the primary objective of identifying the presence of events within each video segment and predicting their respective categories. This task holds significant utility in domains such as healthcare monitoring and surveillance, among others. Generally speaking, audio-visual co-learning offers a more comprehensive information landscape compared to single-modal learning, as it allows for a more holistic perception of ambient information, aligning with real-world applications. Nevertheless, the inherent heterogeneity of audio and visual data can introduce challenges related to event semantics inconsistency, potentially leading to incorrect predictions. To track these challenges, we propose a multi-task hybrid attention network (MHAN) to acquire high-quality representation for multimodal data. Specifically, our network incorporates hybrid attention of uni- and parallel cross-modal (HAUC) modules, which consists of a uni-modal attention block and a parallel cross-modal attention block, leveraging multimodal complementary and hidden information for better representation. Furthermore, we advocate for the use of a uni-modal visual task as auxiliary supervision to enhance the performance of multimodal tasks employing a multi-task learning strategy. Our proposed model has been proven to outperform the state-of-the-art results based on extensive experiments conducted on the AVE dataset.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
刚刚
1秒前
万能图书馆应助JQKing采纳,获得10
1秒前
2秒前
Jun发布了新的文献求助10
2秒前
2秒前
壮观的雅绿完成签到,获得积分10
2秒前
Orange应助程忆采纳,获得10
2秒前
木子李发布了新的文献求助10
2秒前
hxt发布了新的文献求助10
3秒前
味子橘发布了新的文献求助10
3秒前
华仔应助xxx采纳,获得10
3秒前
4秒前
登登发布了新的文献求助10
5秒前
SI发布了新的文献求助10
5秒前
刘鑫宇发布了新的文献求助10
6秒前
星辰大海应助xuan采纳,获得10
6秒前
Lydony发布了新的文献求助10
7秒前
英姑应助味子橘采纳,获得10
9秒前
顺心向松完成签到,获得积分10
9秒前
司空元正发布了新的文献求助10
10秒前
10秒前
极品女杀手完成签到,获得积分20
10秒前
L912294993发布了新的文献求助20
10秒前
12秒前
wangxuhui1978发布了新的文献求助10
15秒前
16秒前
16秒前
16秒前
程忆发布了新的文献求助10
16秒前
18秒前
18秒前
可爱的函函应助支初晴采纳,获得10
19秒前
开心的汽车完成签到,获得积分20
19秒前
hxt完成签到,获得积分10
20秒前
苏小寰发布了新的文献求助10
20秒前
陈同学完成签到,获得积分10
20秒前
可爱的函函应助凌代萱采纳,获得10
21秒前
杨杨完成签到,获得积分10
22秒前
高分求助中
Continuum Thermodynamics and Material Modelling 2000
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
Wind energy generation systems - Part 3-2: Design requirements for floating offshore wind turbines 600
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
Seven new species of the Palaearctic Lauxaniidae and Asteiidae (Diptera) 400
A method for calculating the flow in a centrifugal impeller when entropy gradients are present 240
The sociopragmatics of emotion 200
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3693982
求助须知:如何正确求助?哪些是违规求助? 3244814
关于积分的说明 9847069
捐赠科研通 2956580
什么是DOI,文献DOI怎么找? 1621176
邀请新用户注册赠送积分活动 766909
科研通“疑难数据库(出版商)”最低求助积分说明 740698