Audio-Visual Event Localization using Multi-task Hybrid Attention Networks for Smart Healthcare Systems

计算机科学 任务(项目管理) 事件(粒子物理) 情态动词 代表(政治) 块(置换群论) 人工智能 人机交互 感知 特征学习 多任务学习 多模式学习 语义学(计算机科学) 机器学习 深度学习 物理 管理 量子力学 经济 程序设计语言 化学 几何学 数学 神经科学 政治 政治学 高分子化学 法学 生物
作者
Han Liang,Jincai Chen,Fazlullah Khan,Gautam Srivastava,Jiangfeng Zeng
出处
期刊:ACM Transactions on Internet Technology [Association for Computing Machinery]
被引量:1
标识
DOI:10.1145/3653018
摘要

Human perception heavily relies on two primary senses: vision and hearing, which are closely inter-connected and capable of complementing each other. Consequently, various multimodal learning tasks have emerged, with audio-visual event localization (AVEL) being a prominent example. AVEL is a popular task within the realm of multimodal learning, with the primary objective of identifying the presence of events within each video segment and predicting their respective categories. This task holds significant utility in domains such as healthcare monitoring and surveillance, among others. Generally speaking, audio-visual co-learning offers a more comprehensive information landscape compared to single-modal learning, as it allows for a more holistic perception of ambient information, aligning with real-world applications. Nevertheless, the inherent heterogeneity of audio and visual data can introduce challenges related to event semantics inconsistency, potentially leading to incorrect predictions. To track these challenges, we propose a multi-task hybrid attention network (MHAN) to acquire high-quality representation for multimodal data. Specifically, our network incorporates hybrid attention of uni- and parallel cross-modal (HAUC) modules, which consists of a uni-modal attention block and a parallel cross-modal attention block, leveraging multimodal complementary and hidden information for better representation. Furthermore, we advocate for the use of a uni-modal visual task as auxiliary supervision to enhance the performance of multimodal tasks employing a multi-task learning strategy. Our proposed model has been proven to outperform the state-of-the-art results based on extensive experiments conducted on the AVE dataset.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
yangsir应助Fjun采纳,获得10
1秒前
听风挽完成签到 ,获得积分10
2秒前
2秒前
丘比特应助毛毛采纳,获得10
3秒前
脑洞疼应助pywangsmmu92采纳,获得10
4秒前
5秒前
6秒前
7秒前
芝士雪豹发布了新的文献求助30
8秒前
NexusExplorer应助AN采纳,获得30
8秒前
桐桐应助知行合一采纳,获得10
8秒前
lulu发布了新的文献求助10
9秒前
披萨好吃酱完成签到,获得积分10
9秒前
初眠发布了新的文献求助10
9秒前
李爱国应助酷酷的乌龟采纳,获得10
12秒前
12秒前
lz发布了新的文献求助10
12秒前
刘亚梅发布了新的文献求助10
12秒前
了解科技完成签到,获得积分10
12秒前
11马发布了新的文献求助10
13秒前
14秒前
Lin_sandwich发布了新的文献求助10
15秒前
我是老大应助当当采纳,获得20
15秒前
16秒前
pywangsmmu92发布了新的文献求助10
17秒前
Mia发布了新的文献求助10
18秒前
Jasper应助xu采纳,获得10
19秒前
友好寒凡完成签到,获得积分10
19秒前
Sunney发布了新的文献求助10
19秒前
zhao完成签到,获得积分10
20秒前
混子华完成签到,获得积分10
21秒前
冷静灵竹完成签到 ,获得积分10
21秒前
上官若男应助体贴问梅采纳,获得10
21秒前
lily336699发布了新的文献求助10
22秒前
自嘲熊2发布了新的文献求助10
22秒前
22秒前
wanci应助猕猴桃猴采纳,获得10
23秒前
穆雨完成签到,获得积分10
23秒前
穗穗完成签到,获得积分10
24秒前
orixero应助钟煜钟煜采纳,获得10
25秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Les Mantodea de Guyane Insecta, Polyneoptera 2000
Quality by Design - An Indispensable Approach to Accelerate Biopharmaceutical Product Development 800
Pulse width control of a 3-phase inverter with non sinusoidal phase voltages 777
Signals, Systems, and Signal Processing 610
Research Methods for Applied Linguistics: A Practical Guide 600
Research Methods for Applied Linguistics 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6403915
求助须知:如何正确求助?哪些是违规求助? 8222960
关于积分的说明 17428009
捐赠科研通 5456391
什么是DOI,文献DOI怎么找? 2883487
邀请新用户注册赠送积分活动 1859781
关于科研通互助平台的介绍 1701151