Deep Multimodal Data Fusion

计算机科学 人工智能 融合 传感器融合 哲学 语言学
作者
Fei Zhao,Chengcui Zhang,Baocheng Geng
出处
期刊:ACM Computing Surveys [Association for Computing Machinery]
卷期号:56 (9): 1-36 被引量:13
标识
DOI:10.1145/3649447
摘要

Multimodal Artificial Intelligence (Multimodal AI), in general, involves various types of data (e.g., images, texts, or data collected from different sensors), feature engineering (e.g., extraction, combination/fusion), and decision-making (e.g., majority vote). As architectures become more and more sophisticated, multimodal neural networks can integrate feature extraction, feature fusion, and decision-making processes into one single model. The boundaries between those processes are increasingly blurred. The conventional multimodal data fusion taxonomy (e.g., early/late fusion), based on which the fusion occurs in, is no longer suitable for the modern deep learning era. Therefore, based on the main-stream techniques used, we propose a new fine-grained taxonomy grouping the state-of-the-art (SOTA) models into five classes: Encoder-Decoder methods, Attention Mechanism methods, Graph Neural Network methods, Generative Neural Network methods, and other Constraint-based methods. Most existing surveys on multimodal data fusion are only focused on one specific task with a combination of two specific modalities. Unlike those, this survey covers a broader combination of modalities, including Vision + Language (e.g., videos, texts), Vision + Sensors (e.g., images, LiDAR), and so on, and their corresponding tasks (e.g., video captioning, object detection). Moreover, a comparison among these methods is provided, as well as challenges and future directions in this area.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
内向连碧完成签到,获得积分20
3秒前
3秒前
6秒前
ddd发布了新的文献求助10
8秒前
10秒前
爆米花应助友好的新儿采纳,获得10
11秒前
11秒前
12秒前
科研通AI2S应助zzx采纳,获得10
12秒前
14秒前
叮咚心泉发布了新的文献求助20
15秒前
16秒前
芒果哼哼完成签到 ,获得积分10
16秒前
zhangjing完成签到,获得积分10
16秒前
17秒前
xsm关闭了xsm文献求助
17秒前
阿拉发布了新的文献求助10
18秒前
嘉心糖应助科研通管家采纳,获得30
19秒前
深情安青应助科研通管家采纳,获得10
19秒前
Marciu33应助科研通管家采纳,获得10
19秒前
充电宝应助科研通管家采纳,获得10
19秒前
香蕉觅云应助科研通管家采纳,获得10
19秒前
丰知然应助科研通管家采纳,获得10
19秒前
丰知然应助科研通管家采纳,获得10
19秒前
大个应助科研通管家采纳,获得10
20秒前
田様应助科研通管家采纳,获得10
20秒前
模糊中正应助科研通管家采纳,获得20
20秒前
20秒前
研友_yLpQrn完成签到,获得积分10
20秒前
遥远发布了新的文献求助30
21秒前
玉米完成签到,获得积分10
23秒前
李富贵发布了新的文献求助10
23秒前
汤姆发布了新的文献求助10
23秒前
悦悦呀完成签到 ,获得积分10
26秒前
111关闭了111文献求助
26秒前
李富贵完成签到,获得积分20
31秒前
Orange应助芒果哼哼采纳,获得10
36秒前
老迟到的小蘑菇完成签到,获得积分10
39秒前
40秒前
高分求助中
Licensing Deals in Pharmaceuticals 2019-2024 3000
Cognitive Paradigms in Knowledge Organisation 2000
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger Heßler, Claudia, Rud 1000
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 1000
Natural History of Mantodea 螳螂的自然史 1000
A Photographic Guide to Mantis of China 常见螳螂野外识别手册 800
How Maoism Was Made: Reconstructing China, 1949-1965 800
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 量子力学 冶金 电极
热门帖子
关注 科研通微信公众号,转发送积分 3316718
求助须知:如何正确求助?哪些是违规求助? 2948488
关于积分的说明 8540905
捐赠科研通 2624376
什么是DOI,文献DOI怎么找? 1436143
科研通“疑难数据库(出版商)”最低求助积分说明 665796
邀请新用户注册赠送积分活动 651724