ImageBind One Embedding Space to Bind Them All

嵌入 空格(标点符号) 计算机科学 人工智能 操作系统
作者
Rohit Girdhar,Alaaeldin El-Nouby,Zhuang Liu,Mannat Singh,Kalyan Vasudev Alwala,Armand Joulin,Ishan Misra
标识
DOI:10.1109/cvpr52729.2023.01457
摘要

We present ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data. We show that all combinations of paired data are not necessary to train such a joint embedding, and only image-paired data is sufficient to bind the modalities together. ImageBind can leverage recent large scale vision-language models, and extends their zero-shot capabilities to new modalities just by using their natural pairing with images. It enables novel emergent applications 'out-of-the-box' including cross-modal retrieval, composing modalities with arithmetic, cross-modal detection and generation. The emergent capabilities improve with the strength of the image encoder and we set a new state-of-the-art on emergent zero-shot recognition tasks across modalities, outperforming specialist supervised models. Finally, we show strong few-shot recognition results outperforming prior work, and that ImageBind serves as a new way to evaluate vision models for visual and non-visual tasks.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
陈龙完成签到,获得积分10
1秒前
烟花应助读书的时候采纳,获得10
2秒前
小鱼发布了新的文献求助10
3秒前
5秒前
Cyber_relic发布了新的文献求助10
5秒前
小蔡发布了新的文献求助10
5秒前
0bab2dcd关注了科研通微信公众号
6秒前
6秒前
huang完成签到,获得积分10
7秒前
勇敢的蝙蝠侠完成签到,获得积分10
15秒前
15秒前
Cyber_relic完成签到,获得积分10
15秒前
土豪的皮卡丘完成签到,获得积分10
18秒前
hackfeng完成签到,获得积分10
18秒前
19秒前
斯文败类应助读书的时候采纳,获得10
20秒前
20秒前
23秒前
screct完成签到,获得积分10
23秒前
RYAN发布了新的文献求助10
25秒前
shuangma完成签到,获得积分10
26秒前
27秒前
29秒前
29秒前
小鲨完成签到,获得积分10
30秒前
桐桐应助执着涵柳采纳,获得30
31秒前
量子星尘发布了新的文献求助10
32秒前
testmanfuxk发布了新的文献求助10
32秒前
ok发布了新的文献求助10
33秒前
myyy完成签到 ,获得积分10
33秒前
自然有手就行完成签到,获得积分10
33秒前
33秒前
星你完成签到,获得积分10
36秒前
LmY大帅比发布了新的文献求助10
39秒前
田様应助熬夜拜拜采纳,获得10
41秒前
Akim应助读书的时候采纳,获得10
41秒前
43秒前
天雷和地火完成签到,获得积分10
43秒前
冷酷瑾瑜完成签到 ,获得积分10
43秒前
高分求助中
【提示信息,请勿应助】关于scihub 10000
Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] 3000
The Mother of All Tableaux: Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 3000
徐淮辽南地区新元古代叠层石及生物地层 2000
A new approach to the extrapolation of accelerated life test data 1000
Robot-supported joining of reinforcement textiles with one-sided sewing heads 400
北师大毕业论文 基于可调谐半导体激光吸收光谱技术泄漏气体检测系统的研究 390
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4023842
求助须知:如何正确求助?哪些是违规求助? 3563836
关于积分的说明 11343764
捐赠科研通 3295164
什么是DOI,文献DOI怎么找? 1814969
邀请新用户注册赠送积分活动 889615
科研通“疑难数据库(出版商)”最低求助积分说明 813048