Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

视力 通才与专种 计算机科学 机器人 人工智能 生态学 物理 天文 栖息地 生物
作者
Joshua Jones,Oier Mees,Carmelo Sferrazza,Kyle Stachowicz,Pieter Abbeel,Sergey Levine
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2501.04693
摘要

Interacting with the world is a multi-sensory experience: achieving effective general-purpose interaction requires making use of all available modalities -- including vision, touch, and audio -- to fill in gaps from partial observation. For example, when vision is occluded reaching into a bag, a robot should rely on its senses of touch and sound. However, state-of-the-art generalist robot policies are typically trained on large datasets to predict robot actions solely from visual and proprioceptive observations. In this work, we propose FuSe, a novel approach that enables finetuning visuomotor generalist policies on heterogeneous sensor modalities for which large datasets are not readily available by leveraging natural language as a common cross-modal grounding. We combine a multimodal contrastive loss with a sensory-grounded language generation loss to encode high-level semantics. In the context of robot manipulation, we show that FuSe enables performing challenging tasks that require reasoning jointly over modalities such as vision, touch, and sound in a zero-shot setting, such as multimodal prompting, compositional cross-modal prompting, and descriptions of objects it interacts with. We show that the same recipe is applicable to widely different generalist policies, including both diffusion-based generalist policies and large vision-language-action (VLA) models. Extensive experiments in the real world show that FuSeis able to increase success rates by over 20% compared to all considered baselines.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
twr发布了新的文献求助10
刚刚
刚刚
2秒前
伴夏发布了新的文献求助10
2秒前
二货发布了新的文献求助10
4秒前
脑洞疼应助火山羊采纳,获得10
4秒前
4秒前
程程发布了新的文献求助10
5秒前
caisongliang发布了新的文献求助10
5秒前
科研通AI2S应助LLLJW采纳,获得10
6秒前
明理易巧发布了新的文献求助10
7秒前
ding应助twr采纳,获得10
7秒前
7秒前
所所应助cq220采纳,获得10
9秒前
ZXY完成签到 ,获得积分10
10秒前
科研小白发布了新的文献求助10
11秒前
田兆文应助黑胡椒采纳,获得10
13秒前
Owen应助ryan采纳,获得10
13秒前
13秒前
14秒前
田兆文应助和谐续采纳,获得10
14秒前
小小怪完成签到 ,获得积分10
15秒前
科研小白完成签到,获得积分10
15秒前
16秒前
16秒前
白衣修身完成签到,获得积分10
18秒前
19秒前
小葡萄发布了新的文献求助10
19秒前
张三完成签到,获得积分10
19秒前
时见麓完成签到 ,获得积分10
19秒前
科研通AI2S应助飞天817采纳,获得10
20秒前
乐乐乐乐乐乐应助姜姜采纳,获得10
20秒前
火山羊发布了新的文献求助10
20秒前
邱清发布了新的文献求助10
21秒前
22秒前
研友_ZrlOjL发布了新的文献求助10
22秒前
曲晨完成签到,获得积分10
25秒前
ryan发布了新的文献求助10
25秒前
趙途嘵生完成签到,获得积分10
26秒前
26秒前
高分求助中
Licensing Deals in Pharmaceuticals 2019-2024 3000
Cognitive Paradigms in Knowledge Organisation 2000
Practical Pulmonary Pathology 1000
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger Heßler, Claudia, Rud 1000
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 1000
Natural History of Mantodea 螳螂的自然史 1000
A Photographic Guide to Mantis of China 常见螳螂野外识别手册 800
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 量子力学 冶金 电极
热门帖子
关注 科研通微信公众号,转发送积分 3318150
求助须知:如何正确求助?哪些是违规求助? 2949464
关于积分的说明 8546274
捐赠科研通 2625891
什么是DOI,文献DOI怎么找? 1437001
科研通“疑难数据库(出版商)”最低求助积分说明 666040
邀请新用户注册赠送积分活动 652067