发布文献求助

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

基础（证据）介绍（产科）计算机科学多模式学习数据科学人工智能政治学医学放射科法学

作者

Chunyuan Li,Zhe Gan,Zhengyuan Yang,Jianwei Yang,Linjie Li,Lijuan Wang,Jianfeng Gao

出处

期刊：Cornell University - arXiv 日期：2023-01-01 被引量：9

链接

arxiv.org datacite.orgdoi.org

标识

DOI：10.48550/arxiv.2309.10020

摘要

This paper presents a comprehensive survey of the taxonomy and evolution of multimodal foundation models that demonstrate vision and vision-language capabilities, focusing on the transition from specialist models to general-purpose assistants. The research landscape encompasses five core topics, categorized into two classes. (i) We start with a survey of well-established research areas: multimodal foundation models pre-trained for specific purposes, including two topics -- methods of learning vision backbones for visual understanding and text-to-image generation. (ii) Then, we present recent advances in exploratory, open research areas: multimodal foundation models that aim to play the role of general-purpose assistants, including three topics -- unified vision models inspired by large language models (LLMs), end-to-end training of multimodal LLMs, and chaining multimodal tools with LLMs. The target audiences of the paper are researchers, graduate students, and professionals in computer vision and vision-language multimodal communities who are eager to learn the basics and recent advances in multimodal foundation models.

求助该文献

最长约 10秒，即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

更新

2024年影响因子查询已上线 (2024-6-20)

更新

大幅提高文件上传限制，最高150M (2024-4-1)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: 科研通AI2S上传了应助文件

刚刚; 科研通AI2S的应助被xiaoran采纳，获得10

1秒前; 文艺雪糕完成签到，获得积分10

2秒前; sbrcpyf发布了新的文献求助10

3秒前; 独钓寒江雪完成签到，获得积分10

3秒前; ljycasey完成签到，获得积分10

5秒前; 善学以致用的应助被朝暮行行采纳，获得10

5秒前; 小二郎上传了应助文件

9秒前; 在水一方上传了应助文件

11秒前; 寒冷苞络完成签到，获得积分10

13秒前; 善学以致用上传了应助文件

14秒前; wwwanfg完成签到，获得积分10

15秒前; hanyb发布了新的文献求助10

15秒前; 科研通AI2S上传了应助文件

15秒前; dicc发布了新的文献求助10

17秒前; 12345发布了新的文献求助10

18秒前; lilivite的应助被cherish采纳，获得30

20秒前; 可爱的函函上传了应助文件

20秒前; wwwanfg发布了新的文献求助10

21秒前; sumugeng完成签到，获得积分10

25秒前; 刘斌发布了新的文献求助10

26秒前; 科目三上传了应助文件

27秒前; 我是老大的应助被大开口采纳，获得10

31秒前; 冷静的嫣然发布了新的文献求助10

32秒前; 寻道图强上传了应助文件

33秒前; 完美世界的应助被Xx采纳，获得10

34秒前; 李爱国上传了应助文件

37秒前; 大模型的应助被宇老师采纳，获得10

39秒前; 汪洋浮萍一道开给汪洋浮萍一道开的求助进行了留言

40秒前; jkdi完成签到，获得积分10

40秒前; XZY发布了新的文献求助10

41秒前; 大个上传了应助文件

42秒前; 寻道图强上传了应助文件

43秒前; shchjasjh发布了新的文献求助10

44秒前; CipherSage的应助被sss采纳，获得10

46秒前; 大个的应助被QRE采纳，获得10

46秒前; SUKAZH完成签到，获得积分10

47秒前; 帅气的香菇发布了新的文献求助10

48秒前; 科目三的应助被科研通管家采纳，获得10

50秒前; 可爱的函函的应助被科研通管家采纳，获得10

50秒前

高分求助中: Rock-Forming Minerals, Volume 3C, Sheet Silicates: Clay Minerals 2000; The late Devonian Standard Conodont Zonation 2000; Nickel superalloy market size, share, growth, trends, and forecast 2023-2030 2000; The Lali Section: An Excellent Reference Section for Upper - Devonian in South China 1500; The Healthy Socialist Life in Maoist China 600; The Vladimirov Diaries [by Peter Vladimirov] 600; A new species of Coccus (Homoptera: Coccoidea) from Malawi 500

热门求助领域（近24小时）

热门帖子: 关注科研通微信公众号，转发送积分 3267951; 求助须知：如何正确求助？哪些是违规求助？ 2907366; 关于积分的说明 8341705; 捐赠科研通 2577991; 什么是DOI，文献DOI怎么找？ 1401497; 科研通“疑难数据库（出版商）”最低求助积分说明 655037; 邀请新用户注册赠送积分活动 634108

今日热心研友

我是站长才怪

注：热心度 = 本日应助数 + 本日被采纳获取积分÷10

Copyright © 2020-2025 AbleSci.COM, 科研通, All Right Reserved

科研通是非营利科研互助平台，不忘初心，为科研助力

本站互助的所有文件仅供个人学习研究用，禁止任何人把求助的所得文献进行盈利或传播

皖ICP备2024041134号-1

皖公网安备34019202002308

科研通【文献互助QQ群】：如果您有特殊求助，或发布求助超过24小时未得到应助，可加群求助，群号：941272744【点击一键加群】

科研通【志愿服务QQ群】：如果您热爱文献互助，有热心愿意为更多人服务，请加入小伙伴群，点击申请加入

关注微信服务号

科研通