发布文献求助

Image as a Foreign Language: BEIT Pretraining for Vision and Vision-Language Tasks

计算机科学人工智能计算机视觉图像（数学）外语机器视觉自然语言处理语言学语音识别哲学

作者

Wenhui Wang,Hangbo Bao,Dong Li,Johan Björck,Zhiliang Peng,Qiang Liu,Kriti Aggarwal,Owais Khan Mohammed,Saksham Singhal,Subhojit Som,Furu Wei

标识

DOI：10.1109/cvpr52729.2023.01838

摘要

A big convergence of language, vision, and multimodal pretraining is emerging. In this work, we introduce a general-purpose multimodal foundation model BEIT-3, which achieves excellent transfer performance on both vision and vision-language tasks. Specifically, we advance the big convergence from three aspects: backbone architecture, pretraining task, and model scaling up. We use Multiway Transformers for general-purpose modeling, where the modular architecture enables both deep fusion and modality-specific encoding. Based on the shared backbone, we perform masked "language" modeling on images (Imglish), texts (English), and image-text pairs ("parallel sentences") in a unified manner. Experimental results show that BEIT-3 obtains remarkable performance on object detection (COCO), semantic segmentation (ADE20K), image classification (ImageNet), visual reasoning (NLVR2), visual question answering (VQAv2), image captioning (COCO), and cross-modal retrieval (Flickr30K, COCO).

求助该文献

科研通智能强力驱动
Strongly Powered by AbleSci AI

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

活动

『应助活动周』获奖名单已公布 🔥 (2025-4-2)

更新

『中科院2025期刊分区』已更新 (2025-3-23)

更新

『即时热点』模块已上线 (2025-2-28)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: 独特乘云完成签到，获得积分10

1秒前; 踏实的怜菡完成签到，获得积分10

5秒前; 小蘑菇的应助被良辰采纳，获得10

6秒前; 852上传了应助文件

6秒前; 竹桃完成签到，获得积分10

7秒前; 科研通AI5上传了应助文件

8秒前; 葵屿完成签到，获得积分10

9秒前; Kyrie完成签到，获得积分10

10秒前; 自信的坤发布了新的文献求助10

11秒前; wgm完成签到，获得积分10

11秒前; hhyy完成签到，获得积分10

12秒前; 123完成签到，获得积分10

12秒前; 科研通AI5上传了应助文件

12秒前; xiaojian_291发布了新的文献求助20

13秒前; 细心香烟完成签到，获得积分10

13秒前; 星际舟完成签到，获得积分10

14秒前; 英俊丹寒完成签到，获得积分10

14秒前; 李健的粉丝团团长的应助被自信的坤采纳，获得10

16秒前; 复杂易文发布了新的文献求助10

17秒前; 小六子123完成签到，获得积分10

19秒前; weizhi完成签到，获得积分10

20秒前; 专注的安卉完成签到，获得积分20

20秒前; zhang完成签到，获得积分10

22秒前; 科研通AI5上传了应助文件

23秒前; 金蛋蛋完成签到，获得积分10

23秒前; 科研通AI5的应助被百里如雪采纳，获得10

24秒前; for_abSCI完成签到，获得积分10

24秒前; jing完成签到，获得积分10

25秒前; 田様的应助被gapsong采纳，获得10

26秒前; zhaxiao发布了新的文献求助10

27秒前; 科研通AI5上传了应助文件

28秒前; 粗犷的灵松完成签到，获得积分10

30秒前; 包容友儿完成签到，获得积分10

31秒前; 黄柠檬完成签到，获得积分20

31秒前; Hindiii完成签到，获得积分10

31秒前; wanci的应助被yangyang采纳，获得10

33秒前; chenxilulu完成签到，获得积分10

33秒前; 科研通AI5上传了应助文件

34秒前; 善学以致用的应助被高贵季节采纳，获得10

34秒前; GSQ发布了新的文献求助10

34秒前

高分求助中: 【此为提示信息，请勿应助】请按要求发布求助，避免被关 20000; Production Logging: Theoretical and Interpretive Elements 3000; CRC Handbook of Chemistry and Physics 104th edition 1000; Density Functional Theory: A Practical Introduction, 2nd Edition 890; Izeltabart tapatansine - AdisInsight 600; Introduction to Comparative Public Administration Administrative Systems and Reforms in Europe, Third Edition 3rd edition 500; Distinct Aggregation Behaviors and Rheological Responses of Two Terminally Functionalized Polyisoprenes with Different Quadruple Hydrogen Bonding Motifs 450

热门求助领域（近24小时）

热门帖子: 关注科研通微信公众号，转发送积分 3761136; 求助须知：如何正确求助？哪些是违规求助？ 3305089; 关于积分的说明 10132226; 捐赠科研通 3019082; 什么是DOI，文献DOI怎么找？ 1657974; 邀请新用户注册赠送积分活动 791747; 科研通“疑难数据库（出版商）”最低求助积分说明 754608

今日热心研友

昏睡的蟠桃

剑指东方是为谁

一蓑烟雨任平生

注：热心度 = 本日应助数 + 本日被采纳获取积分÷10

Copyright © 2020-2025 AbleSci.COM, 科研通, All Right Reserved

科研通是非营利科研互助平台，不忘初心，为科研助力

本站互助的所有文件仅供个人学习研究用，禁止任何人把求助的所得文献进行盈利或传播

皖ICP备2024041134号-1

皖公网安备34019202002308

科研通【文献互助QQ群】：如果您有特殊求助，或发布求助超过24小时未得到应助，可加群求助，群号：941272744【点击一键加群】

科研通【志愿服务QQ群】：如果您热爱文献互助，有热心愿意为更多人服务，请加入小伙伴群，点击申请加入

关注微信服务号

科研通