Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

眼镜蛇 情态动词 推论 计算机科学 程序设计语言 人工智能 化学 高分子化学
作者
Han Zhao,M. Zhang,Wei Zhao,Pengxiang Ding,Siteng Huang,Donglin Wang
出处
期刊:Cornell University - arXiv 被引量:5
标识
DOI:10.48550/arxiv.2403.14520
摘要

In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, \textit{e.g.}, LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
bhzhang完成签到,获得积分10
刚刚
gh完成签到,获得积分10
刚刚
刚刚
Orange应助sss采纳,获得10
1秒前
科研助手发布了新的文献求助10
1秒前
曾经跳跳糖完成签到 ,获得积分20
3秒前
猫刀完成签到,获得积分10
3秒前
丘比特应助隐形的皮卡丘采纳,获得10
3秒前
4秒前
科研狗完成签到,获得积分10
4秒前
4秒前
放肆青春完成签到,获得积分10
5秒前
5秒前
Mida完成签到,获得积分10
5秒前
彪壮的白开水完成签到,获得积分10
6秒前
雄图完成签到,获得积分10
6秒前
6秒前
7秒前
7秒前
斯文的芹菜完成签到 ,获得积分10
7秒前
发夹发布了新的文献求助30
7秒前
英姑应助清修采纳,获得10
8秒前
8秒前
8秒前
syz完成签到,获得积分10
9秒前
9秒前
罗moumou完成签到,获得积分10
9秒前
10秒前
体贴的若剑完成签到,获得积分10
10秒前
可爱的雪卉完成签到,获得积分10
10秒前
10秒前
11秒前
yunian完成签到 ,获得积分10
11秒前
jia0完成签到,获得积分10
11秒前
ZZZZZZZZF发布了新的文献求助10
11秒前
田様应助忧伤的慕梅采纳,获得10
12秒前
splaker7完成签到,获得积分10
12秒前
12秒前
cqsjy完成签到,获得积分10
13秒前
13秒前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2700
Conference Record, IAS Annual Meeting 1977 1050
Les Mantodea de Guyane Insecta, Polyneoptera 1000
England and the Discovery of America, 1481-1620 600
Teaching language in context (Third edition) by Derewianka, Beverly; Jones, Pauline 550
Typology of Conditional Constructions 500
Facharztprüfung Kardiologie 400
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3587544
求助须知:如何正确求助?哪些是违规求助? 3156188
关于积分的说明 9509625
捐赠科研通 2858965
什么是DOI,文献DOI怎么找? 1571227
邀请新用户注册赠送积分活动 736787
科研通“疑难数据库(出版商)”最低求助积分说明 721955