Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs

推论 感知 一般化 计算机科学 代表(政治) 认知心理学 自然语言处理 人工智能 心理学 政治学 政治 数学 数学分析 神经科学 法学
作者
Mustafa Shukor,Matthieu Cord
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2405.16700
摘要

Large Language Models (LLMs) have demonstrated impressive performance on multimodal tasks, without any multimodal finetuning. They are the building block for Large Multimodal Models, yet, we still lack a proper understanding of their success. In this work, we expose frozen LLMs to image, video, audio and text inputs and analyse their internal representation aiming to understand their generalization beyond textual inputs. Findings. Perceptual tokens (1) are easily distinguishable from textual ones inside LLMs, with significantly different representations, and complete translation to textual tokens does not exist. Yet, (2) both perceptual and textual tokens activate similar LLM weights. Despite being different, (3) perceptual and textual tokens are implicitly aligned inside LLMs, we call this the implicit multimodal alignment (IMA), and argue that this is linked to architectural design, helping LLMs to generalize. This provide more evidence to believe that the generalization of LLMs to multimodal inputs is mainly due to their architecture. Implications. (1) We find a positive correlation between the implicit alignment score and the task performance, suggesting that this could act as a proxy metric for model evaluation and selection. (2) A negative correlation exists regarding hallucinations, revealing that this problem is mainly due to misalignment between the internal perceptual and textual representations. (3) Perceptual tokens change slightly throughout the model, thus, we propose different approaches to skip computations (e.g. in FFN layers), and significantly reduce the inference cost. (4) Due to the slowly changing embeddings across layers, and the high overlap between textual and multimodal activated weights, we compress LLMs by keeping only 1 subnetwork that works well across a wide range of multimodal tasks. Paper code: https://github.com/mshukor/ima-lmms.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
大胆易巧完成签到 ,获得积分10
3秒前
NexusExplorer应助科研通管家采纳,获得10
3秒前
梦在远方完成签到 ,获得积分10
4秒前
杨yang完成签到 ,获得积分10
10秒前
13秒前
四十四次日落完成签到 ,获得积分10
19秒前
木木杨完成签到,获得积分10
21秒前
背书强完成签到 ,获得积分10
22秒前
爱吃秋刀鱼的大脸猫完成签到,获得积分10
23秒前
英俊枫完成签到,获得积分10
30秒前
Zhaowx完成签到,获得积分10
35秒前
zx完成签到 ,获得积分10
39秒前
消摇完成签到,获得积分10
45秒前
Lexi完成签到 ,获得积分10
45秒前
49秒前
拾壹完成签到,获得积分10
51秒前
勤劳雪糕完成签到,获得积分10
55秒前
陶醉的翠霜完成签到 ,获得积分10
56秒前
Denning完成签到,获得积分10
58秒前
Yiling完成签到,获得积分10
58秒前
勤劳雪糕发布了新的文献求助10
59秒前
英勇的红酒完成签到 ,获得积分10
59秒前
苏漾完成签到 ,获得积分10
1分钟前
FangyingTang完成签到 ,获得积分10
1分钟前
DocZhao完成签到 ,获得积分10
1分钟前
SC完成签到 ,获得积分10
1分钟前
小小应助勤劳雪糕采纳,获得10
1分钟前
1分钟前
甦龘完成签到 ,获得积分10
1分钟前
安鹏完成签到 ,获得积分20
1分钟前
飞雪完成签到,获得积分10
1分钟前
墨墨完成签到 ,获得积分10
1分钟前
ceeray23应助默默的巧荷采纳,获得10
1分钟前
雪妮完成签到 ,获得积分10
1分钟前
留胡子的丹彤完成签到 ,获得积分10
1分钟前
来了来了完成签到 ,获得积分10
1分钟前
1分钟前
荔枝完成签到 ,获得积分10
1分钟前
微雨若,,完成签到 ,获得积分10
1分钟前
平常的三问完成签到 ,获得积分10
2分钟前
高分求助中
All the Birds of the World 4000
Production Logging: Theoretical and Interpretive Elements 3000
Animal Physiology 2000
Les Mantodea de Guyane Insecta, Polyneoptera 2000
Am Rande der Geschichte : mein Leben in China / Ruth Weiss 1500
CENTRAL BOOKS: A BRIEF HISTORY 1939 TO 1999 by Dave Cope 1000
Machine Learning Methods in Geoscience 1000
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3736714
求助须知:如何正确求助?哪些是违规求助? 3280670
关于积分的说明 10020272
捐赠科研通 2997406
什么是DOI,文献DOI怎么找? 1644527
邀请新用户注册赠送积分活动 782060
科研通“疑难数据库(出版商)”最低求助积分说明 749656