Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

图像增强 计算机科学 图像(数学) 图像质量 人工智能 计算机视觉 质量(理念) 物理 量子力学
作者
Han Huang,Yuqi Huo,Zijia Zhao,Haoyu Lu,Shu Wu,Bingning Wang,Qiang Liu,Weipeng Chen,Li Wang
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2410.16166
摘要

Multimodal large language models (MLLMs) have made significant strides by integrating visual and textual modalities. A critical factor in training MLLMs is the quality of image-text pairs within multimodal pretraining datasets. However, $\textit {de facto}$ filter-based data quality enhancement paradigms often discard a substantial portion of high-quality image data due to inadequate semantic alignment between images and texts, leading to inefficiencies in data utilization and scalability. In this paper, we propose the Adaptive Image-Text Quality Enhancer (AITQE), a model that dynamically assesses and enhances the quality of image-text pairs. AITQE employs a text rewriting mechanism for low-quality pairs and incorporates a negative sample learning strategy to improve evaluative capabilities by integrating deliberately selected low-quality samples during training. Unlike prior approaches that significantly alter text distributions, our method minimally adjusts text to preserve data volume while enhancing quality. Experimental results demonstrate that AITQE surpasses existing methods on various benchmark, effectively leveraging raw data and scaling efficiently with increasing data volumes. We hope our work will inspire future works. The code and model are available at: https://github.com/hanhuang22/AITQE.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
在水一方应助111采纳,获得10
刚刚
2226应助二傻不刮痧采纳,获得10
2秒前
研友_VZG7GZ应助hhh采纳,获得10
2秒前
胡沈焕然完成签到 ,获得积分10
3秒前
偶然发现的西柚完成签到 ,获得积分10
3秒前
龙骑士25完成签到 ,获得积分10
3秒前
4秒前
早日发文章完成签到,获得积分10
4秒前
TT001完成签到,获得积分10
5秒前
是夏夏发布了新的文献求助10
7秒前
8秒前
111发布了新的文献求助50
10秒前
干净的琦完成签到,获得积分0
12秒前
12秒前
John完成签到,获得积分10
13秒前
14秒前
cd发布了新的文献求助10
15秒前
S.S.N完成签到 ,获得积分0
18秒前
maguodrgon发布了新的文献求助10
19秒前
fen发布了新的文献求助10
19秒前
梨子完成签到,获得积分10
20秒前
从容又菡完成签到,获得积分10
21秒前
万能图书馆应助是夏夏采纳,获得10
21秒前
23秒前
hyperle完成签到,获得积分10
24秒前
学术垃圾回收站完成签到,获得积分10
24秒前
xl_c完成签到 ,获得积分10
27秒前
Finley发布了新的文献求助10
27秒前
28秒前
29秒前
严姸完成签到,获得积分10
30秒前
高挑的白旋风完成签到,获得积分10
31秒前
自觉语琴完成签到 ,获得积分10
31秒前
31秒前
31秒前
不懈奋进发布了新的文献求助10
32秒前
32秒前
Ava应助miemie采纳,获得10
33秒前
ymx关闭了ymx文献求助
33秒前
Anna完成签到 ,获得积分10
34秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Developing Genetic Editing Tools for Lysobacter 2000
Моделирование процессов самоорганизации в кристаллообразующих системах 1000
History of U.S. Space Surveillance and Satellite Cataloging 1000
Adhesion Science: Principles & Practice 800
Signals, Systems, and Signal Processing 610
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6524755
求助须知:如何正确求助?哪些是违规求助? 8318064
关于积分的说明 17800770
捐赠科研通 5626536
什么是DOI,文献DOI怎么找? 2928823
邀请新用户注册赠送积分活动 1905497
关于科研通互助平台的介绍 1765430