Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

图像增强 计算机科学 图像(数学) 图像质量 人工智能 计算机视觉 质量(理念) 物理 量子力学
作者
Han Huang,Yuqi Huo,Zijia Zhao,Haoyu Lu,Shu Wu,Bingning Wang,Qiang Liu,Weipeng Chen,Li Wang
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2410.16166
摘要

Multimodal large language models (MLLMs) have made significant strides by integrating visual and textual modalities. A critical factor in training MLLMs is the quality of image-text pairs within multimodal pretraining datasets. However, $\textit {de facto}$ filter-based data quality enhancement paradigms often discard a substantial portion of high-quality image data due to inadequate semantic alignment between images and texts, leading to inefficiencies in data utilization and scalability. In this paper, we propose the Adaptive Image-Text Quality Enhancer (AITQE), a model that dynamically assesses and enhances the quality of image-text pairs. AITQE employs a text rewriting mechanism for low-quality pairs and incorporates a negative sample learning strategy to improve evaluative capabilities by integrating deliberately selected low-quality samples during training. Unlike prior approaches that significantly alter text distributions, our method minimally adjusts text to preserve data volume while enhancing quality. Experimental results demonstrate that AITQE surpasses existing methods on various benchmark, effectively leveraging raw data and scaling efficiently with increasing data volumes. We hope our work will inspire future works. The code and model are available at: https://github.com/hanhuang22/AITQE.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
WW完成签到,获得积分10
1秒前
xuan21完成签到,获得积分10
1秒前
Wududu完成签到,获得积分10
1秒前
佚名发布了新的文献求助10
1秒前
LIYANG完成签到,获得积分10
1秒前
1秒前
2秒前
小小发布了新的文献求助10
2秒前
迅速难破发布了新的文献求助10
2秒前
Fairy完成签到,获得积分10
3秒前
乐乐应助saaa采纳,获得10
3秒前
3秒前
斯文败类应助213435采纳,获得10
3秒前
3秒前
ChenGY应助simon采纳,获得10
3秒前
rhythm发布了新的文献求助10
3秒前
BOSSJING完成签到,获得积分10
4秒前
灵巧妙柏完成签到,获得积分10
4秒前
慕青应助怡然的惊蛰采纳,获得10
4秒前
4秒前
量子星尘发布了新的文献求助10
5秒前
小瓢虫发布了新的文献求助10
5秒前
小兰花完成签到,获得积分10
5秒前
5秒前
wqy完成签到,获得积分10
5秒前
huhu完成签到,获得积分10
5秒前
Om发布了新的文献求助20
5秒前
6秒前
小小灯笼完成签到,获得积分10
6秒前
zz完成签到,获得积分10
6秒前
木易木土完成签到,获得积分10
6秒前
科研通AI6.2应助旭辰采纳,获得10
6秒前
sunyuice完成签到 ,获得积分10
7秒前
科研狗应助大大采纳,获得50
7秒前
苏苏完成签到,获得积分10
7秒前
Owen应助BOSSJING采纳,获得10
7秒前
深情安青应助ZH采纳,获得10
7秒前
hhh完成签到,获得积分10
7秒前
顺利毕业完成签到 ,获得积分10
7秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Burger's Medicinal Chemistry, Drug Discovery and Development, Volumes 1 - 8, 8 Volume Set, 8th Edition 1800
Cronologia da história de Macau 1600
Contemporary Debates in Epistemology (3rd Edition) 1000
International Arbitration Law and Practice 1000
文献PREDICTION EQUATIONS FOR SHIPS' TURNING CIRCLES或期刊Transactions of the North East Coast Institution of Engineers and Shipbuilders第95卷 1000
BRITTLE FRACTURE IN WELDED SHIPS 1000
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 纳米技术 计算机科学 化学工程 生物化学 物理 复合材料 内科学 催化作用 物理化学 光电子学 细胞生物学 基因 电极 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6159609
求助须知:如何正确求助?哪些是违规求助? 7987673
关于积分的说明 16601302
捐赠科研通 5268076
什么是DOI,文献DOI怎么找? 2810829
邀请新用户注册赠送积分活动 1790976
关于科研通互助平台的介绍 1658054