Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

计算机科学 图像(数学) 忠诚 语言模型 人工智能 水准点(测量) 自然语言处理 地图学 地理 电信
作者
Chitwan Saharia,William Chan,Saurabh Saxena,Lala Li,Jay Whang,Emily Denton,Seyed Kamyar Seyed Ghasemipour,Burcu Karagol Ayan,S. Sara Mahdavi,Rapha Gontijo Lopes,Tim Salimans,Jonathan Ho,David J. Fleet,Mohammad Norouzi
出处
期刊:Cornell University - arXiv 被引量:2091
标识
DOI:10.48550/arxiv.2205.11487
摘要

We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of language understanding. Imagen builds on the power of large transformer language models in understanding text and hinges on the strength of diffusion models in high-fidelity image generation. Our key discovery is that generic large language models (e.g. T5), pretrained on text-only corpora, are surprisingly effective at encoding text for image synthesis: increasing the size of the language model in Imagen boosts both sample fidelity and image-text alignment much more than increasing the size of the image diffusion model. Imagen achieves a new state-of-the-art FID score of 7.27 on the COCO dataset, without ever training on COCO, and human raters find Imagen samples to be on par with the COCO data itself in image-text alignment. To assess text-to-image models in greater depth, we introduce DrawBench, a comprehensive and challenging benchmark for text-to-image models. With DrawBench, we compare Imagen with recent methods including VQ-GAN+CLIP, Latent Diffusion Models, and DALL-E 2, and find that human raters prefer Imagen over other models in side-by-side comparisons, both in terms of sample quality and image-text alignment. See https://imagen.research.google/ for an overview of the results.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
精明紫萍完成签到,获得积分10
刚刚
桐桐应助牛爷爷采纳,获得10
1秒前
1秒前
1秒前
深情安青应助简单的冰真采纳,获得10
1秒前
旺大财完成签到,获得积分10
1秒前
sss发布了新的文献求助10
2秒前
Jeremy完成签到,获得积分10
2秒前
2秒前
2秒前
2秒前
青塘龙仔发布了新的文献求助10
3秒前
3秒前
hyyy完成签到 ,获得积分20
3秒前
3秒前
4秒前
4秒前
5秒前
乐乐应助等待的弘文采纳,获得10
5秒前
6秒前
zzulee完成签到,获得积分10
6秒前
沐白发布了新的文献求助10
6秒前
梦明发布了新的文献求助10
7秒前
李爱国应助方方方方方采纳,获得10
7秒前
科研通AI6.2应助zw0907采纳,获得10
8秒前
hyyy关注了科研通微信公众号
8秒前
8秒前
8秒前
9秒前
9秒前
9秒前
9秒前
9秒前
ardejiang发布了新的文献求助10
9秒前
fupaiyunyan发布了新的文献求助50
9秒前
10秒前
科研通AI6.1应助勇敢小羊采纳,获得10
10秒前
10秒前
11秒前
11秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Kinesiophobia : a new view of chronic pain behavior 3000
Les Mantodea de guyane 2500
Molecular Biology of Cancer: Mechanisms, Targets, and Therapeutics 2000
What is the Future of Psychotherapy in a Digital Age? 700
The Psychological Quest for Meaning 600
Zeolites: From Fundamentals to Emerging Applications 600
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5955172
求助须知:如何正确求助?哪些是违规求助? 7165292
关于积分的说明 15937270
捐赠科研通 5090001
什么是DOI,文献DOI怎么找? 2735504
邀请新用户注册赠送积分活动 1696337
关于科研通互助平台的介绍 1617268