A Survey of Cross-Modal Visual Content Generation

计算机科学 模式 标杆管理 情态动词 模态(人机交互) 数据科学 钥匙(锁) 领域(数学) 资源(消歧) 连贯性(哲学赌博策略) 人工智能 多媒体 业务 纯数学 高分子化学 社会学 量子力学 营销 数学 计算机安全 物理 化学 社会科学 计算机网络
作者
Fatemeh Nazarieh,Zhenhua Feng,Muhammad Awais,Wenwu Wang,Josef Kittler
出处
期刊:IEEE Transactions on Circuits and Systems for Video Technology [Institute of Electrical and Electronics Engineers]
卷期号:34 (8): 6814-6832
标识
DOI:10.1109/tcsvt.2024.3351601
摘要

Cross-modal content generation has become very popular in recent years. To generate high-quality and realistic content, a variety of methods have been proposed. Among these approaches, visual content generation has attracted significant attention from academia and industry due to its vast potential in various applications. This survey provides an overview of recent advances in visual content generation conditioned on other modalities, such as text, audio, speech, and music, with a focus on their key contributions to the community. In addition, we summarize the existing publicly available datasets that can be used for training and benchmarking cross-modal visual content generation models. We provide an in-depth exploration of the datasets used for audio-to-visual content generation, filling a gap in the existing literature. Various evaluation metrics are also introduced along with the datasets. Furthermore, we discuss the challenges and limitations encountered in the area, such as modality alignment and semantic coherence. Last, we outline possible future directions for synthesizing visual content from other modalities including the exploration of new modalities, and the development of multi-task multi-modal networks. This survey serves as a resource for researchers interested in quickly gaining insights into this burgeoning field.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
CodeCraft应助Kawhi采纳,获得10
1秒前
bkagyin应助饱满的妙梦采纳,获得10
3秒前
腼腆的襄完成签到,获得积分10
3秒前
3秒前
3秒前
3秒前
3秒前
4秒前
搬砖的冰美式完成签到,获得积分10
5秒前
科研通AI5应助朱莉采纳,获得10
5秒前
5秒前
小恐龙完成签到,获得积分10
5秒前
6秒前
Sean发布了新的文献求助10
6秒前
可爱的函函应助sresr采纳,获得10
7秒前
lyh发布了新的文献求助10
7秒前
领导范儿应助hiimcwn采纳,获得10
8秒前
NexusExplorer应助易槐采纳,获得10
8秒前
9秒前
livresse发布了新的文献求助10
10秒前
ljy发布了新的文献求助10
10秒前
nihao完成签到,获得积分10
10秒前
t通发布了新的文献求助10
10秒前
赵爽爽完成签到 ,获得积分0
10秒前
Sean完成签到,获得积分10
10秒前
Shirley完成签到,获得积分20
10秒前
王金农完成签到,获得积分10
11秒前
12秒前
13秒前
旦旦旦旦旦旦完成签到,获得积分10
13秒前
清欢发布了新的文献求助10
13秒前
赘婿应助小脸红扑扑采纳,获得10
13秒前
隐形曼青应助小可爱采纳,获得10
15秒前
15秒前
15秒前
16秒前
酷炫的乐枫完成签到,获得积分10
16秒前
hiimcwn完成签到,获得积分10
16秒前
搜集达人应助腾腾腾采纳,获得10
16秒前
17秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
All the Birds of the World 4000
Production Logging: Theoretical and Interpretive Elements 3000
Musculoskeletal Pain - Market Insight, Epidemiology And Market Forecast - 2034 2000
Animal Physiology 2000
Am Rande der Geschichte : mein Leben in China / Ruth Weiss 1500
CENTRAL BOOKS: A BRIEF HISTORY 1939 TO 1999 by Dave Cope 1000
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3745349
求助须知:如何正确求助?哪些是违规求助? 3288288
关于积分的说明 10058133
捐赠科研通 3004507
什么是DOI,文献DOI怎么找? 1649669
邀请新用户注册赠送积分活动 785484
科研通“疑难数据库(出版商)”最低求助积分说明 751108