TA2V: Text-Audio Guided Video Generation

计算机科学 多媒体 音频信号处理 语音识别 音频信号 语音编码
作者
Minglu Zhao,Wenmin Wang,Tongbao Chen,Rui Zhang,Ruochen Li
出处
期刊:IEEE Transactions on Multimedia [Institute of Electrical and Electronics Engineers]
卷期号:26: 7250-7264
标识
DOI:10.1109/tmm.2024.3362149
摘要

Recent conditional and unconditional video generation tasks have been accomplished mainly based on generative adversarial network (GAN), diffusion, and autoregressive models. However, in some circumstances, using only one modality cannot provide enough semantic information. Therefore, in this paper, we propose text-audio to video (TA2V) generation, a new task for generating realistic videos from two different guided modalities, text and audio, which has not been explored much thus far. Compared to image generation, video generation is a harder task because of the complexity of processing higher-dimensional data and scarcer suitable datasets, especially for multimodal video generation. To overcome these limitations, (i) we propose the Text&Audio-guided-Video-Maker (TAgVM) model, which consists of two modules: a text-guided video generator and a text&audio-guided video modifier. (ii) This model uses a 3D VQ-GAN to compress high-dimension video data to a low-dimension discrete sequence, followed by an autoregressive model to guide text-conditional generation in the latent space. Then, we apply a text&audio-guided diffusion model to the generated video scenes, providing additional semantic details corresponding to the audio and text. (iii) We introduce a newly produced music performance video dataset, the University of Rochester Multimodal Music Performance with Video-Audio-Text (URMP-VAT), and a landscape dataset, Landscape with Video-Audio-Text (Landscape-VAT), both of which include three modalities (text, audio, and video) that are aligned with each other. The results demonstrate that our model can create videos with satisfactory quality and semantic information. The source code and datasets are available at https://github.com/Minglu58/TA2V.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
ZXH完成签到,获得积分10
1秒前
1秒前
Smiling发布了新的文献求助10
1秒前
EvenCai发布了新的文献求助10
1秒前
hh完成签到 ,获得积分10
2秒前
2秒前
xiaoshi完成签到,获得积分10
2秒前
2秒前
专注严青发布了新的文献求助10
2秒前
覃晴完成签到,获得积分10
2秒前
2秒前
WN发布了新的文献求助10
3秒前
3秒前
111完成签到,获得积分10
3秒前
Paris发布了新的文献求助10
4秒前
zhongbo完成签到,获得积分10
4秒前
4秒前
4秒前
落落小兔完成签到 ,获得积分10
4秒前
SciGPT应助雨禾采纳,获得30
4秒前
SYLH应助闪闪的采梦采纳,获得10
4秒前
HMZ完成签到,获得积分10
5秒前
5秒前
一忽儿左完成签到,获得积分20
5秒前
烟花应助祝愿采纳,获得10
5秒前
酷酷妙梦发布了新的文献求助10
5秒前
liliflower应助研友_楼灵煌采纳,获得20
5秒前
6秒前
骆丹妗发布了新的文献求助10
6秒前
豆浆烩面发布了新的文献求助10
6秒前
科研通AI2S应助党弛采纳,获得10
6秒前
6秒前
风趣小蜜蜂完成签到,获得积分10
7秒前
7秒前
7秒前
7秒前
Smiling完成签到,获得积分10
8秒前
寒冷归尘发布了新的文献求助10
8秒前
苹果洋葱发布了新的文献求助10
8秒前
fw97发布了新的文献求助20
8秒前
高分求助中
【提示信息,请勿应助】关于scihub 10000
A new approach to the extrapolation of accelerated life test data 1000
徐淮辽南地区新元古代叠层石及生物地层 500
Coking simulation aids on-stream time 450
康复物理因子治疗 400
北师大毕业论文 基于可调谐半导体激光吸收光谱技术泄漏气体检测系统的研究 390
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 370
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4016344
求助须知:如何正确求助?哪些是违规求助? 3556478
关于积分的说明 11321199
捐赠科研通 3289279
什么是DOI,文献DOI怎么找? 1812421
邀请新用户注册赠送积分活动 887952
科研通“疑难数据库(出版商)”最低求助积分说明 812060