Audio-Synchronized Visual Animation

视听 计算机科学 动画 计算机图形学(图像) 多媒体
作者
Lin Zhang,Shentong Mo,Yijing Zhang,Pedro Morgado
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2403.05659
摘要

Current visual generation methods can produce high quality videos guided by texts. However, effectively controlling object dynamics remains a challenge. This work explores audio as a cue to generate temporally synchronized image animations. We introduce Audio Synchronized Visual Animation (ASVA), a task animating a static image to demonstrate motion dynamics, temporally guided by audio clips across multiple classes. To this end, we present AVSync15, a dataset curated from VGGSound with videos featuring synchronized audio visual events across 15 categories. We also present a diffusion model, AVSyncD, capable of generating dynamic animations guided by audios. Extensive evaluations validate AVSync15 as a reliable benchmark for synchronized generation and demonstrate our models superior performance. We further explore AVSyncDs potential in a variety of audio synchronized generation tasks, from generating full videos without a base image to controlling object motions with various sounds. We hope our established benchmark can open new avenues for controllable visual generation. More videos on project webpage https://lzhangbj.github.io/projects/asva/asva.html.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
嘉欣发布了新的文献求助10
刚刚
蒋美桥发布了新的文献求助10
1秒前
2秒前
浮游应助科研通管家采纳,获得10
3秒前
浮游应助科研通管家采纳,获得10
3秒前
天天快乐应助科研通管家采纳,获得10
3秒前
浮游应助科研通管家采纳,获得10
3秒前
浮游应助科研通管家采纳,获得10
4秒前
小由同学完成签到,获得积分10
4秒前
shencheng完成签到,获得积分10
4秒前
伶俐的凉面应助小王梓采纳,获得10
5秒前
6秒前
Orange应助美妮采纳,获得10
8秒前
量子星尘发布了新的文献求助10
11秒前
xiaotian发布了新的文献求助10
11秒前
坚定的逍遥关注了科研通微信公众号
11秒前
123完成签到 ,获得积分10
14秒前
15秒前
莫羽倾尘发布了新的文献求助10
15秒前
16秒前
16秒前
17秒前
17秒前
18秒前
18秒前
19秒前
深情安青应助捏捏采纳,获得10
19秒前
小由同学发布了新的文献求助30
19秒前
善学以致用应助xiaotian采纳,获得10
19秒前
小青椒应助彼岸花开采纳,获得50
20秒前
miao发布了新的文献求助10
20秒前
21秒前
小蘑菇应助蒋美桥采纳,获得10
22秒前
jj发布了新的文献求助10
22秒前
和谐的饼干完成签到,获得积分10
22秒前
Ava应助美丽的靖雁采纳,获得50
22秒前
123发布了新的文献求助10
22秒前
22秒前
含蓄以云完成签到,获得积分10
23秒前
23秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Introduction to Early Childhood Education 1000
2025-2031年中国兽用抗生素行业发展深度调研与未来趋势报告 1000
List of 1,091 Public Pension Profiles by Region 921
Identifying dimensions of interest to support learning in disengaged students: the MINE project 800
Synthesis and properties of compounds of the type A (III) B2 (VI) X4 (VI), A (III) B4 (V) X7 (VI), and A3 (III) B4 (V) X9 (VI) 500
Antihistamine substances. XXII; Synthetic antispasmodics. IV. Basic ethers derived from aliphatic carbinols and α-substituted benzyl alcohols 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5430672
求助须知:如何正确求助?哪些是违规求助? 4543691
关于积分的说明 14188718
捐赠科研通 4462088
什么是DOI,文献DOI怎么找? 2446408
邀请新用户注册赠送积分活动 1437782
关于科研通互助平台的介绍 1414523