亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Speech Enhancement and Dereverberation With Diffusion-Based Generative Models

计算机科学 判别式 语音增强 噪音(视频) 语音识别 一般化 形式主义(音乐) 过程(计算) 人工智能 降噪 数学 艺术 数学分析 音乐剧 视觉艺术 图像(数学) 操作系统
作者
Julius Richter,Simon Welker,Jean-Marie Lemercier,Bunlong Lay,Timo Gerkmann
出处
期刊:IEEE/ACM transactions on audio, speech, and language processing [Institute of Electrical and Electronics Engineers]
卷期号:31: 2351-2364 被引量:101
标识
DOI:10.1109/taslp.2023.3285241
摘要

In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online 1 https://github.com/sp-uhh/sgmse .
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Criminology34应助科研通管家采纳,获得10
2秒前
YifanWang应助科研通管家采纳,获得30
2秒前
YifanWang应助科研通管家采纳,获得30
2秒前
YifanWang应助科研通管家采纳,获得30
2秒前
YifanWang应助科研通管家采纳,获得30
2秒前
隐形曼青应助bzlish采纳,获得10
5秒前
材料生发布了新的文献求助10
5秒前
量子星尘发布了新的文献求助10
9秒前
失眠的访枫完成签到 ,获得积分10
9秒前
12秒前
15秒前
Magic麦发布了新的文献求助10
16秒前
19秒前
小祝发布了新的文献求助10
21秒前
wanci应助Magic麦采纳,获得10
27秒前
34秒前
咕咕咕咕咕完成签到 ,获得积分10
34秒前
38秒前
bzlish发布了新的文献求助10
39秒前
41秒前
希望天下0贩的0应助bzlish采纳,获得10
50秒前
58秒前
1分钟前
1分钟前
白云四季发布了新的文献求助10
1分钟前
可爱的函函应助白云四季采纳,获得10
1分钟前
1分钟前
欣欣完成签到 ,获得积分10
1分钟前
蒋灵馨完成签到 ,获得积分10
1分钟前
qin完成签到 ,获得积分10
1分钟前
1分钟前
1分钟前
sys549发布了新的文献求助10
1分钟前
Gydl完成签到,获得积分10
1分钟前
YifanWang应助科研通管家采纳,获得30
2分钟前
bkagyin应助科研通管家采纳,获得10
2分钟前
CipherSage应助科研通管家采纳,获得10
2分钟前
英俊的铭应助科研通管家采纳,获得10
2分钟前
YifanWang应助科研通管家采纳,获得30
2分钟前
YifanWang应助科研通管家采纳,获得30
2分钟前
高分求助中
2025-2031全球及中国金刚石触媒粉行业研究及十五五规划分析报告 40000
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Introduction to strong mixing conditions volume 1-3 5000
Agyptische Geschichte der 21.30. Dynastie 3000
Les Mantodea de guyane 2000
Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 2000
„Semitische Wissenschaften“? 1510
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5746780
求助须知:如何正确求助?哪些是违规求助? 5438963
关于积分的说明 15355882
捐赠科研通 4886788
什么是DOI,文献DOI怎么找? 2627441
邀请新用户注册赠送积分活动 1575905
关于科研通互助平台的介绍 1532642