清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Alleviating ASR Long-Tailed Problem by Decoupling the Learning of Representation and Classification

Softmax函数 计算机科学 人工智能 分类器(UML) 推论 语音识别 特征学习 字错误率 序列学习 模式识别(心理学) 深度学习
作者
Keqi Deng,Gaofeng Cheng,Runyan Yang,Yonghong Yan
出处
期刊:IEEE/ACM transactions on audio, speech, and language processing [Institute of Electrical and Electronics Engineers]
卷期号:30: 340-354 被引量:6
标识
DOI:10.1109/taslp.2021.3138707
摘要

Recently, we have witnessed excellent improvement of end-to-end (E2E) automatic speech recognition (ASR). However, how to tackle the long-tailed data distribution problem while maintaining E2E ASR models' performance for high-frequency tokens is still challenging. To solve this challenge, we propose a novel decoupled ASR learning method for the sequence-to-sequence ASR architecture in this paper. Our method decouples the learning procedure of this model into two stages: representation learning and classification learning. In the representation learning stage, we use the encoder output of a pretrained language model as one of the ASR model’s learning targets, and propose threshold log cosine embedding loss (TLCE-loss) as the objective function. A frequency-mask cross-entropy loss (FMCE-loss) is also designed as an auxiliary loss. In the classification learning stage, we find that introducing a temperature into softmax function helps reduce the influence of negative samples on tail classes, thus mitigating the biased learning process for the classifier. Furthermore, we propose a weighted softmax (w-softmax) to adjust ASR posterior probabilities according to the token appearing frequency during inference. Additionally, we introduce tail word/character error rate (TWER / TCER) and head word/character error rate (HWER / HCER) that respectively evaluate the ASR accuracy for tail and head words/characters. Experimental results on the Switchboard and HKUST corpora show that our proposed method greatly outperforms the baseline, especially in TWER / TCER reduction. To the best of our knowledge, this is the first work to use a decoupled ASR learning method to alleviate the long-tailed problem in sequence-to-sequence ASR.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
白白嫩嫩完成签到,获得积分10
7秒前
yishuihan完成签到,获得积分10
14秒前
张医生完成签到,获得积分10
39秒前
堇笙vv完成签到,获得积分0
50秒前
jlwang发布了新的文献求助10
55秒前
葛怀锐完成签到 ,获得积分10
1分钟前
花花糖果完成签到 ,获得积分10
1分钟前
墨言无殇完成签到 ,获得积分10
1分钟前
CC完成签到,获得积分0
1分钟前
稳重的蜜蜂完成签到,获得积分10
1分钟前
小猴子完成签到 ,获得积分10
1分钟前
Hello应助稳重的蜜蜂采纳,获得10
2分钟前
莫冰雪完成签到 ,获得积分10
2分钟前
习月阳完成签到,获得积分10
2分钟前
chichenglin完成签到 ,获得积分10
2分钟前
无辜的行云完成签到 ,获得积分0
2分钟前
cai白白完成签到,获得积分0
2分钟前
ygl0217完成签到,获得积分10
2分钟前
小庄完成签到 ,获得积分10
2分钟前
luffy189完成签到 ,获得积分10
2分钟前
阿宇发布了新的文献求助10
2分钟前
Leonardi完成签到,获得积分0
2分钟前
天天快乐应助阿宇采纳,获得10
3分钟前
清秀的怀蕊完成签到 ,获得积分10
3分钟前
Jenny完成签到,获得积分10
3分钟前
彭于晏应助zzhui采纳,获得10
3分钟前
小蘑菇应助认真的新筠采纳,获得10
4分钟前
共享精神应助Jenny采纳,获得10
4分钟前
沉沉完成签到 ,获得积分0
4分钟前
通科研完成签到 ,获得积分10
4分钟前
4分钟前
阜睿完成签到 ,获得积分10
4分钟前
zzhui发布了新的文献求助10
4分钟前
4分钟前
爆米花应助wbs13521采纳,获得10
4分钟前
huiluowork完成签到 ,获得积分10
5分钟前
orange完成签到 ,获得积分10
5分钟前
llll完成签到,获得积分10
5分钟前
poki完成签到 ,获得积分10
5分钟前
zijingsy完成签到 ,获得积分10
5分钟前
高分求助中
Sustainability in Tides Chemistry 2000
Bayesian Models of Cognition:Reverse Engineering the Mind 888
Essentials of thematic analysis 700
A Dissection Guide & Atlas to the Rabbit 600
Very-high-order BVD Schemes Using β-variable THINC Method 568
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger 500
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3126176
求助须知:如何正确求助?哪些是违规求助? 2776338
关于积分的说明 7729863
捐赠科研通 2431800
什么是DOI,文献DOI怎么找? 1292260
科研通“疑难数据库(出版商)”最低求助积分说明 622696
版权声明 600417