亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Dawn of the Transformer Era in Speech Emotion Recognition: Closing the Valence Gap

计算机科学 价(化学) 一致相关系数 变压器 语音识别 稳健性(进化) 人工智能 自然语言处理 数学 工程类 物理 量子力学 生物化学 统计 化学 电压 电气工程 基因
作者
Johannes Wagner,Andreas Triantafyllopoulos,Hagen Wierstorf,Maximilian Schmitt,Felix Burkhardt,Florian Eyben,Björn Schuller
出处
期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence [Institute of Electrical and Electronics Engineers]
卷期号:45 (9): 10745-10759 被引量:59
标识
DOI:10.1109/tpami.2023.3263585
摘要

Recent advances in transformer-based architectures have shown promise in several machine learning tasks. In the audio domain, such architectures have been successfully utilised in the field of speech emotion recognition (SER). However, existing works have not evaluated the influence of model size and pre-training data on downstream performance, and have shown limited attention to generalisation, robustness, fairness, and efficiency. The present contribution conducts a thorough analysis of these aspects on several pre-trained variants of wav2vec 2.0 and HuBERT that we fine-tuned on the dimensions arousal, dominance, and valence of MSP-Podcast, while additionally using IEMOCAP and MOSI to test cross-corpus generalisation. To the best of our knowledge, we obtain the top performance for valence prediction without use of explicit linguistic information, with a concordance correlation coefficient (CCC) of. 638 on MSP-Podcast. Our investigations reveal that transformer-based architectures are more robust compared to a CNN-based baseline and fair with respect to gender groups, but not towards individual speakers. Finally, we show that their success on valence is based on implicit linguistic information, which explains why they perform on-par with recent multimodal approaches that explicitly utilise textual information. To make our findings reproducible, we release the best performing model to the community.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
国色不染尘完成签到,获得积分10
1秒前
诺hn完成签到 ,获得积分10
5秒前
12秒前
科研通AI2S应助科研通管家采纳,获得10
24秒前
深情安青应助科研通管家采纳,获得10
25秒前
40秒前
PinKing完成签到 ,获得积分10
41秒前
1分钟前
1分钟前
1分钟前
吴彦祖完成签到,获得积分10
1分钟前
1分钟前
2分钟前
2分钟前
神奇大药丸完成签到,获得积分10
2分钟前
桐桐应助科研通管家采纳,获得10
2分钟前
852应助科研通管家采纳,获得10
2分钟前
科研通AI2S应助科研通管家采纳,获得30
2分钟前
科研通AI2S应助科研通管家采纳,获得10
2分钟前
无花果应助xuex1采纳,获得10
2分钟前
2分钟前
2分钟前
2分钟前
xuex1发布了新的文献求助10
2分钟前
2分钟前
3分钟前
清欢完成签到 ,获得积分10
3分钟前
3分钟前
复杂曲奇发布了新的文献求助20
3分钟前
3分钟前
monster完成签到 ,获得积分10
3分钟前
Hao关闭了Hao文献求助
3分钟前
3分钟前
3分钟前
受伤雁荷发布了新的文献求助10
4分钟前
4分钟前
充电宝应助科研通管家采纳,获得10
4分钟前
4分钟前
Loukas完成签到 ,获得积分10
4分钟前
思源应助受伤雁荷采纳,获得10
4分钟前
高分求助中
The late Devonian Standard Conodont Zonation 2000
Nickel superalloy market size, share, growth, trends, and forecast 2023-2030 2000
The Lali Section: An Excellent Reference Section for Upper - Devonian in South China 1500
Very-high-order BVD Schemes Using β-variable THINC Method 910
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger 800
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 800
Saponins and sapogenins. IX. Saponins and sapogenins of Luffa aegyptica mill seeds (black variety) 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3261513
求助须知:如何正确求助?哪些是违规求助? 2902315
关于积分的说明 8319589
捐赠科研通 2572232
什么是DOI,文献DOI怎么找? 1397469
科研通“疑难数据库(出版商)”最低求助积分说明 653733
邀请新用户注册赠送积分活动 632240