An ensemble 1D-CNN-LSTM-GRU model with data augmentation for speech emotion recognition

计算机科学 语音识别 光谱图 人工智能 特征(语言学) 卷积神经网络 水准点(测量) 特征提取 光学(聚焦) 模式识别(心理学) 哲学 语言学 物理 大地测量学 光学 地理
作者
Md. Rayhan Ahmed,Salekul Islam,A. K. M. Muzahidul Islam,Swakkhar Shatabda
出处
期刊:Expert Systems With Applications [Elsevier]
卷期号:218: 119633-119633 被引量:51
标识
DOI:10.1016/j.eswa.2023.119633
摘要

Precise recognition of emotion from speech signals aids in enhancing human–computer interaction (HCI). The performance of a speech emotion recognition (SER) system depends on the derived features from speech signals. However, selecting the optimal set of feature representations remains the most challenging task in SER because the effectiveness of features varies with emotions. Most studies extract hidden local speech features ignoring the global long-term contextual representations of speech signals. The existing SER system suffers from low recognition performance mainly due to the scarcity of available data and sub-optimal feature representations. Motivated by the efficient feature extraction of convolutional neural network (CNN), long short-term memory (LSTM), and gated recurrent unit (GRU), this article proposes an ensemble utilizing the combined predictive performance of three different architectures. The first architecture uses 1D CNN followed by Fully Connected Networks (FCN). In the other two architectures, LSTM-FCN and GRU-FCN layers follow the CNN layer respectively. All three individual models focus on extracting both local and long-term global contextual representations of speech signals. The ensemble uses a weighted average of the individual models. We evaluated the model's performance on five benchmark datasets: TESS, EMO-DB, RAVDESS, SAVEE, and CREMA-D. We have augmented the data by injecting additive white gaussian noise, pitch shifting, and stretching the signal level to obtain better model generalization. Five categories of features were extracted from the speech samples: mel-frequency cepstral coefficients, log mel-scaled spectrogram, zero-crossing rate, chromagram, and root mean square value from each audio file in those datasets. All four models perform exceptionally well in the SER task; notably, the ensemble model accomplishes the state-of-the-art (SOTA) weighted average accuracy of 99.46% for TESS, 95.42% for EMO-DB, 95.62% for RAVDESS, 93.22% for SAVEE, and 90.47% for CREMA-D datasets and thus significantly outperformed the SOTA models using the same datasets.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
舒心的青槐完成签到 ,获得积分10
9秒前
追寻念云完成签到 ,获得积分10
15秒前
呆萌滑板完成签到 ,获得积分10
21秒前
Avicii完成签到 ,获得积分10
22秒前
刘刘完成签到 ,获得积分10
22秒前
benben应助呆萌冷风采纳,获得20
36秒前
虚幻元风完成签到 ,获得积分10
36秒前
烂漫人达完成签到 ,获得积分10
37秒前
49秒前
行云流水发布了新的文献求助10
56秒前
jbear完成签到 ,获得积分10
58秒前
修士完成签到 ,获得积分10
1分钟前
王磊完成签到 ,获得积分10
1分钟前
Akim应助科研通管家采纳,获得10
1分钟前
daisy完成签到 ,获得积分10
1分钟前
科研佟完成签到 ,获得积分10
1分钟前
GuangboXia完成签到,获得积分10
1分钟前
宋欢完成签到 ,获得积分10
2分钟前
无辜的行云完成签到 ,获得积分0
2分钟前
孤独的问凝完成签到,获得积分10
2分钟前
鹏程万里完成签到,获得积分10
2分钟前
一一一多完成签到 ,获得积分10
2分钟前
小白白白完成签到 ,获得积分10
2分钟前
btcat完成签到,获得积分10
3分钟前
林洁佳完成签到,获得积分10
3分钟前
笨笨完成签到,获得积分10
3分钟前
吴丹完成签到,获得积分10
3分钟前
克丽完成签到 ,获得积分10
3分钟前
SciGPT应助行云流水采纳,获得10
3分钟前
行云流水完成签到,获得积分10
3分钟前
一墨完成签到,获得积分10
4分钟前
徐悦完成签到,获得积分10
4分钟前
班小班完成签到,获得积分10
4分钟前
柒八染完成签到 ,获得积分10
4分钟前
4分钟前
4分钟前
Yuuuu完成签到 ,获得积分10
4分钟前
digger2023完成签到 ,获得积分10
4分钟前
科研野狗完成签到 ,获得积分10
4分钟前
但大图完成签到 ,获得积分10
4分钟前
高分求助中
LNG地下式貯槽指針(JGA Guideline-107)(LNG underground storage tank guidelines) 1000
Generalized Linear Mixed Models 第二版 1000
Preparation and Characterization of Five Amino-Modified Hyper-Crosslinked Polymers and Performance Evaluation for Aged Transformer Oil Reclamation 700
Operative Techniques in Pediatric Orthopaedic Surgery 510
Full waveform acoustic data processing 500
A High Efficiency Grating Coupler Based on Hybrid Si-Lithium Niobate on Insulator Platform 500
人工地层冻结稳态温度场边界分离方法及新解答 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2926585
求助须知:如何正确求助?哪些是违规求助? 2575102
关于积分的说明 6951743
捐赠科研通 2226777
什么是DOI,文献DOI怎么找? 1183515
版权声明 589225
科研通“疑难数据库(出版商)”最低求助积分说明 579178