Speech emotion recognition using deep 1D & 2D CNN LSTM networks

计算机科学 联营 卷积神经网络 人工智能 水准点(测量) 深度学习 特征(语言学) 图层(电子) 语音识别 光谱图 网络体系结构 深信不疑网络 模式识别(心理学) 循环神经网络 人工神经网络 哲学 有机化学 化学 语言学 地理 计算机安全 大地测量学
作者
Jianfeng Zhao,Xia Mao,Lijiang Chen
出处
期刊:Biomedical Signal Processing and Control [Elsevier]
卷期号:47: 312-323 被引量:734
标识
DOI:10.1016/j.bspc.2018.08.035
摘要

We aimed at learning deep emotion features to recognize speech emotion. Two convolutional neural network and long short-term memory (CNN LSTM) networks, one 1D CNN LSTM network and one 2D CNN LSTM network, were constructed to learn local and global emotion-related features from speech and log-mel spectrogram respectively. The two networks have the similar architecture, both consisting of four local feature learning blocks (LFLBs) and one long short-term memory (LSTM) layer. LFLB, which mainly contains one convolutional layer and one max-pooling layer, is built for learning local correlations along with extracting hierarchical correlations. LSTM layer is adopted to learn long-term dependencies from the learned local features. The designed networks, combinations of the convolutional neural network (CNN) and LSTM, can take advantage of the strengths of both networks and overcome the shortcomings of them, and are evaluated on two benchmark databases. The experimental results show that the designed networks achieve excellent performance on the task of recognizing speech emotion, especially the 2D CNN LSTM network outperforms the traditional approaches, Deep Belief Network (DBN) and CNN on the selected databases. The 2D CNN LSTM network achieves recognition accuracies of 95.33% and 95.89% on Berlin EmoDB of speaker-dependent and speaker-independent experiments respectively, which compare favourably to the accuracy of 91.6% and 92.9% obtained by traditional approaches; and also yields recognition accuracies of 89.16% and 52.14% on IEMOCAP database of speaker-dependent and speaker-independent experiments, which are much higher than the accuracy of 73.78% and 40.02% obtained by DBN and CNN.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
感性的神级完成签到,获得积分10
9秒前
无花果应助yun采纳,获得10
12秒前
星星完成签到 ,获得积分10
14秒前
科研張完成签到,获得积分10
34秒前
heyan完成签到,获得积分10
35秒前
TAO LEE完成签到 ,获得积分10
45秒前
夏日完成签到 ,获得积分10
1分钟前
1分钟前
多克特里完成签到 ,获得积分10
1分钟前
明理囧完成签到 ,获得积分10
1分钟前
yun发布了新的文献求助10
1分钟前
wl5289完成签到 ,获得积分10
1分钟前
yun完成签到,获得积分10
1分钟前
chenying完成签到 ,获得积分0
1分钟前
迈克老狼完成签到 ,获得积分10
1分钟前
kanong完成签到,获得积分0
2分钟前
洋山芋完成签到 ,获得积分10
2分钟前
令狐新竹完成签到 ,获得积分10
2分钟前
陈陈完成签到 ,获得积分10
2分钟前
钮祜禄萱完成签到 ,获得积分10
2分钟前
sera完成签到 ,获得积分10
2分钟前
丸子完成签到 ,获得积分10
2分钟前
陈昇完成签到 ,获得积分10
2分钟前
舒心的青槐完成签到 ,获得积分10
2分钟前
追寻念云完成签到 ,获得积分10
3分钟前
呆萌滑板完成签到 ,获得积分10
3分钟前
Avicii完成签到 ,获得积分10
3分钟前
刘刘完成签到 ,获得积分10
3分钟前
benben应助呆萌冷风采纳,获得20
3分钟前
虚幻元风完成签到 ,获得积分10
3分钟前
烂漫人达完成签到 ,获得积分10
3分钟前
3分钟前
行云流水发布了新的文献求助10
3分钟前
jbear完成签到 ,获得积分10
3分钟前
修士完成签到 ,获得积分10
3分钟前
王磊完成签到 ,获得积分10
3分钟前
Akim应助科研通管家采纳,获得10
3分钟前
daisy完成签到 ,获得积分10
4分钟前
科研佟完成签到 ,获得积分10
4分钟前
GuangboXia完成签到,获得积分10
4分钟前
高分求助中
LNG地下式貯槽指針(JGA Guideline-107)(LNG underground storage tank guidelines) 1000
Generalized Linear Mixed Models 第二版 1000
Preparation and Characterization of Five Amino-Modified Hyper-Crosslinked Polymers and Performance Evaluation for Aged Transformer Oil Reclamation 700
Operative Techniques in Pediatric Orthopaedic Surgery 510
Full waveform acoustic data processing 500
A High Efficiency Grating Coupler Based on Hybrid Si-Lithium Niobate on Insulator Platform 500
人工地层冻结稳态温度场边界分离方法及新解答 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2926599
求助须知:如何正确求助?哪些是违规求助? 2575125
关于积分的说明 6951753
捐赠科研通 2226777
什么是DOI,文献DOI怎么找? 1183515
版权声明 589225
科研通“疑难数据库(出版商)”最低求助积分说明 579178