A systematic study of the class imbalance problem in convolutional neural networks

欠采样 过采样 过度拟合 人工智能 MNIST数据库 计算机科学 机器学习 背景(考古学) 公制(单位) 阈值 水准点(测量) 卷积神经网络 班级(哲学) 接收机工作特性 人工神经网络 模式识别(心理学) 一般化 图像(数学) 经济 大地测量学 古生物学 生物 地理 带宽(计算) 计算机网络 运营管理
作者
Mateusz Buda,Atsuto Maki,Maciej A. Mazurowski
出处
期刊:Neural Networks [Elsevier]
卷期号:106: 249-259 被引量:1505
标识
DOI:10.1016/j.neunet.2018.07.011
摘要

In this study, we systematically investigate the impact of class imbalance on classification performance of convolutional neural networks (CNNs) and compare frequently used methods to address the issue. Class imbalance is a common problem that has been comprehensively studied in classical machine learning, yet very limited systematic research is available in the context of deep learning. In our study, we use three benchmark datasets of increasing complexity, MNIST, CIFAR-10 and ImageNet, to investigate the effects of imbalance on classification and perform an extensive comparison of several methods to address the issue: oversampling, undersampling, two-phase training, and thresholding that compensates for prior class probabilities. Our main evaluation metric is area under the receiver operating characteristic curve (ROC AUC) adjusted to multi-class tasks since overall accuracy metric is associated with notable difficulties in the context of imbalanced data. Based on results from our experiments we conclude that (i) the effect of class imbalance on classification performance is detrimental; (ii) the method of addressing class imbalance that emerged as dominant in almost all analyzed scenarios was oversampling; (iii) oversampling should be applied to the level that completely eliminates the imbalance, whereas the optimal undersampling ratio depends on the extent of imbalance; (iv) as opposed to some classical machine learning models, oversampling does not cause overfitting of CNNs; (v) thresholding should be applied to compensate for prior class probabilities when overall number of properly classified cases is of interest.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
道交法完成签到,获得积分10
刚刚
一天一个苹果儿完成签到 ,获得积分10
2秒前
曼冬完成签到,获得积分10
2秒前
SYLH应助失眠的血茗采纳,获得10
2秒前
细心的向日葵完成签到,获得积分10
3秒前
sainanTang发布了新的文献求助10
3秒前
结算发布了新的文献求助10
6秒前
7秒前
qc完成签到,获得积分10
7秒前
8秒前
研友_LBRNbL完成签到 ,获得积分10
8秒前
含蓄文博完成签到 ,获得积分10
9秒前
科研小垃圾完成签到,获得积分10
10秒前
Xiaoyan完成签到,获得积分10
10秒前
WANG发布了新的文献求助10
12秒前
失眠的血茗完成签到,获得积分10
12秒前
12秒前
12秒前
玛琳卡迪马完成签到,获得积分10
14秒前
tong童完成签到 ,获得积分10
15秒前
马騳骉完成签到,获得积分10
15秒前
小奕完成签到,获得积分10
16秒前
美丽完成签到 ,获得积分10
17秒前
可靠的亦竹完成签到 ,获得积分10
17秒前
缓慢海蓝完成签到 ,获得积分10
17秒前
挽风风风风应助sainanTang采纳,获得10
18秒前
迷你的秋双完成签到,获得积分10
19秒前
gqb完成签到,获得积分10
19秒前
希望天下0贩的0应助小燚采纳,获得10
20秒前
Avatar完成签到,获得积分10
20秒前
maque4004完成签到,获得积分10
20秒前
程新亮完成签到 ,获得积分10
21秒前
PSCs完成签到,获得积分10
22秒前
小黄不慌完成签到,获得积分10
22秒前
六初完成签到 ,获得积分10
23秒前
小丛雨完成签到,获得积分10
24秒前
小燚完成签到 ,获得积分10
24秒前
结算完成签到,获得积分10
25秒前
平常的雁凡完成签到,获得积分10
25秒前
zw完成签到,获得积分10
26秒前
高分求助中
Aspects of Babylonian celestial divination : the lunar eclipse tablets of enuma anu enlil 1500
中央政治學校研究部新政治月刊社出版之《新政治》(第二卷第四期) 1000
Hopemont Capacity Assessment Interview manual and scoring guide 1000
Classics in Total Synthesis IV: New Targets, Strategies, Methods 1000
Mantids of the euro-mediterranean area 600
Mantodea of the World: Species Catalog Andrew M 500
Insecta 2. Blattodea, Mantodea, Isoptera, Grylloblattodea, Phasmatodea, Dermaptera and Embioptera 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 内科学 物理 纳米技术 计算机科学 基因 遗传学 化学工程 复合材料 免疫学 物理化学 细胞生物学 催化作用 病理
热门帖子
关注 科研通微信公众号,转发送积分 3434871
求助须知:如何正确求助?哪些是违规求助? 3032199
关于积分的说明 8944583
捐赠科研通 2720149
什么是DOI,文献DOI怎么找? 1492192
科研通“疑难数据库(出版商)”最低求助积分说明 689725
邀请新用户注册赠送积分活动 685877