An abusive text detection system based on enhanced abusive and non-abusive word lists

计算机科学 文字2vec 人工智能 自然语言处理 虐待关系 词(群论) 余弦相似度 俚语 社会化媒体 机器学习 计算机安全 万维网 毒物控制 聚类分析 家庭暴力 语言学 伤害预防 哲学 环境卫生 医学 嵌入
作者
Ho Suk Lee,Hong Rae Lee,Jun U. Park,Yo-Sub Han
出处
期刊:Decision Support Systems [Elsevier]
卷期号:113: 22-31 被引量:42
标识
DOI:10.1016/j.dss.2018.06.009
摘要

Abusive text (indiscriminate slang, abusive language, and profanity) on the Internet is not just a message but rather a tool for very serious and brutal cyber violence. It has become an important problem to devise a method for detecting and preventing abusive text online. However, the intentional obfuscation of words and phrases makes this task very difficult and challenging. We design a decision system that successfully detects (obfuscated) abusive text using an unsupervised learning of abusive words based on word2vec's skip-gram and the cosine similarity. The system also deploys several efficient gadgets for filtering abusive text such as blacklists, n-grams, edit-distance metrics, mixed languages, abbreviations, punctuation, and words with special characters to detect the intentional obfuscation of abusive words. We integrate both an unsupervised learning method and efficient gadgets into a single system that enhances abusive and non-abusive word lists. The integrated decision system based on the enhanced word lists shows a precision of 94.08%, a recall of 80.79%, and an f-score of 86.93% in malicious word detection for news article comments, a precision of 89.97%, a recall of 80.55%, and an f-score 85.00% for online community comments, and a precision of 90.65%, a recall of 93.57%, and an f-score 92.09% for Twitter tweets. We expect that our approach can help to improve the current abusive word detection system, which is crucial for several web-based services including social networking services and online games.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
聪慧咖啡豆完成签到,获得积分10
刚刚
流白完成签到,获得积分10
1秒前
不想上班了完成签到,获得积分10
2秒前
酷炫橘子完成签到,获得积分10
2秒前
SYLH应助Gilana采纳,获得10
2秒前
肃肃其羽完成签到 ,获得积分10
2秒前
Libeau完成签到,获得积分10
3秒前
3秒前
英俊的铭应助silentJeremy采纳,获得30
3秒前
宇文青寒完成签到,获得积分10
4秒前
5秒前
coco完成签到,获得积分10
6秒前
无花果粒橙完成签到,获得积分10
7秒前
文小杰完成签到,获得积分10
8秒前
阿九发布了新的文献求助10
8秒前
Neonoes完成签到,获得积分10
8秒前
苹果山芙完成签到,获得积分10
8秒前
小白龙发布了新的文献求助10
9秒前
田様应助研友_89N27L采纳,获得10
9秒前
liushoujia完成签到,获得积分10
9秒前
乔木木完成签到,获得积分10
10秒前
轻松的雨竹完成签到 ,获得积分10
10秒前
Mp4完成签到 ,获得积分10
10秒前
852应助fuguier采纳,获得10
10秒前
VDC应助miemie66采纳,获得50
12秒前
典雅的太阳完成签到,获得积分10
12秒前
负责冰海完成签到,获得积分10
13秒前
小林子完成签到,获得积分10
13秒前
14秒前
阔达不凡完成签到,获得积分10
14秒前
frl0523应助yhbk采纳,获得10
14秒前
乐多完成签到 ,获得积分20
14秒前
李杰111111111完成签到,获得积分20
15秒前
taozhiqi完成签到,获得积分10
15秒前
抹茶夏天完成签到,获得积分10
16秒前
XL完成签到,获得积分10
16秒前
动听锦程完成签到,获得积分20
16秒前
观自在完成签到,获得积分10
17秒前
今后应助迷你的冰旋采纳,获得10
17秒前
11uLt7完成签到 ,获得积分10
17秒前
高分求助中
Continuum Thermodynamics and Material Modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Mechanistic Modeling of Gas-Liquid Two-Phase Flow in Pipes 2500
Structural Load Modelling and Combination for Performance and Safety Evaluation 800
Conference Record, IAS Annual Meeting 1977 610
Virulence Mechanisms of Plant-Pathogenic Bacteria 500
白土三平研究 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3555970
求助须知:如何正确求助?哪些是违规求助? 3131555
关于积分的说明 9391776
捐赠科研通 2831407
什么是DOI,文献DOI怎么找? 1556440
邀请新用户注册赠送积分活动 726584
科研通“疑难数据库(出版商)”最低求助积分说明 715890