Text Document Clustering Using Modified Particle Swarm Optimization with k-means Model

计算机科学 粒子群优化 聚类分析 文档聚类 元启发式 人工智能 数据挖掘 算法
作者
Ratnam Dodda,A. Suresh Babu
出处
期刊:International Journal on Artificial Intelligence Tools [World Scientific]
卷期号:33 (01) 被引量:2
标识
DOI:10.1142/s0218213023500616
摘要

In the present digital era, vast amounts of data are generated by millions of Internet users in the form of unstructured text documents. The clustering and organizing of text documents play a crucial role in the applications of data analysis and market research. In this research manuscript, a new modified version of metaheuristic-based optimization technique is proposed with k-means for clustering the text documents. In the initial phase, the input data are acquired from the three-benchmark databases such as Reuters-21578, 20-Newsgroup and British Broadcasting Corporation (BBC)-sport. Further, the data denoising is accomplished by using the common techniques: stemming, lemmatization, tokenization, and stop word removal. In addition to this, the denoised data are transformed into feature vectors by utilizing Term Frequency (TF)-Inverse Document Frequency (IDF) technique. The computed feature vectors are given to the Modified Particle Swarm Optimization (MPSO) with k-means to group the closely related text documents by minimizing the similarity in different clusters. The experimental examination showed that the proposed MPSO with k-means model achieved accuracy of 0.85, 0.85 and 0.86 on the Reuters-21578, 20-Newsgroup and BBC-sport databases, which are superior to the comparative models.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
professor_J完成签到,获得积分10
5秒前
jane123发布了新的文献求助10
5秒前
8秒前
健忘的汲发布了新的文献求助10
9秒前
小二郎应助Ulrica采纳,获得10
11秒前
科研通AI2S应助Ulrica采纳,获得10
11秒前
12秒前
大渣饼完成签到 ,获得积分10
12秒前
疑问师完成签到,获得积分10
12秒前
13秒前
xxm发布了新的文献求助10
13秒前
愉快的千柳完成签到,获得积分20
14秒前
淡然的俊驰完成签到,获得积分10
14秒前
魔幻山芙完成签到,获得积分20
15秒前
15秒前
LJT完成签到 ,获得积分10
15秒前
打打应助summer采纳,获得10
16秒前
木木完成签到,获得积分10
16秒前
17秒前
完美世界应助xxm采纳,获得30
18秒前
wanci应助啦啦啦采纳,获得10
19秒前
叶sir完成签到,获得积分20
25秒前
26秒前
xxm完成签到,获得积分20
26秒前
欢喜完成签到 ,获得积分10
26秒前
叶sir发布了新的文献求助10
29秒前
29秒前
刘jinkai完成签到,获得积分10
30秒前
满意白卉发布了新的文献求助10
31秒前
麻辣公主发布了新的文献求助10
32秒前
32秒前
阿尼亚发布了新的文献求助10
32秒前
34秒前
可爱的函函应助wZx采纳,获得10
34秒前
瓶瓶发布了新的文献求助30
37秒前
CodeCraft应助科研通管家采纳,获得10
37秒前
37秒前
37秒前
Singularity应助科研通管家采纳,获得10
37秒前
高分求助中
Kinetics of the Esterification Between 2-[(4-hydroxybutoxy)carbonyl] Benzoic Acid with 1,4-Butanediol: Tetrabutyl Orthotitanate as Catalyst 1000
The Young builders of New china : the visit of the delegation of the WFDY to the Chinese People's Republic 1000
Rechtsphilosophie 1000
Bayesian Models of Cognition:Reverse Engineering the Mind 888
Very-high-order BVD Schemes Using β-variable THINC Method 568
Chen Hansheng: China’s Last Romantic Revolutionary 500
XAFS for Everyone 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3138178
求助须知:如何正确求助?哪些是违规求助? 2789056
关于积分的说明 7790034
捐赠科研通 2445505
什么是DOI,文献DOI怎么找? 1300440
科研通“疑难数据库(出版商)”最低求助积分说明 625925
版权声明 601046