Research and Application of Improved K-means Algorithm in Text Clustering

聚类分析 计算机科学 层次聚类 算法 单连锁聚类 星团(航天器) 理论(学习稳定性) 相似性(几何) 树冠聚类算法 集合(抽象数据类型) k-中心点 点(几何) CURE数据聚类算法 中心(范畴论) k-中位数聚类 相关聚类 完整的链接聚类 数据挖掘 数学 人工智能 机器学习 图像(数学) 结晶学 化学 程序设计语言 几何学
作者
Shen-yi QIAN,Huihui Liu,Dai-yi LI
出处
期刊:DEStech Transactions on Computer Science and Engineering [DEStech Publications]
卷期号: (pcmm) 被引量:1
标识
DOI:10.12783/dtcse/pcmm2018/23653
摘要

K-means is a commonly used text clustering algorithm, the biggest advantage of the proposed algorithm is simple and fast, but due to the random selection of the initial cluster center point, the K-means algorithm is easy to fall into the local optimal algorithm and instability of the clustering results and the number of iterations. To solve this problem, this paper selected the initial cluster centers using hierarchical agglomerative clustering algorithm, to ensure the high quality of the center point; using cosine similarity to measure the distance between the text; reconstructed calculation formula of cluster center and the objective function of clustering quality. The experimental results show that the improved K-means algorithm has a relatively high accuracy and stability with the Sogou Chinese text corpus as the data set. Introduction

科研通智能强力驱动
Strongly Powered by AbleSci AI

祝大家在新的一年里科研腾飞
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
如泣草芥完成签到,获得积分0
3秒前
zoe完成签到,获得积分10
3秒前
张元东完成签到 ,获得积分10
4秒前
4秒前
木辛艺完成签到,获得积分20
5秒前
7秒前
MJMO完成签到,获得积分10
8秒前
梅赛德斯奔驰完成签到,获得积分10
8秒前
笑点低的毛衣完成签到 ,获得积分10
10秒前
夕荀完成签到,获得积分10
10秒前
bias完成签到,获得积分10
12秒前
13秒前
Lemon完成签到 ,获得积分10
13秒前
好好休息完成签到 ,获得积分10
13秒前
13秒前
eric完成签到 ,获得积分10
14秒前
gxpjzbg完成签到,获得积分10
15秒前
JOJO完成签到,获得积分10
16秒前
Polymer72应助Wu采纳,获得10
17秒前
上官若男应助小知了采纳,获得10
18秒前
gjx完成签到 ,获得积分10
18秒前
韭菜发布了新的文献求助10
19秒前
我是老大应助ranj采纳,获得10
20秒前
清风悠笛完成签到,获得积分10
24秒前
15136780701完成签到 ,获得积分10
27秒前
劲秉应助韭菜采纳,获得10
29秒前
烟花应助韭菜采纳,获得10
29秒前
几几完成签到,获得积分10
29秒前
lwtsy完成签到,获得积分10
33秒前
chhzz完成签到 ,获得积分10
36秒前
yjy完成签到 ,获得积分10
38秒前
祭途完成签到,获得积分10
38秒前
年月日完成签到,获得积分10
38秒前
小知了完成签到,获得积分10
39秒前
儒雅的焦完成签到,获得积分10
40秒前
Joker完成签到,获得积分0
40秒前
薛访梦完成签到,获得积分10
40秒前
山橘月发布了新的文献求助10
42秒前
bzc229完成签到,获得积分10
42秒前
44秒前
高分求助中
Востребованный временем 2500
The Three Stars Each: The Astrolabes and Related Texts 1500
Les Mantodea de Guyane 1000
Very-high-order BVD Schemes Using β-variable THINC Method 950
Field Guide to Insects of South Africa 660
Foucault's Technologies Another Way of Cutting Reality 500
Product Class 33: N-Arylhydroxylamines 300
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3388631
求助须知:如何正确求助?哪些是违规求助? 3000838
关于积分的说明 8793982
捐赠科研通 2687109
什么是DOI,文献DOI怎么找? 1472001
科研通“疑难数据库(出版商)”最低求助积分说明 680683
邀请新用户注册赠送积分活动 673326