Clustering Document based on Semantic Similarity Using Graph Base Spectral Algorithm

tf–国际设计公司 计算机科学 聚类分析 文档聚类 情报检索 预处理器 向量空间模型 相似性(几何) 图形 分类 光谱聚类 人工智能 数据挖掘 自然语言处理 理论计算机科学 期限(时间) 图像(数学) 物理 量子力学
作者
Rowaida Khalil Ibrahim,Subhi R. M. Zeebaree,Karwan Jacksi,Sarkar Hasan Ahmed,Shapol M. Mohammed,Rizgar R. Zebari,Ahmed Alkhayyat,Zryan Najat Rashid
标识
DOI:10.1109/iiceta54559.2022.9888613
摘要

The Internet’s continued growth has resulted in a significant rise in the amount of electronic text documents. Grouping these materials into meaningful collections has become crucial. The old approach of document compilation based on statistical characteristics and categorization relied on syntactic rather than semantic information. This article introduces a unique approach for classifying texts based on their semantic similarity. The graph-based approach is depended an efficient technique been utilized for clustering. This is performed by extracting document summaries called synopses from the Wikipedia and IMDB databases and grouping thus downloaded documents, then utilizing the NLTK dictionary to generate them by making some important preprocessing to make it more convenient to use. Following that, a vector space is modelled using TFIDF and converted to TFIDF matrix as numeric form, and clustering is accomplished using Spectral methods. The results are compared with previews work.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
4秒前
幸福妙柏完成签到 ,获得积分10
4秒前
倾心悦目应助科研通管家采纳,获得10
6秒前
量子星尘发布了新的文献求助10
6秒前
花落无声完成签到 ,获得积分10
7秒前
湘崽丫完成签到 ,获得积分10
8秒前
严伟完成签到 ,获得积分10
9秒前
薄荷心完成签到 ,获得积分10
10秒前
123456完成签到 ,获得积分10
12秒前
ranan完成签到,获得积分10
13秒前
znn完成签到 ,获得积分10
18秒前
gaogaogao完成签到,获得积分10
19秒前
Lucas应助苹果尔柳采纳,获得10
21秒前
yinyin完成签到 ,获得积分10
22秒前
pp完成签到 ,获得积分10
23秒前
量子星尘发布了新的文献求助10
23秒前
liuliqiong完成签到,获得积分10
24秒前
391X小king发布了新的文献求助10
27秒前
限量版小祸害完成签到 ,获得积分10
28秒前
Panini完成签到 ,获得积分10
29秒前
收集快乐完成签到 ,获得积分10
30秒前
yutingemail完成签到 ,获得积分10
30秒前
温暖完成签到 ,获得积分10
32秒前
热情爆米花完成签到 ,获得积分10
35秒前
35秒前
量子星尘发布了新的文献求助10
36秒前
萧萧完成签到,获得积分0
36秒前
nicky完成签到 ,获得积分10
36秒前
小果完成签到 ,获得积分10
37秒前
汉堡包应助Able采纳,获得10
40秒前
尹基忠发布了新的文献求助10
41秒前
cadcae完成签到,获得积分20
43秒前
合适靖儿完成签到 ,获得积分10
44秒前
蕾姐完成签到,获得积分10
44秒前
52秒前
anzhe完成签到,获得积分10
52秒前
CallMeIris完成签到,获得积分10
56秒前
苹果尔柳发布了新的文献求助10
58秒前
量子星尘发布了新的文献求助10
58秒前
尹基忠完成签到 ,获得积分10
1分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Encyclopedia of Reproduction Third Edition 3000
Comprehensive Methanol Science Production, Applications, and Emerging Technologies 2000
From Victimization to Aggression 1000
化妆品原料学 1000
小学科学课程与教学 500
Study and Interlaboratory Validation of Simultaneous LC-MS/MS Method for Food Allergens Using Model Processed Foods 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5645089
求助须知:如何正确求助?哪些是违规求助? 4767716
关于积分的说明 15026372
捐赠科研通 4803503
什么是DOI,文献DOI怎么找? 2568340
邀请新用户注册赠送积分活动 1525697
关于科研通互助平台的介绍 1485301