GAE-Based Document Embedding Method for Clustering

嵌入 计算机科学 聚类分析 余弦相似度 图嵌入 文档聚类 图形 节点(物理) 模式识别(心理学) 人工智能 数据挖掘 理论计算机科学 结构工程 工程类
作者
Sungwon Jung,Sangmin Ka
出处
期刊:IEEE Access [Institute of Electrical and Electronics Engineers]
卷期号:10: 130089-130096
标识
DOI:10.1109/access.2022.3228548
摘要

Document embedding methods for clustering using deep neural networks (DNNs) have been proposed recently. However, the existing DNN-based document embedding methods for clustering have a problem of either generating document embeddings dependent on a given number of document clusters or generating document embeddings that do not take into account the characteristic of high similarity between documents belonging to the same document cluster. In this paper, we propose a new document embedding method for clustering by using a graph autoencoder (GAE). To this end, we construct an undirected and weighted sparse graph from a set of documents wherein each document is represented by a node, and all the weighted edges created in the graph have high cosine similarities between the two end nodes. We then apply the proposed GAE to the graph to compute node embedding vectors. Each node embedding vector in the graph is used as a document embedding vector. This paper presents in-depth experimental analyses of the proposed method. Experimental results on various real document data sets demonstrate that the proposed approach affords the significant performance improvement over the existing document embedding methods.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
xsz完成签到,获得积分10
刚刚
SYY完成签到,获得积分10
刚刚
刚刚
搜集达人应助XinYang采纳,获得10
刚刚
踏实的不愁完成签到,获得积分10
1秒前
斯文败类应助科研苦行僧采纳,获得10
1秒前
1秒前
1秒前
自由的盼柳完成签到 ,获得积分10
1秒前
123study0发布了新的文献求助10
1秒前
科研通AI6.1应助cc采纳,获得10
2秒前
务实珊发布了新的文献求助20
2秒前
2秒前
忧郁难胜完成签到,获得积分10
2秒前
2秒前
Yuki完成签到 ,获得积分10
2秒前
lizil发布了新的文献求助10
3秒前
CJW发布了新的文献求助10
3秒前
4秒前
分隔符发布了新的文献求助10
4秒前
SYY发布了新的文献求助10
5秒前
5秒前
Sprout发布了新的文献求助30
5秒前
5秒前
cindy完成签到 ,获得积分10
6秒前
8564523完成签到,获得积分10
6秒前
尊敬依珊完成签到 ,获得积分10
6秒前
积极雪糕发布了新的文献求助10
6秒前
6秒前
7秒前
WATQ完成签到,获得积分10
7秒前
lizil完成签到,获得积分20
7秒前
7秒前
斯文败类应助专注的问寒采纳,获得10
8秒前
8秒前
干净柏柳完成签到 ,获得积分10
8秒前
大模型应助胡沐恬采纳,获得10
8秒前
8秒前
8秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Burger's Medicinal Chemistry, Drug Discovery and Development, Volumes 1 - 8, 8 Volume Set, 8th Edition 1800
Cronologia da história de Macau 1600
Contemporary Debates in Epistemology (3rd Edition) 1000
International Arbitration Law and Practice 1000
文献PREDICTION EQUATIONS FOR SHIPS' TURNING CIRCLES或期刊Transactions of the North East Coast Institution of Engineers and Shipbuilders第95卷 1000
BRITTLE FRACTURE IN WELDED SHIPS 1000
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 纳米技术 计算机科学 化学工程 生物化学 物理 复合材料 内科学 催化作用 物理化学 光电子学 细胞生物学 基因 电极 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6159901
求助须知:如何正确求助?哪些是违规求助? 7988060
关于积分的说明 16603138
捐赠科研通 5268283
什么是DOI,文献DOI怎么找? 2810896
邀请新用户注册赠送积分活动 1791166
关于科研通互助平台的介绍 1658105