已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Investigating the biological relevance in trained embedding representations of protein sequences

二元曲线 计算机科学 人工智能 编码(内存) 注释 序列(生物学) 相关性(法律) 嵌入 机器学习 代表(政治) 编码 自然语言处理 基因 生物 遗传学 三元曲线 政治 政治学 法学
作者
Jasper Zuallaert,Xiaoyong Pan,Yvan Saeys,Xi Wang,Wesley De Neve
出处
期刊:International Conference on Machine Learning
链接
摘要

As genome sequencing is becoming faster and cheaper, an abundance of DNA and protein sequence data is available. However, experimental annotation of structural or functional information develops at a much slower pace. Therefore, machine learning techniques have been widely adopted to make accurate predictions on unseen sequence data. In recent years, deep learning has been gaining popularity, as it allows for effective end-to-end learning. One consideration for its application on sequence data is the choice for a suitable and effective sequence representation strategy. In this paper, we investigate the significance of three common encoding schemes on the multi-label prediction problem of Gene Ontology (GO) term annotation, namely a one-hot encoding, an ad-hoc trainable embedding, and pre-trained protein vectors, using different hyper-parameters. We found that traditional unigram one-hot encodings achieved very good results, only slightly outperformed by unigram ad-hoc trainable embeddings and bigram pre-trained embeddings (by at most 3%for the F maxscore), suggesting the exploration of different encoding strategies to be potentially beneficial. Most interestingly, when analyzing and visualizing the trained embeddings, we found that biologically relevant (dis)similarities between amino acid n-grams were implicitly learned, which were consistent with their physiochemical properties.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
糊涂的雅山完成签到,获得积分10
1秒前
1秒前
4秒前
lmw10关注了科研通微信公众号
5秒前
甜蜜的无声完成签到 ,获得积分10
6秒前
王叮叮完成签到 ,获得积分10
6秒前
7秒前
华仔应助xiaoyunfei采纳,获得10
10秒前
企鹅吃圣代完成签到 ,获得积分10
11秒前
沈婉婉完成签到 ,获得积分10
12秒前
踏实的幻珊完成签到 ,获得积分10
13秒前
典雅的寄凡完成签到 ,获得积分10
14秒前
14秒前
14秒前
tangyuan发布了新的文献求助10
19秒前
21秒前
思嗡完成签到 ,获得积分10
21秒前
虚幻的安柏完成签到 ,获得积分10
22秒前
傲娇的尔竹完成签到,获得积分10
23秒前
dty发布了新的文献求助10
33秒前
吃土豆长大的马铃薯完成签到 ,获得积分10
34秒前
ljh完成签到 ,获得积分10
35秒前
干冷安发布了新的文献求助30
36秒前
37秒前
cheng完成签到 ,获得积分10
38秒前
冷傲曼荷完成签到 ,获得积分10
40秒前
王大壮完成签到,获得积分10
43秒前
hu发布了新的文献求助20
46秒前
47秒前
科研通AI2S应助123采纳,获得10
49秒前
51秒前
dty完成签到,获得积分10
52秒前
脑洞疼应助小五采纳,获得10
52秒前
53秒前
科研小裴完成签到 ,获得积分10
54秒前
55秒前
Huang2547完成签到 ,获得积分10
55秒前
羟醛缩合完成签到 ,获得积分10
58秒前
ljy阿完成签到 ,获得积分10
1分钟前
颜千琴发布了新的文献求助10
1分钟前
高分求助中
Sustainability in Tides Chemistry 2800
The Young builders of New china : the visit of the delegation of the WFDY to the Chinese People's Republic 1000
Rechtsphilosophie 1000
Bayesian Models of Cognition:Reverse Engineering the Mind 888
Le dégorgement réflexe des Acridiens 800
Defense against predation 800
Very-high-order BVD Schemes Using β-variable THINC Method 568
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3136914
求助须知:如何正确求助?哪些是违规求助? 2787875
关于积分的说明 7783654
捐赠科研通 2443946
什么是DOI,文献DOI怎么找? 1299529
科研通“疑难数据库(出版商)”最低求助积分说明 625461
版权声明 600954