Investigating the biological relevance in trained embedding representations of protein sequences

二元曲线 计算机科学 人工智能 编码(内存) 注释 序列(生物学) 相关性(法律) 嵌入 机器学习 代表(政治) 编码 自然语言处理 基因 生物 遗传学 政治 三元曲线 法学 政治学
作者
Jasper Zuallaert,Xiaoyong Pan,Yvan Saeys,Xi Wang,Wesley De Neve
出处
期刊:International Conference on Machine Learning
链接
摘要

As genome sequencing is becoming faster and cheaper, an abundance of DNA and protein sequence data is available. However, experimental annotation of structural or functional information develops at a much slower pace. Therefore, machine learning techniques have been widely adopted to make accurate predictions on unseen sequence data. In recent years, deep learning has been gaining popularity, as it allows for effective end-to-end learning. One consideration for its application on sequence data is the choice for a suitable and effective sequence representation strategy. In this paper, we investigate the significance of three common encoding schemes on the multi-label prediction problem of Gene Ontology (GO) term annotation, namely a one-hot encoding, an ad-hoc trainable embedding, and pre-trained protein vectors, using different hyper-parameters. We found that traditional unigram one-hot encodings achieved very good results, only slightly outperformed by unigram ad-hoc trainable embeddings and bigram pre-trained embeddings (by at most 3%for the F maxscore), suggesting the exploration of different encoding strategies to be potentially beneficial. Most interestingly, when analyzing and visualizing the trained embeddings, we found that biologically relevant (dis)similarities between amino acid n-grams were implicitly learned, which were consistent with their physiochemical properties.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
777完成签到,获得积分10
1秒前
junzilan发布了新的文献求助10
1秒前
1秒前
sun应助leave采纳,获得20
1秒前
1秒前
2秒前
2秒前
Loooong应助小房子采纳,获得10
3秒前
3秒前
云_123完成签到,获得积分10
4秒前
hf发布了新的文献求助10
4秒前
4秒前
赫连烙完成签到,获得积分10
4秒前
小二郎应助整齐小猫咪采纳,获得10
5秒前
领导范儿应助愤怒的源智采纳,获得10
5秒前
李来仪发布了新的文献求助10
5秒前
wisteety发布了新的文献求助10
5秒前
刘老师完成签到 ,获得积分10
5秒前
5秒前
5秒前
shulei发布了新的文献求助10
6秒前
糟糕的冷雪完成签到,获得积分10
6秒前
大模型应助杰森斯坦虎采纳,获得10
6秒前
典雅的如南完成签到 ,获得积分10
7秒前
小马甲应助无限的隶采纳,获得10
7秒前
饱满板栗完成签到 ,获得积分10
7秒前
Can完成签到,获得积分10
7秒前
7秒前
参上发布了新的文献求助10
8秒前
叫滚滚发布了新的文献求助10
8秒前
xiaowu发布了新的文献求助10
8秒前
Yara.H完成签到 ,获得积分10
8秒前
马佳凯发布了新的文献求助10
8秒前
9秒前
自由的明雪完成签到,获得积分10
9秒前
拼死拼活完成签到 ,获得积分10
10秒前
留胡子的煎饼完成签到 ,获得积分10
11秒前
万能图书馆应助通~采纳,获得10
11秒前
11秒前
赘婿应助大力的含卉采纳,获得30
12秒前
高分求助中
Continuum Thermodynamics and Material Modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Social media impact on athlete mental health: #RealityCheck 1020
Ensartinib (Ensacove) for Non-Small Cell Lung Cancer 1000
Unseen Mendieta: The Unpublished Works of Ana Mendieta 1000
Bacterial collagenases and their clinical applications 800
El viaje de una vida: Memorias de María Lecea 800
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3527723
求助须知:如何正确求助?哪些是违规求助? 3107826
关于积分的说明 9286663
捐赠科研通 2805577
什么是DOI,文献DOI怎么找? 1539998
邀请新用户注册赠送积分活动 716878
科研通“疑难数据库(出版商)”最低求助积分说明 709762