清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

ProPythia: A Python package for protein classification based on machine and deep learning

计算机科学 Python(编程语言) 人工智能 机器学习 模块化设计 深度学习 降维 聚类分析 特征选择 数据挖掘 程序设计语言
作者
Ana Marta Sequeira,Diana Lousa,Miguel Rocha
出处
期刊:Neurocomputing [Elsevier]
卷期号:484: 172-182 被引量:6
标识
DOI:10.1016/j.neucom.2021.07.102
摘要

The field of protein data mining has been growing rapidly in the last years. To characterize proteins and determine their function from their amino acid sequences are challenging and long-standing problems, where Bioinformatics and Machine Learning have an emergent role. A myriad of machine and deep learning algorithms have been applied in these tasks with exciting results. However, tools and platforms to calculate protein features and perform both Machine Learning (ML) and Deep Learning (DL) pipelines, taking as inputs protein sequences, are still lacking and have their limitations in terms of performance, user-friendliness and restricted domains of application. Here, to address these limitations, we propose ProPythia, a generic and modular Python package that allows to easily deploy ML and DL approaches for a plethora of problems in protein sequence analysis and classification. It facilitates the implementation, comparison and validation of the major tasks in ML or DL pipelines including modules to read and alter sequences, calculate protein features, preprocess datasets, execute feature selection and dimensionality reduction, perform clustering and manifold analysis, as well as to train and optimize ML/DL models and use them to make predictions. ProPythia has an adaptable modular architecture being a versatile and easy-to-use tool, which will be useful to transform protein data in valuable knowledge even for people not familiarized with ML code. This platform was tested in several applications comparing with results from literature. Here, we illustrate its applicability in two cases studies: the prediction of antimicrobial peptides and the prediction of enzymes Enzyme commission (EC) numbers. Furthermore, we assess the performance of the different descriptors on four different protein classification challenges. Its source code and documentation, including an user guide and case studies are freely available at https://github.com/BioSystemsUM/propythia.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小龙发布了新的文献求助10
刚刚
谭凯文完成签到 ,获得积分10
13秒前
孟寐以求完成签到 ,获得积分10
13秒前
小龙完成签到,获得积分10
20秒前
狮子完成签到,获得积分10
32秒前
清萍红檀完成签到,获得积分10
48秒前
段誉完成签到 ,获得积分10
1分钟前
定烜完成签到 ,获得积分10
1分钟前
janer完成签到 ,获得积分10
1分钟前
开心每一天完成签到 ,获得积分10
1分钟前
姜sir完成签到 ,获得积分10
1分钟前
管靖易完成签到 ,获得积分10
2分钟前
kaka完成签到,获得积分0
2分钟前
2分钟前
小柒柒完成签到,获得积分10
2分钟前
郜南烟发布了新的文献求助10
2分钟前
深情安青应助郜南烟采纳,获得10
2分钟前
张丫丫完成签到,获得积分10
3分钟前
花花糖果完成签到 ,获得积分10
3分钟前
明理问柳完成签到,获得积分10
3分钟前
淡漠完成签到 ,获得积分10
4分钟前
如意竺完成签到,获得积分10
4分钟前
小猴子完成签到 ,获得积分10
4分钟前
kenchilie完成签到 ,获得积分10
4分钟前
谦也静熵完成签到,获得积分10
4分钟前
精壮小伙完成签到,获得积分0
4分钟前
勤劳的颤完成签到 ,获得积分10
4分钟前
墨言无殇完成签到 ,获得积分10
4分钟前
福尔摩曦完成签到,获得积分10
5分钟前
Diss完成签到 ,获得积分10
5分钟前
娜写年华完成签到 ,获得积分10
5分钟前
天天快乐应助xun采纳,获得10
5分钟前
meijuan1210完成签到 ,获得积分10
5分钟前
5分钟前
xun发布了新的文献求助10
5分钟前
贝贝完成签到,获得积分0
6分钟前
Orange应助xun采纳,获得10
6分钟前
7分钟前
郜南烟发布了新的文献求助10
7分钟前
白白嫩嫩完成签到,获得积分10
7分钟前
高分求助中
Evolution 10000
Sustainability in Tides Chemistry 2800
The Young builders of New china : the visit of the delegation of the WFDY to the Chinese People's Republic 1000
юрские динозавры восточного забайкалья 800
English Wealden Fossils 700
叶剑英与华南分局档案史料 500
Foreign Policy of the French Second Empire: A Bibliography 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3146832
求助须知:如何正确求助?哪些是违规求助? 2798126
关于积分的说明 7826730
捐赠科研通 2454695
什么是DOI,文献DOI怎么找? 1306428
科研通“疑难数据库(出版商)”最低求助积分说明 627788
版权声明 601565