亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Count-Based Morgan Fingerprint: A More Efficient and Interpretable Molecular Representation in Developing Machine Learning-Based Predictive Regression Models for Water Contaminants’ Activities and Properties

指纹(计算) 人工智能 代表(政治) 回归分析 回归 计算机科学 机器学习 数学 统计 法学 政治学 政治
作者
Shifa Zhong,Xiaohong Guan
出处
期刊:Environmental Science & Technology [American Chemical Society]
卷期号:57 (46): 18193-18202 被引量:59
标识
DOI:10.1021/acs.est.3c02198
摘要

In this study, we introduce the count-based Morgan fingerprint (C-MF) to represent chemical structures of contaminants and develop machine learning (ML)-based predictive models for their activities and properties. Compared with the binary Morgan fingerprint (B-MF), C-MF not only qualifies the presence or absence of an atom group but also quantifies its counts in a molecule. We employ six different ML algorithms (ridge regression, SVM, KNN, RF, XGBoost, and CatBoost) to develop models on 10 contaminant-related data sets based on C-MF and B-MF to compare them in terms of the model's predictive performance, interpretation, and applicability domain (AD). Our results show that C-MF outperforms B-MF in nine of 10 data sets in terms of model predictive performance. The advantage of C-MF over B-MF is dependent on the ML algorithm, and the performance enhancements are proportional to the difference in the chemical diversity of data sets calculated by B-MF and C-MF. Model interpretation results show that the C-MF-based model can elucidate the effect of atom group counts on the target and have a wider range of SHAP values. AD analysis shows that C-MF-based models have an AD similar to that of B-MF-based ones. Finally, we developed a "ContaminaNET" platform to deploy these C-MF-based models for free use.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
加绒发布了新的文献求助30
1秒前
Sarah完成签到 ,获得积分10
25秒前
28秒前
狮子沟核聚变骡子完成签到 ,获得积分10
28秒前
tumbler发布了新的文献求助10
31秒前
加绒完成签到,获得积分10
36秒前
暖暖完成签到,获得积分10
37秒前
mama完成签到 ,获得积分10
38秒前
追寻青柏完成签到,获得积分10
45秒前
tumbler完成签到,获得积分10
1分钟前
小二郎应助liudy采纳,获得10
1分钟前
量子星尘发布了新的文献求助10
1分钟前
1分钟前
1分钟前
FIN应助Omni采纳,获得10
1分钟前
1分钟前
herococa应助科研通管家采纳,获得10
1分钟前
herococa应助科研通管家采纳,获得10
1分钟前
1分钟前
猫毛完成签到,获得积分10
1分钟前
1分钟前
2分钟前
猫毛发布了新的文献求助10
2分钟前
liudy发布了新的文献求助10
2分钟前
搜集达人应助绿竹采纳,获得10
2分钟前
2分钟前
量子星尘发布了新的文献求助10
2分钟前
小彭友完成签到,获得积分10
2分钟前
情怀应助Frankie采纳,获得10
2分钟前
2分钟前
2分钟前
CipherSage应助呜呜吴采纳,获得10
2分钟前
绿竹发布了新的文献求助10
2分钟前
行走完成签到,获得积分10
2分钟前
Threeeeeee完成签到,获得积分10
3分钟前
Threeeeeee发布了新的文献求助20
3分钟前
3分钟前
3分钟前
西门浩宇发布了新的文献求助10
3分钟前
4分钟前
高分求助中
The Mother of All Tableaux Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 2400
Ophthalmic Equipment Market by Devices(surgical: vitreorentinal,IOLs,OVDs,contact lens,RGP lens,backflush,diagnostic&monitoring:OCT,actorefractor,keratometer,tonometer,ophthalmoscpe,OVD), End User,Buying Criteria-Global Forecast to2029 2000
Optimal Transport: A Comprehensive Introduction to Modeling, Analysis, Simulation, Applications 800
Official Methods of Analysis of AOAC INTERNATIONAL 600
ACSM’s Guidelines for Exercise Testing and Prescription, 12th edition 588
A Preliminary Study on Correlation Between Independent Components of Facial Thermal Images and Subjective Assessment of Chronic Stress 500
T/CIET 1202-2025 可吸收再生氧化纤维素止血材料 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3957035
求助须知:如何正确求助?哪些是违规求助? 3503056
关于积分的说明 11111186
捐赠科研通 3234072
什么是DOI,文献DOI怎么找? 1787725
邀请新用户注册赠送积分活动 870762
科研通“疑难数据库(出版商)”最低求助积分说明 802264