Treat Molecular Linear Notations as Sentences: Accurate Quantitative Structure–Property Relationship Modeling via a Natural Language Processing Approach

计算机科学 财产(哲学) 数量结构-活动关系 自然语言处理 符号 判决 卷积神经网络 人工神经网络 自然语言 语法 人工智能 理论计算机科学 机器学习 数学 算术 认识论 哲学
作者
Zhengtao Zhou,Mario R. Eden,Weifeng Shen
出处
期刊:Industrial & Engineering Chemistry Research [American Chemical Society]
卷期号:62 (12): 5336-5346 被引量:10
标识
DOI:10.1021/acs.iecr.2c04070
摘要

Quantitative structure–property relationship (QSPR) modeling is an implementation for estimating molecular properties based on structural information, which is widely applied in exploring new solvents, pharmaceuticals, and materials with desired properties. In QSPR modeling, "simplified molecular input line-entry system" (SMILES) is a popular molecular representation with specific vocabulary and syntax. Herein, SMILES is considered a chemical language, and each SMILES notation is treated as a sentence. A deep pyramid convolutional neural network architecture is constructed for extracting the information from SMILES "sentences", and the feed-forward neural network is used for the property correlation. A case study of predicting the logarithm values of the octanol–water partition coefficient is conducted to prove the effectiveness of the proposed philosophy. Compared with a precedent reference model, the outperformance of the developed QSPR models provides fascinating insights for applying natural language processing technologies for molecular information mining and exploration of chemical property space.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
所所应助丁dd采纳,获得10
1秒前
小二郎应助丰富的不惜采纳,获得10
1秒前
Raul完成签到 ,获得积分10
1秒前
Ai发布了新的文献求助10
2秒前
大头不愁发布了新的文献求助10
2秒前
十三发布了新的文献求助10
3秒前
llllllllllll完成签到,获得积分10
3秒前
无花果应助哈哈哈采纳,获得10
3秒前
失眠的萤完成签到,获得积分10
4秒前
Lycerdoctor完成签到,获得积分10
4秒前
大个应助桂花酒酿采纳,获得10
5秒前
大模型应助fengzheLing采纳,获得10
5秒前
槐序完成签到,获得积分10
9秒前
10秒前
shark完成签到,获得积分10
11秒前
斯文败类应助第七班采纳,获得10
11秒前
子陵完成签到 ,获得积分10
11秒前
mmmuan完成签到 ,获得积分10
11秒前
调研昵称发布了新的文献求助10
12秒前
13秒前
15秒前
欢喜若灵完成签到,获得积分10
16秒前
cqnuly完成签到 ,获得积分10
16秒前
Akim应助科研通管家采纳,获得10
16秒前
坚强亦丝应助科研通管家采纳,获得10
16秒前
16秒前
CodeCraft应助科研通管家采纳,获得10
16秒前
xlong应助科研通管家采纳,获得10
16秒前
天天快乐应助小谷采纳,获得10
16秒前
NexusExplorer应助科研通管家采纳,获得10
16秒前
36456657应助科研通管家采纳,获得10
17秒前
linlin应助科研通管家采纳,获得10
17秒前
17秒前
SYLH应助科研通管家采纳,获得10
17秒前
Akim应助科研通管家采纳,获得10
17秒前
彭于晏应助科研通管家采纳,获得10
17秒前
烟花应助科研通管家采纳,获得10
17秒前
17秒前
17秒前
17秒前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2500
Востребованный временем 2500
Agaricales of New Zealand 1: Pluteaceae - Entolomataceae 1040
지식생태학: 생태학, 죽은 지식을 깨우다 600
海南省蛇咬伤流行病学特征与预后影响因素分析 500
Neuromuscular and Electrodiagnostic Medicine Board Review 500
ランス多機能化技術による溶鋼脱ガス処理の高効率化の研究 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 纳米技术 内科学 物理 化学工程 计算机科学 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 电极
热门帖子
关注 科研通微信公众号,转发送积分 3461286
求助须知:如何正确求助?哪些是违规求助? 3054997
关于积分的说明 9046106
捐赠科研通 2744930
什么是DOI,文献DOI怎么找? 1505743
科研通“疑难数据库(出版商)”最低求助积分说明 695820
邀请新用户注册赠送积分活动 695264