已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

SMILES has to go : Representation of Molecules via Algebraic Data Types

代表(政治) 代数数 计算机科学 分子 域代数上的 理论计算机科学 数学 纯数学 化学 政治学 有机化学 数学分析 政治 法学
作者
Oliver Goldstein
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2501.13633
摘要

This paper proposes a novel representation of molecules through Algebraic Data Types (ADTs). The representation has useful properties primarily by including type information. The representation uses the Dietz representation enabling representation of organometallics with multi-centre, multi-atom bonding and delocalised electrons, resonant structures and co-ordinate data of atoms. Furthermore, this representation goes further than any other in the literature, providing a natural data structure to represent shells, subshells and orbitals. Perks of the representation include it's natural inclusion in reaction descriptions and the ability to make molecules instances of algebraic groups. The representation is further motivated as providing guarantees for those wishing to do Bayesian machine learning (probabilistic programming) over molecular structures. A criticism of competing and commonly used representations such as SMILES and SELFIES is provided and solutions are proposed to the weaknesses of these along with an open source library, written in Haskell. An example of integrating the library with LazyPPL -- a lazy probabilistic programming library written in Haskell -- is provided, conceptually justifying the efficiency of the representation over string based representations and recent work such as SELFIES. This library distinguishes between the data and the type of data -- enabling a separation of concerns between interface and object. I solve three problems associated with the future of SELFIES, molecular programming language, 3D information, syntactic invalidity and Dietz representation.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
脑洞疼应助louis采纳,获得10
2秒前
wodeqiche2007发布了新的文献求助30
2秒前
dfswf完成签到 ,获得积分10
2秒前
吴宵发布了新的文献求助10
2秒前
缓慢的紫伊完成签到,获得积分10
6秒前
8秒前
夏天无完成签到 ,获得积分10
10秒前
11秒前
louis发布了新的文献求助10
12秒前
14秒前
15秒前
碧蓝的母鸡完成签到,获得积分10
17秒前
维时完成签到,获得积分10
18秒前
铁匠发布了新的文献求助10
18秒前
维时发布了新的文献求助10
20秒前
羊不理菌发布了新的文献求助30
21秒前
lingxiaoxi完成签到,获得积分10
23秒前
曾瀚宇完成签到,获得积分10
23秒前
27秒前
铁匠发布了新的文献求助10
31秒前
ronnie147完成签到 ,获得积分10
32秒前
卡皮巴拉发布了新的文献求助10
38秒前
小马甲应助yiteng采纳,获得10
40秒前
帅气的如豹完成签到,获得积分10
41秒前
xiaomu发布了新的文献求助10
43秒前
44秒前
淡淡猎豹完成签到,获得积分10
45秒前
46秒前
卡皮巴拉完成签到,获得积分10
47秒前
Dumb完成签到,获得积分10
48秒前
铁匠发布了新的文献求助10
49秒前
Dumb发布了新的文献求助10
51秒前
平淡的中心完成签到,获得积分10
56秒前
1分钟前
1分钟前
kk完成签到 ,获得积分10
1分钟前
1分钟前
Nakacoke77完成签到,获得积分10
1分钟前
明理的青完成签到,获得积分20
1分钟前
1分钟前
高分求助中
Continuum Thermodynamics and Material Modelling 4000
Production Logging: Theoretical and Interpretive Elements 2700
Ensartinib (Ensacove) for Non-Small Cell Lung Cancer 1000
Les Mantodea de Guyane Insecta, Polyneoptera 1000
Unseen Mendieta: The Unpublished Works of Ana Mendieta 1000
El viaje de una vida: Memorias de María Lecea 800
Luis Lacasa - Sobre esto y aquello 700
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3516274
求助须知:如何正确求助?哪些是违规求助? 3098575
关于积分的说明 9239838
捐赠科研通 2793645
什么是DOI,文献DOI怎么找? 1533143
邀请新用户注册赠送积分活动 712580
科研通“疑难数据库(出版商)”最低求助积分说明 707370