GENEPT: A SIMPLE BUT HARD-TO-BEAT FOUNDATION MODEL FOR GENES AND CELLS BUILT FROM CHATGPT

嵌入 计算机科学 基因 判决 基因表达 基础(证据) 计算生物学 表达式(计算机科学) 简单(哲学) 人工智能 自然语言处理 生物 遗传学 程序设计语言 历史 哲学 考古 认识论
作者
Yiqun T. Chen,James Zou
标识
DOI:10.1101/2023.10.16.562533
摘要

A bstract There has been significant recent progress in leveraging large-scale gene expression data to develop foundation models for single-cell transcriptomes such as Geneformer [1], scGPT [2], and scBERT [3]. These models infer gene functions and interrelations from the gene expression profiles of millions of cells, which requires extensive data curation and resource-intensive training. Here, we explore a much simpler alternative by leveraging ChatGPT embeddings of genes based on literature. Our proposal, GenePT, uses NCBI text descriptions of individual genes with GPT-3.5 to generate gene embeddings. From there, GenePT generates single-cell embeddings in two ways: (i) by averaging the gene embeddings, weighted by each gene’s expression level; or (ii) by creating a sentence embedding for each cell, using gene names ordered by the expression level. Without the need for dataset curation and additional pretraining, GenePT is efficient and easy to use. On many downstream tasks used to evaluate recent single-cell foundation models — e.g., classifying gene properties and cell types — GenePT achieves comparable, and often better, performance than Geneformer and other methods. GenePT demonstrates that large language model embedding of literature is a simple and effective path for biological foundation models.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
ZZZ完成签到,获得积分10
1秒前
zeng123发布了新的文献求助10
4秒前
自由冬亦完成签到,获得积分10
5秒前
妮妮完成签到,获得积分10
5秒前
田様应助ZDZ采纳,获得10
6秒前
朱玉完成签到,获得积分10
10秒前
mmlb发布了新的文献求助10
15秒前
ZDZ完成签到,获得积分20
18秒前
布熙哆完成签到,获得积分10
19秒前
机智柚子完成签到,获得积分10
19秒前
秋迎夏完成签到,获得积分0
19秒前
19秒前
22秒前
怕孤单的听寒完成签到,获得积分10
24秒前
26秒前
27秒前
zeng123完成签到,获得积分20
30秒前
31秒前
吉吉国王完成签到 ,获得积分10
32秒前
谨慎的豆芽完成签到 ,获得积分10
32秒前
34秒前
34秒前
科研通AI2S应助科研通管家采纳,获得10
35秒前
Frank应助科研通管家采纳,获得100
35秒前
丘比特应助科研通管家采纳,获得10
35秒前
上官若男应助科研通管家采纳,获得10
36秒前
田様应助科研通管家采纳,获得10
36秒前
加菲丰丰应助科研通管家采纳,获得10
36秒前
科研通AI2S应助科研通管家采纳,获得10
36秒前
无花果应助科研通管家采纳,获得10
36秒前
40秒前
丘比特应助mmlb采纳,获得10
41秒前
老衲法号嘿嘿嘿完成签到,获得积分10
43秒前
45秒前
ataybabdallah完成签到,获得积分20
46秒前
cai完成签到,获得积分10
46秒前
壮观小鸭子完成签到 ,获得积分10
47秒前
1huiqina发布了新的文献求助30
48秒前
星辰大海应助fangplus采纳,获得10
51秒前
一只想做科研的狗完成签到,获得积分10
52秒前
高分求助中
Sustainability in Tides Chemistry 2800
Kinetics of the Esterification Between 2-[(4-hydroxybutoxy)carbonyl] Benzoic Acid with 1,4-Butanediol: Tetrabutyl Orthotitanate as Catalyst 1000
The Young builders of New china : the visit of the delegation of the WFDY to the Chinese People's Republic 1000
Rechtsphilosophie 1000
Bayesian Models of Cognition:Reverse Engineering the Mind 888
Handbook of Qualitative Cross-Cultural Research Methods 600
Very-high-order BVD Schemes Using β-variable THINC Method 568
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3137664
求助须知:如何正确求助?哪些是违规求助? 2788576
关于积分的说明 7787679
捐赠科研通 2444950
什么是DOI,文献DOI怎么找? 1300139
科研通“疑难数据库(出版商)”最低求助积分说明 625814
版权声明 601023