无论是机器学习还是深度学习,数据对模型都是至关重要的。只有充分了解数据,才会更加理解模型。以下是本人学习工作过程中从论文,博客中遇到的一些常见的AI制药数据集和它们的下载网址。我知道还有不少数据集没被统计到,但是个人时间和精力有限暂时先这些吧,后面有时间在添加,如果看到的朋友有不错的数据集信息表格中没列出,欢迎联系我。

数据集 ![]() (图片来源网络,侵删) | 下载网址 | 应用 | 相关描述 | |
1 | MoleculeNet | GitHub - deepchem/deepchem: Democratizing Deep-Learning for Drug Discovery, Quantum Chemistry, Materials Science and Biology | 分子性质预测 | 被称为分子性质预测的基准数据集,总结了多种开源数据集,包括PubChem、ChEMBL和Tox21等。MoleculeNet中有超过 70 万个分子,被划分为 17 个数据集,包括从分子水平属性到对人体的宏观影响等不同层次。这些数据集可分为 4 类: 生理、生物物理、物理化学和量子力学,按数据划分为 Random Split、Scaffold Split、Stratified Split 和 Time Split。衡量指标根据回归任务划分为 MAE 和 RMSE,根据分类任务划分为 AUC-ROC_和AUC-PRC。 |
2 | OffSIDES and TwoSIDES | Index of /resources/nsides nSIDES, Databases for drug side effects and drug interactions from the Tatonetti Lab | nSIDES | 药物-药物相互作用预测 | OffSIDES是一个已发现但未列入美国食品药品监督管理局官方标签的药物副作用数据库。Twoside有超过3,300种药物和63,000种组合与数百万潜在的不良反应。 |
3 | OnSIDES | Releases · tatonetti-lab/onsides · GitHub | 药物-药物相互作用预测 | OnSIDES 是使用 PubMedBERT 语言模型和200个来自 Denmer-Fushman 等人的手工标签创建的,数据来源是 DailyMed DailyMed - Download All Drug Labels 。 OnSIDES (ON label SIDE effectS resource) 数据集是从美国食品药品监督管理局结构化产品标签(SPL)中提取的不良反应和警告。 |
4 | KidSIDES | nSIDES, Databases for drug side effects and drug interactions from the Tatonetti Lab | nSIDES | 药物-药物相互作用预测 | 来源于上市后的药物不良事件的报告 |
5 | DeepDDI | Bitbucket | 药物-药物相互作用预测 | 从DrugBank中精炼构建的。 |
6 | Human和C.elegans | CPI_prediction/dataset at master · masashitsubaki/CPI_prediction · GitHub | 药物-靶标相互作用预测 | 数据集正样本来源于两个基于实验的数据库DrugBank和Matador。负样本通过系统筛选方法获得。在 Human 数据集中,由 1052 种化合物和 852 种蛋白质构成3369个正样本。在 Celegans 数据集中,由 1434 种化合物与2504 种蛋白构成4000个正样本。 |
7 | ZINC | ZINC | 虚拟筛选,分子生成 | 最大的用于虚拟筛选的免费商业化合物数据库,ZINC含有超过7.5亿种商业化的化合物。 |
8 | ChEMBL | ChEMBL Database | 虚拟筛选,分子生成 | ChEMBL 是一个手工管理的具有类似药物特性的生物活性分子数据库。它汇集了化学,生物活性和基因组数据,以帮助基因组信息转化为有效的新药。 |
9 | QM7,QM7b,QM8,QM9 | Quantum-Machine.org: Datasets | 虚拟筛选,分子生成 | 具有包含最多9个原子的4种不同类型的134k有机小分子 |
10 | PubChem | PubChem | 虚拟筛选,分子生成,属性预测,药物-药物相互作用预测等 | PubChem 是世界上最大的自由获取化学信息的集合。通过名称、分子式、结构和其他标识符搜索化学品。查找化学和物理性质,生物活性,安全和毒性信息,专利,文献引用等。 |
11 | ExCAPE-DB | ExCAPE-DB: ExCAPE chemogenomics database | 虚拟筛选 | 结合了PubChem和ChEMBL,由955,386种化合物组成,涵盖526种不同的靶蛋白,共计49,316,517个活性数据点(稀疏度约为90%),总体活性与无活性比率接近1:100。 |
12 | GDB-13 | Download Chemical Databases | 虚拟筛选,分子生成 | 化学通用数据库 |
13 | GDB-17 | Download Chemical Databases | 虚拟筛选,分子生成 | 化学通用数据库 |
14 | MEGx | MEGx Purified Natural Product Screening Compounds - AnalytiCon Discovery | 虚拟筛选,分子生成 | 来自植物和微生物的天然产物 |
15 | DrugBank | https://www.drugbank.ca | 药物-靶标相互作用预测,虚拟筛选 | 既涵盖了详细的药物数据(如,化学数据、药理数据、药物数据),也包括了综合的药物靶点信息(如,序列、结构和作⽤途径)。DrugBank包含13791种药物条目,其中包括2653种经批准的小分子药物、1417种经批准的生物技术(蛋白质/肽)药物、131种营养品和6451种实验药物。 |
16 | MOSES | GitHub - molecularsets/moses: Molecular Sets (MOSES): A Benchmarking Platform for Molecular Generation Models | 分子性质预测,分子生成 | 从 ZINC数据库中提取的分子基准数据集,包含 1,936,962 个分子结构 |
17 | CEPDB | http://www.molecularspace.org/explore/ | 虚拟筛选,分子生成 | 哈佛清洁能源项目数据库,是有机半导体的大型参考数据库 |
18 | L1000 | https://maayanlab.cloud/sigcom-lincs/#/Download | 虚拟筛选 | 主要包含基因表达谱 |
19 | ASDCD | http://ASDCD.amss.ac.cn | 药物-靶标相互作用预测 | ASDCD:抗真菌协同药物组合数据库。目前的版本包括210种抗真菌协同药物组合和1225种药物-靶点相互作用,涉及来自12,000多个参考文献的105种药物。 |
20 | STITCH | STITCH: chemical association networks | 药物-靶标相互作用预测 | STITCH 是一个大型数据集,包含来自 2031 个真核和原核基因组的超过 430 000 种学物质和 960 万种蛋白质的 16 亿个有相互作用的样本。 |
21 | BindingDB | Binding Database Home | 药物-靶标相互作用预测 | BindingDB包含1,735,582个结合数据,涉及7,352个蛋白质靶标和770,124个小分子。 |
22 | KIBA | http://staff.cs.utu.fi/~aatapa/data/DrugTarget/ GitHub - guaguabujianle/ML-DTI | 药物-靶标相互作用预测 | KIBA 数据集研究了给定扰动剂对激酶抑制剂生物活性的影响。它最初包含 246 088个药物-靶标相互作用对,将其中相互作用少于 10 个的药物和靶标删除,最终获得 118 254个相互作用对。 |
23 | Davis | http://staff.cs.utu.fi/~aatapa/data/DrugTarget/ GitHub - guaguabujianle/ML-DTI GitHub - cansyl/MDeePred: Multi-Channel Deep Chemogenomic Modeling of Receptor-Ligand Binding Affinity Prediction for Drug Discovery | 药物-靶标相互作用预测 | Davis 数据集包含68 种独特药物和442种独特蛋白质的30000多种药物-标相作用对,其亲和力通过 Kd 值测量。与 KIBA 数据集类似,它还报告了激酶蛋白家族的亲和力值。 |
24 | Metz | GitHub - guaguabujianle/ML-DTI | 药物-靶标相互作用预测 | Metz 数据集包括 1421 种药物和 156 个标,其中结合亲和力以 pKi值的形式给出同时,蛋白质和药物之间的关系可以从 STITCH(search tool for interactions of chemicals)数据库中获得,该数据库整合了各种化学和蛋白质网络。 |
25 | ToxCast | GitHub - simonfqy/PADME: This is the repository containing the source code for my Master's thesis research, about predicting drug-target interaction using deep learning. | 药物-靶标相互作用预测 | EPA 的毒性预测器针对数千种感兴趣的化学品生成数据和预测模型,并将其收集到 ToxCast 数据集中。该数据集包含对 8615 种化合物进行的 600 多次实验的定性结果。 |
26 | SIDER | SIDER Side Effect Resource | 药物-靶标相互作用预测,药物-药物相互作用预测 | SIDER (side effect resource) 数据库包含关于批准的药物及其报告的副作用的信息,信息提取自公共文件或其他开源文件。 |
27 | SuperPred | Structural Bioinformatics Group | 药物-靶标相互作用预测 | |
28 | SuperTarget | Structural Bioinformatics Group | 药物-靶标相互作用预测 | 包含全面的药物-靶标信息和药物特性包含药物和靶标之间结合的亲和力 |
29 | KEGG | KEGG: Kyoto Encyclopedia of Genes and Genomes | 药物-靶标相互作用预测,药物-药物相互作用预测 | KEGG(Kyoto encyclopedia otgenes and genomes)数据库是一个针对日本、美国和欧洲国家上市的获批药物的综合性数据库,存储了药物的化学结构、靶标、代谢酶等特征信息,还存储了蛋白质通路的相关信息。 |
30 | UniProt | UniProt | 药物-靶标相互作用预测 | 包含蛋白质序列和功能信息 |
31 | TTD | Therapeutic Target Database (TTD) | 药物-靶标相互作用预测 | 提供有关治疗靶点的信息,包括蛋白质和核酸 |
32 | PharmGKB | PharmGKB | 包含基因组学、表型,药品和临床信息 | |
33 | GO | Gene Ontology Resource | 提供与基因及其产物的功能相关的结构化知识 | |
34 | Reactome | Home - Reactome Pathway Database | 包含通路、反应和生物过程 | |
35 | HPO | www.human-phenotype-ontology.org | 通过特定术语描述人类疾病的表型异常并提供标准化词汇 | |
36 | PDBBind,Kinome | GitHub - cansyl/MDeePred: Multi-Channel Deep Chemogenomic Modeling of Receptor-Ligand Binding Affinity Prediction for Drug Discovery | ||
37 | COVID-19 | COVID-19 Full Data Download | Therapeutic Target Database | COVID-19相关的药物和靶标信息,包括2D和3D | |
38 | 国家基因组科学数据中心 | 首页 - 国家基因组科学数据中心 | ||
39 | NCBI | National Center for Biotechnology Information | 疾病、 DNA、药物和化合物、基因表达、文献、元数据、表型、蛋白质、 RNA、标准、本体和命名 | |
40 | COSMIC | COSMIC | Catalogue of Somatic Mutations in Cancer | 疾病、 DNA | |
41 | MGI | MGI-Mouse Genome Informatics-The international database resource for the laboratory mouse | 疾病、 DNA、基因表达、表型 | |
42 | CTD | The Comparative Toxicogenomics Database | CTD | 基因与疾病的关联,化学-表型相互作用,疾病-通路关联,基因-通路关联 | |
43 | PLasmoDB | PlasmoDB | ||
44 | miR2Disease | http://www.mir2disease.org/ | miR2Disease中的每个条目都包含miRNA与疾病关系的详细信息,包括miRNA ID、疾病名称、miRNA与疾病关系的简要描述、疾病状态下的miRNA表达模式、miRNA表达的检测方法、实验验证的miRNA靶点基因和文献参考。 | |
45 | DO-Disease Ontology | DO | ||
46 | CARD | The Comprehensive Antibiotic Resistance Database | 综合抗生素耐药性数据库 | |
47 | ChEBI | Chemical Entities of Biological Interest (ChEBI) | ||
48 | GDSC | https://www.cancerrxgene.org/ | 癌症药物敏感性的基因组学 | |
49 | USPTO | LocalTransform/data at main · kaist-amsg/LocalTransform · GitHub GitHub - bigchem/synthesis: Contains results and data from Augmented Transformer article | 分子逆合成设计 | USPTO数据集包括从美国专利和专利申请中提取的超过180万个有机化学反应。该数据集以SMILES的形式包含化学反应过程,其一般格式为:反应物>试剂>产物。dc.molnet提供了加载USPTO数据集的子集的能力,即MIT、STEREO和50K。MIT数据集包含约479K个反应。STEREO数据集包含约100万个反应,没有重复项,并且反应包括立体化学信息。50K数据集包含50,000个反应,并且是反合成预测的基准。此外,反应还分为10个反应类别。 |