天然产物分类与生源解析器(Natural Product Classification and Biosynthetic Intelligence Engine, NPIE) 是一个面向天然产物分子分析的在线推理工具。用户输入一个 SMILES,即可同时获得两类结果:一类是基于 NPClassifier 体系的天然产物分类预测,包括 Pathway 、 Super_class 和 Class 三个层级;另一类是基于 MIBiG 4.0数据集 BGC 多标签模型的生物合成基因簇相关信息预测,包括 PKS 、 NRPS 、 terpene 、 ribosomal 等标签的概率与判定结果。该工具以统一的分子表征基座模型为核心,在同一个 encoder 上挂载多个任务适配器与任务头,实现“一次编码,多任务输出”,兼顾推理效率与结果一致性。 在方法上,工具首先将输入的 SMILES 转换为显式结构化的字符串表示,再送入经过大规模分子语料预训练的 Transformer 编码器。分类部分采用多随机种子 ensemble,对 Pathway / Super_class / Class 进行联合预测。生物合成基因簇(biosynthetic gene clusters,BGC)部分则基于多标签 ensemble 输出每个标签的概率、阈值和最终判定,从而更细致地反映分子与不同生物合成途径的关联强度。
核心输出:
1. 天然产物分类:输出 Pathway、Super class、Class 三个层级的预测结果,并给出层级一致性校验和推荐的 consistent triplet。
2. BGC 结果:输出 PKS、NRPS、terpene、ribosomal 等标签的概率、阈值与最终判定,辅助分析分子与不同生物合成类型的结构相似性。
1. 输入待分析分子:
用法
- 当前页面仅支持输入单条 SMILES 进行分析。输入后会先在前端展示结构,再点击“提交”调用后端推理接口。
- BGC 结果反映的是分子与已知天然产物/BGC 分布的结构相似性,不等同于实验验证的真实生源结论。
模型性能摘要
Multi-task NPClassifier Summary
============================================================
Pathway acc=0.9405±0.0022 f1=0.9120±0.0033 auprc=0.9656±0.0025
Super_class acc=0.8569±0.0038 f1=0.7805±0.0117 auprc=0.8581±0.0140
Class acc=0.7451±0.0011 f1=0.6139±0.0047 auprc=0.6872±0.0061
BGC Multi-label Summary
============================================================
f1_samples 0.8415 ± 0.0084
f1_macro 0.7999 ± 0.0081
exact_match 0.7160 ± 0.0094
auprc_macro 0.8723 ± 0.0169
hamming_loss 0.0669 ± 0.0019
AUPRC PKS 0.9403 ± 0.0143
AUPRC NRPS 0.9228 ± 0.0085
AUPRC ribosomal 0.9103 ± 0.0376
AUPRC other 0.8064 ± 0.0177
AUPRC terpene 0.9095 ± 0.0528
AUPRC saccharide 0.7444 ± 0.0373
最后更新日期:2026-06-25