本工具基于蛋白质大语言模型 + CRF序列标注架构,实现对蛋白质序列的残基级固有无序区(IDR)预测。模型能够精准判断每个氨基酸位点是否属于IDR,并输出对应的置信度分数,可广泛应用于蛋白质功能注释、结构预测辅助、突变分析等场景。
模型训练使用了约 2,000 条高质量标注序列,以 CAID2 作为验证集,CAID3 作为测试集进行性能评估。整个模型极为轻量,推理速度极快,适合大规模蛋白质序列分析及在线实时预测服务。
1. 蛋白质序列(支持10条 FASTA):
已解析序列数: 0,总残基数: 0
模型性能指标
Performance Comparison: ProtIDR vs. ESMDisPred (CAID3 Test Set)
========================================================================================
Overall Performance Metrics
========================================================================================
Metric ProtIDR (Ours) ESMDisPred (SOTA)
----------------------------------------------------------------------------------------
Accuracy 0.8413 0.8370
MCC 0.6104 0.6430
ROC-AUC 0.8922 0.8950
Average Precision (AP) 0.7575 0.7780
F1-max 0.7261 0.7590
Optimal Threshold 0.425 N/A
========================================================================================
========================================================================================
Per-Class Performance (Residue-Level)
========================================================================================
Class Metric ProtIDR (Ours) ESMDisPred (SOTA)
----------------------------------------------------------------------------------------
IDR (1) Precision 0.7357 0.7380
Recall 0.7067 0.7800
F1 0.7209 0.7580
----------------------------------------------------------------------------------------
Non-IDR (0) Precision 0.8821 0.8920
Recall 0.8963 0.8640
F1 0.8892 0.8780
========================================================================================
最后一次更新时间: 2026-04-30