ProtSA工具是一个 仅依赖氨基酸序列 的蛋白结构属性预测器:输入 蛋白序列,输出每个残基的 relasa (相对可及表面积)、 plddt (局部置信度)和 sec (二级结构 H/E/C)。模型采用三阶段课程训练得到:先在 Stage1 学到稳定的残基级结构语义表征(以节点回归与二级结构识别为主),再在 Stage2 引入更完整的结构约束进行联合优化,并通过无泄漏设计保证训练与推理都只使用序列侧信息。最终得到的版本在测试集上对目标任务表现稳定,兼顾可用精度与推理效率,适合做大规模序列结构注释前端。
1. 蛋白质序列(最长1024 aa):
已解析序列数: 0,总残基数: 0
测试集指标(聚焦 relasa/plddt/sec )
============================================================
Model Metrics (Stage2, Sequence-only)
============================================================
[Residue-level Regression]
------------------------------------------------------------
Target MAE R2 Note
------------------------------------------------------------
relasa 0.0952 0.7540 relative solvent accessibility
plddt_norm 0.0327 0.7446 normalized pLDDT (0-1)
plddt(0-100) 3.27 - converted from plddt_norm
------------------------------------------------------------
rsa_pcc 0.8685051555514335
------------------------------------------------------------
============================================================
Secondary Structure Classification
============================================================
Class Support Prec Recall F1 Acc
--------------------------------------------------
H 913987 0.9557 0.9589 0.9573 0.9589
E 404837 0.9369 0.9107 0.9236 0.9107
C 1064603 0.9331 0.9403 0.9367 0.9403
--------------------------------------------------
Macro 0.9392 0.9424
Confusion Matrix (rows=true, cols=pred):
H E C
H 876424 779 36784
E 1168 368678 34991
C 39487 24059 1001057
最后更新时间:2026-04-30