蛋白结构属性预测 (ProtSA)

ProtSA工具是一个 仅依赖氨基酸序列 的蛋白结构属性预测器:输入 蛋白序列,输出每个残基的 relasa (相对可及表面积)、 plddt (局部置信度)和 sec (二级结构 H/E/C)。模型采用三阶段课程训练得到:先在 Stage1 学到稳定的残基级结构语义表征(以节点回归与二级结构识别为主),再在 Stage2 引入更完整的结构约束进行联合优化,并通过无泄漏设计保证训练与推理都只使用序列侧信息。最终得到的版本在测试集上对目标任务表现稳定,兼顾可用精度与推理效率,适合做大规模序列结构注释前端。

1. 蛋白质序列(最长1024 aa):

已解析序列数: 0,总残基数: 0



测试集指标(聚焦 relasa/plddt/sec )

============================================================
   Model Metrics (Stage2, Sequence-only)
============================================================

[Residue-level Regression]
------------------------------------------------------------
  Target         MAE        R2       Note
------------------------------------------------------------
  relasa       0.0952    0.7540    relative solvent accessibility
  plddt_norm   0.0327    0.7446    normalized pLDDT (0-1)
  plddt(0-100) 3.27      -         converted from plddt_norm
------------------------------------------------------------
  rsa_pcc      0.8685051555514335
------------------------------------------------------------


============================================================
   Secondary Structure Classification
============================================================
  Class   Support     Prec   Recall       F1      Acc
  --------------------------------------------------
  H        913987   0.9557   0.9589   0.9573   0.9589
  E        404837   0.9369   0.9107   0.9236   0.9107
  C       1064603   0.9331   0.9403   0.9367   0.9403
  --------------------------------------------------
  Macro                               0.9392   0.9424

  Confusion Matrix (rows=true, cols=pred):
              H      E       C
  H      876424    779   36784
  E        1168 368678   34991
  C       39487  24059 1001057
        

最后更新时间:2026-04-30