siRNA设计工具(SiPro)

该工具利用先进的机器学习模型(XGBoost)预测高效 siRNA 候选序列,并结合参考转录组比对进行特异性检查,以最大限度地减少脱靶效应。

1. 设计参数 (Design Parameters)

类型说明:

  • 19nt: 基于 19nt 线性模型设计,不含 2nt 悬垂(overhangs)。合成时可手动添加悬垂(如对称的 3'TT)。
  • 21nt: 基于 21nt 线性模型设计,包含 属于目标序列的 2nt 悬垂。

注意: 该参数定义了脱靶搜索的灵敏度。 值越大(如 3),能检测到更多潜在的脱靶位点(即使是远缘匹配),从而实现更严格的过滤,筛选出的 siRNA 更安全。 值越小(如 1),筛选条件相对宽松。

2. 输入序列 (Input Sequence)

或者粘贴核苷酸序列:

支持格式: 纯序列或 FASTA 格式。

算法与模型 (Algorithm & Model)

siRNA 效能预测基于在大型实验验证数据集上训练的 XGBoost 模型。 主要特征包括:

  • 序列组成: 特定位置的核苷酸频率。
  • 热力学特征: GC 含量(局部及整体)、Tm 值(熔解温度)。
  • 位置偏好: 源自 Reynolds 等和 Ui-Tei 等的特定规则(例如:反义链 5' 端为 A/U)。
  • 模体筛选: 避免免疫刺激模体和毒性序列。

特异性检查: 候选序列与选定物种的转录组进行比对。 仅保留特异性靶向输入基因(在指定的错配容忍度下无脱靶命中)的 siRNA。

参考文献 (References)

  1. Vert JP, Foveau N, Lajaunie C, Vandenbrouck Y. An accurate and interpretable model for siRNA efficacy prediction. BMC Bioinformatics. 2006 Nov 30;7:520.
  2. Huesken D, et al. Design of a genome-wide siRNA library using an artificial neural network. Nat Biotechnol. 2005 Aug;23(8):995-1001.
  3. Katoh T, Suzuki T. Specific residues at every third position of siRNA shape its efficient RNAi activity. Nucleic Acids Res. 2007;35(4):e27.
  4. Bai Y, Zhong H, Wang T, Lu ZJ. OligoFormer: an accurate and robust prediction method for siRNA design. Bioinformatics. 2024 Oct 1;40(10):btae577.