当前位置:
X-MOL 学术
›
Nucleic Acids Res.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
DNA breathing integration with deep learning foundational model advances genome-wide binding prediction of human transcription factors
Nucleic Acids Research ( IF 16.6 ) Pub Date : 2024-09-14 , DOI: 10.1093/nar/gkae783 Anowarul Kabir 1, 2 , Manish Bhattarai 1 , Selma Peterson 1 , Yonatan Najman-Licht 3 , Kim Ø Rasmussen 1 , Amarda Shehu 2 , Alan R Bishop 1 , Boian Alexandrov 1 , Anny Usheva 3
Nucleic Acids Research ( IF 16.6 ) Pub Date : 2024-09-14 , DOI: 10.1093/nar/gkae783 Anowarul Kabir 1, 2 , Manish Bhattarai 1 , Selma Peterson 1 , Yonatan Najman-Licht 3 , Kim Ø Rasmussen 1 , Amarda Shehu 2 , Alan R Bishop 1 , Boian Alexandrov 1 , Anny Usheva 3
Affiliation
It was previously shown that DNA breathing, thermodynamic stability, as well as transcriptional activity and transcription factor (TF) bindings are functionally correlated. To ascertain the precise relationship between TF binding and DNA breathing, we developed the multi-modal deep learning model EPBDxDNABERT-2, which is based on the Extended Peyrard-Bishop-Dauxois (EPBD) nonlinear DNA dynamics model. To train our EPBDxDNABERT-2, we used chromatin immunoprecipitation sequencing (ChIP-Seq) data comprising 690 ChIP-seq experimental results encompassing 161 distinct TFs and 91 human cell types. EPBDxDNABERT-2 significantly improves the prediction of over 660 TF-DNA, with an increase in the area under the receiver operating characteristic (AUROC) metric of up to 9.6% when compared to the baseline model that does not leverage DNA biophysical properties. We expanded our analysis to in vitro high-throughput Systematic Evolution of Ligands by Exponential enrichment (HT-SELEX) dataset of 215 TFs from 27 families, comparing EPBD with established frameworks. The integration of the DNA breathing features with DNABERT-2 foundational model, greatly enhanced TF-binding predictions. Notably, EPBDxDNABERT-2, trained on a large-scale multi-species genomes, with a cross-attention mechanism, improved predictive power shedding light on the mechanisms underlying disease-related non-coding variants discovered in genome-wide association studies.
中文翻译:
DNA 呼吸与深度学习基础模型的集成推进了人类转录因子的全基因组结合预测
先前表明,DNA 呼吸、热力学稳定性以及转录活性和转录因子 (TF) 结合在功能上是相关的。为了确定 TF 结合与 DNA 呼吸之间的精确关系,我们开发了基于扩展 Peyrard-Bishop-Dauxois (EPBD) 非线性 DNA 动力学模型的多模态深度学习模型 EPBDxDNABERT-2。为了训练我们的 EPBDxDNABERT-2,我们使用了染色质免疫沉淀测序 (ChIP-Seq) 数据,包括 690 个 ChIP-seq 实验结果,包括 161 种不同的 TF 和 91 种人类细胞类型。EPBDxDNABERT-2 显着改进了对超过 660 个 TF-DNA 的预测,与不利用 DNA 生物物理特性的基线模型相比,受试者工作特征下面积 (AUROC) 指标增加了高达 9.6%。我们将分析扩展到来自 27 个家族的 215 个 TF 的体外高通量指数富集配体系统进化 (HT-SELEX) 数据集,将 EPBD 与已建立的框架进行比较。DNA 呼吸特征与 DNABERT-2 基础模型的整合,大大增强了 TF 结合预测。值得注意的是,EPBDxDNABERT-2 在大规模多物种基因组上训练,具有交叉注意力机制,提高了预测能力,揭示了在全基因组关联研究中发现的疾病相关非编码变异的潜在机制。
更新日期:2024-09-14
中文翻译:
DNA 呼吸与深度学习基础模型的集成推进了人类转录因子的全基因组结合预测
先前表明,DNA 呼吸、热力学稳定性以及转录活性和转录因子 (TF) 结合在功能上是相关的。为了确定 TF 结合与 DNA 呼吸之间的精确关系,我们开发了基于扩展 Peyrard-Bishop-Dauxois (EPBD) 非线性 DNA 动力学模型的多模态深度学习模型 EPBDxDNABERT-2。为了训练我们的 EPBDxDNABERT-2,我们使用了染色质免疫沉淀测序 (ChIP-Seq) 数据,包括 690 个 ChIP-seq 实验结果,包括 161 种不同的 TF 和 91 种人类细胞类型。EPBDxDNABERT-2 显着改进了对超过 660 个 TF-DNA 的预测,与不利用 DNA 生物物理特性的基线模型相比,受试者工作特征下面积 (AUROC) 指标增加了高达 9.6%。我们将分析扩展到来自 27 个家族的 215 个 TF 的体外高通量指数富集配体系统进化 (HT-SELEX) 数据集,将 EPBD 与已建立的框架进行比较。DNA 呼吸特征与 DNABERT-2 基础模型的整合,大大增强了 TF 结合预测。值得注意的是,EPBDxDNABERT-2 在大规模多物种基因组上训练,具有交叉注意力机制,提高了预测能力,揭示了在全基因组关联研究中发现的疾病相关非编码变异的潜在机制。