当前位置:
X-MOL 学术
›
Genome Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Benchmarking and building DNA binding affinity models using allele-specific and allele-agnostic transcription factor binding data
Genome Biology ( IF 10.1 ) Pub Date : 2024-10-31 , DOI: 10.1186/s13059-024-03424-2 Xiaoting Li, Lucas A. N. Melo, Harmen J. Bussemaker
Genome Biology ( IF 10.1 ) Pub Date : 2024-10-31 , DOI: 10.1186/s13059-024-03424-2 Xiaoting Li, Lucas A. N. Melo, Harmen J. Bussemaker
Transcription factors (TFs) bind to DNA in a highly sequence-specific manner. This specificity manifests itself in vivo as differences in TF occupancy between the two alleles at heterozygous loci. Genome-scale assays such as ChIP-seq currently are limited in their power to detect allele-specific binding (ASB) both in terms of read coverage and representation of individual variants in the cell lines used. This makes prediction of allelic differences in TF binding from sequence alone desirable, provided that the reliability of such predictions can be quantitatively assessed. We here propose methods for benchmarking sequence-to-affinity models for TF binding in terms of their ability to predict allelic imbalances in ChIP-seq counts. We use a likelihood function based on an over-dispersed binomial distribution to aggregate evidence for allelic preference across the genome without requiring statistical significance for individual variants. This allows us to systematically compare predictive performance when multiple binding models for the same TF are available. To facilitate the de novo inference of high-quality models from paired-end in vivo binding data such as ChIP-seq, ChIP-exo, and CUT&Tag without read mapping or peak calling, we introduce an extensible reimplementation of our biophysically interpretable machine learning framework named PyProBound. Explicitly accounting for assay-specific bias in DNA fragmentation rate when training on ChIP-seq yields improved TF binding models. Moreover, we show how PyProBound can leverage our threshold-free ASB likelihood function to perform de novo motif discovery using allele-specific ChIP-seq counts. Our work provides new strategies for predicting the functional impact of non-coding variants.
中文翻译:
使用等位基因特异性和等位基因不可知的转录因子结合数据对 DNA 结合亲和力模型进行基准测试和构建 DNA 结合亲和力模型
转录因子 (TF) 以高度序列特异性的方式与 DNA 结合。这种特异性在体内表现为杂合位点两个等位基因之间 TF 占有率的差异。目前,ChIP-seq 等基因组规模检测方法在检测等位基因特异性结合 (ASB) 的能力方面受到限制,无论是在读取覆盖率还是所用细胞系中单个变体的表示方面。这使得仅从序列预测 TF 结合的等位基因差异是可取的,前提是可以定量评估这种预测的可靠性。我们在这里提出了对 TF 结合的序列亲和模型进行基准测试的方法,以证明它们预测 ChIP-seq 计数等位基因不平衡的能力。我们使用基于过度分散的二项式分布的似然函数来汇总整个基因组中等位基因偏好的证据,而无需单个变体的统计显着性。这使我们能够系统地比较同一 TF 的多个绑定模型可用时的预测性能。为了便于从双端体内结合数据(如 ChIP-seq、ChIP-exo 和 CUT&Tag)中从头推断高质量模型,而无需读取映射或峰值调用,我们引入了一个名为 PyProBound 的生物物理可解释机器学习框架的可扩展重新实现。在 ChIP-seq 上训练时,明确考虑 DNA 片段化率的检测特异性偏差可产生改进的 TF 结合模型。此外,我们还展示了 PyProBound 如何利用我们的无阈值 ASB 似然函数,使用等位基因特异性 ChIP-seq 计数进行从头基序发现。我们的工作为预测非编码变体的功能影响提供了新的策略。
更新日期:2024-10-31
中文翻译:
使用等位基因特异性和等位基因不可知的转录因子结合数据对 DNA 结合亲和力模型进行基准测试和构建 DNA 结合亲和力模型
转录因子 (TF) 以高度序列特异性的方式与 DNA 结合。这种特异性在体内表现为杂合位点两个等位基因之间 TF 占有率的差异。目前,ChIP-seq 等基因组规模检测方法在检测等位基因特异性结合 (ASB) 的能力方面受到限制,无论是在读取覆盖率还是所用细胞系中单个变体的表示方面。这使得仅从序列预测 TF 结合的等位基因差异是可取的,前提是可以定量评估这种预测的可靠性。我们在这里提出了对 TF 结合的序列亲和模型进行基准测试的方法,以证明它们预测 ChIP-seq 计数等位基因不平衡的能力。我们使用基于过度分散的二项式分布的似然函数来汇总整个基因组中等位基因偏好的证据,而无需单个变体的统计显着性。这使我们能够系统地比较同一 TF 的多个绑定模型可用时的预测性能。为了便于从双端体内结合数据(如 ChIP-seq、ChIP-exo 和 CUT&Tag)中从头推断高质量模型,而无需读取映射或峰值调用,我们引入了一个名为 PyProBound 的生物物理可解释机器学习框架的可扩展重新实现。在 ChIP-seq 上训练时,明确考虑 DNA 片段化率的检测特异性偏差可产生改进的 TF 结合模型。此外,我们还展示了 PyProBound 如何利用我们的无阈值 ASB 似然函数,使用等位基因特异性 ChIP-seq 计数进行从头基序发现。我们的工作为预测非编码变体的功能影响提供了新的策略。