当前位置:
X-MOL 学术
›
Nucleic Acids Res.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
DeepLoc 2.0: multi-label subcellular localization prediction using protein language models.
Nucleic Acids Research ( IF 16.6 ) Pub Date : 2022-07-05 , DOI: 10.1093/nar/gkac278 Vineet Thumuluri 1 , José Juan Almagro Armenteros 2, 3 , Alexander Rosenberg Johansen 3, 4 , Henrik Nielsen 5 , Ole Winther 6, 7, 8
Nucleic Acids Research ( IF 16.6 ) Pub Date : 2022-07-05 , DOI: 10.1093/nar/gkac278 Vineet Thumuluri 1 , José Juan Almagro Armenteros 2, 3 , Alexander Rosenberg Johansen 3, 4 , Henrik Nielsen 5 , Ole Winther 6, 7, 8
Affiliation
The prediction of protein subcellular localization is of great relevance for proteomics research. Here, we propose an update to the popular tool DeepLoc with multi-localization prediction and improvements in both performance and interpretability. For training and validation, we curate eukaryotic and human multi-location protein datasets with stringent homology partitioning and enriched with sorting signal information compiled from the literature. We achieve state-of-the-art performance in DeepLoc 2.0 by using a pre-trained protein language model. It has the further advantage that it uses sequence input rather than relying on slower protein profiles. We provide two means of better interpretability: an attention output along the sequence and highly accurate prediction of nine different types of protein sorting signals. We find that the attention output correlates well with the position of sorting signals. The webserver is available at services.healthtech.dtu.dk/service.php?DeepLoc-2.0.
中文翻译:
DeepLoc 2.0:使用蛋白质语言模型进行多标签亚细胞定位预测。
蛋白质亚细胞定位的预测对于蛋白质组学研究具有重要意义。在这里,我们建议对流行工具 DeepLoc 进行更新,提供多本地化预测以及性能和可解释性方面的改进。为了训练和验证,我们整理了真核和人类多位置蛋白质数据集,具有严格的同源性划分,并通过从文献中汇编的排序信号信息进行丰富。我们通过使用预先训练的蛋白质语言模型在 DeepLoc 2.0 中实现了最先进的性能。它的另一个优点是它使用序列输入而不是依赖于较慢的蛋白质谱。我们提供了两种更好的可解释性方法:沿着序列的注意力输出和九种不同类型的蛋白质分选信号的高度准确的预测。我们发现注意力输出与排序信号的位置密切相关。网络服务器位于 services.healthtech.dtu.dk/service.php?DeepLoc-2.0。
更新日期:2022-04-30
中文翻译:
DeepLoc 2.0:使用蛋白质语言模型进行多标签亚细胞定位预测。
蛋白质亚细胞定位的预测对于蛋白质组学研究具有重要意义。在这里,我们建议对流行工具 DeepLoc 进行更新,提供多本地化预测以及性能和可解释性方面的改进。为了训练和验证,我们整理了真核和人类多位置蛋白质数据集,具有严格的同源性划分,并通过从文献中汇编的排序信号信息进行丰富。我们通过使用预先训练的蛋白质语言模型在 DeepLoc 2.0 中实现了最先进的性能。它的另一个优点是它使用序列输入而不是依赖于较慢的蛋白质谱。我们提供了两种更好的可解释性方法:沿着序列的注意力输出和九种不同类型的蛋白质分选信号的高度准确的预测。我们发现注意力输出与排序信号的位置密切相关。网络服务器位于 services.healthtech.dtu.dk/service.php?DeepLoc-2.0。