当前位置:
X-MOL 学术
›
J. Chem. Inf. Model.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
MD-LAIs Software: Computing Whole-Sequence and Amino Acid-Level "Embeddings" for Peptides and Proteins.
Journal of Chemical Information and Modeling ( IF 5.6 ) Pub Date : 2024-11-18 , DOI: 10.1021/acs.jcim.3c01189 Ernesto Contreras-Torres,Yovani Marrero-Ponce
Journal of Chemical Information and Modeling ( IF 5.6 ) Pub Date : 2024-11-18 , DOI: 10.1021/acs.jcim.3c01189 Ernesto Contreras-Torres,Yovani Marrero-Ponce
Several computational tools have been developed to calculate sequence-based molecular descriptors (MDs) for peptides and proteins. However, these tools have certain limitations: 1) They generally lack capabilities for curating input data. 2) Their outputs often exhibit significant overlap. 3) There is limited availability of MDs at the amino acid (aa) level. 4) They lack flexibility in computing specific MDs. To address these issues, we developed MD-LAIs (Molecular Descriptors from Local Amino acid Invariants), Java-based software designed to compute both whole-sequence and aa-level MDs for peptides and proteins. These MDs are generated by applying aggregation operators (AOs) to macromolecular vectors containing the chemical-physical and structural properties of aas. The set of AOs includes both nonclassical (e.g., Minkowski norms) and classical AOs (e.g., Radial Distribution Function). Classical AOs capture neighborhood structural information at different k levels, while nonclassical AOs are applied using a sliding window to generalize the aa-level output. A weighting system based on fuzzy membership functions is also included to account for the contributions of individual aas. MD-LAIs features: 1) a module for data curation tasks, 2) a feature selection module, 3) projects of highly relevant MDs, and 4) low-dimensional lists of informative global and aa-level MDs. Overall, we expect that MD-LAIs will be a valuable tool for encoding protein or peptide sequences. The software is freely available as a stand-alone system on GitHub (https://github.com/Grupo-Medicina-Molecular-y-Traslacional/MD_LAIS).
中文翻译:
MD-LAIs 软件:计算肽和蛋白质的全序列和氨基酸水平“嵌入”。
已经开发了几种计算工具来计算肽和蛋白质的基于序列的分子描述符 (MD)。但是,这些工具具有某些限制:1) 它们通常缺乏管理输入数据的功能。2) 他们的输出经常表现出明显的重叠。3) 氨基酸 (aa) 水平的 MD 可用性有限。4) 它们在计算特定 MD 方面缺乏灵活性。为了解决这些问题,我们开发了 MD-LAI(来自局部氨基酸不变量的分子描述符),这是一种基于 Java 的软件,旨在计算肽和蛋白质的全序列和 aa 级 MD。这些 MD 是通过将聚集运算符 (AO) 应用于包含 aas 的化学物理和结构特性的大分子载体而生成的。AO 集包括非经典 (例如,Minkowski 范数) 和经典 AO (例如,径向分布函数)。经典 AO 捕获不同 k 级别的邻域结构信息,而非经典 AO 使用滑动窗口应用来概括 aa 级别的输出。还包括一个基于模糊隶属函数的加权系统,以说明单个 aas 的贡献。MD-LAI 的特点:1) 用于数据管理任务的模块,2) 特征选择模块,3) 高度相关的 MD 项目,以及 4) 信息丰富的全局和 aa 级 MD 的低维列表。总体而言,我们预计 MD-LAI 将成为编码蛋白质或肽序列的宝贵工具。该软件在 GitHub (https://github.com/Grupo-Medicina-Molecular-y-Traslacional/MD_LAIS) 上作为独立系统免费提供。
更新日期:2024-11-18
中文翻译:
MD-LAIs 软件:计算肽和蛋白质的全序列和氨基酸水平“嵌入”。
已经开发了几种计算工具来计算肽和蛋白质的基于序列的分子描述符 (MD)。但是,这些工具具有某些限制:1) 它们通常缺乏管理输入数据的功能。2) 他们的输出经常表现出明显的重叠。3) 氨基酸 (aa) 水平的 MD 可用性有限。4) 它们在计算特定 MD 方面缺乏灵活性。为了解决这些问题,我们开发了 MD-LAI(来自局部氨基酸不变量的分子描述符),这是一种基于 Java 的软件,旨在计算肽和蛋白质的全序列和 aa 级 MD。这些 MD 是通过将聚集运算符 (AO) 应用于包含 aas 的化学物理和结构特性的大分子载体而生成的。AO 集包括非经典 (例如,Minkowski 范数) 和经典 AO (例如,径向分布函数)。经典 AO 捕获不同 k 级别的邻域结构信息,而非经典 AO 使用滑动窗口应用来概括 aa 级别的输出。还包括一个基于模糊隶属函数的加权系统,以说明单个 aas 的贡献。MD-LAI 的特点:1) 用于数据管理任务的模块,2) 特征选择模块,3) 高度相关的 MD 项目,以及 4) 信息丰富的全局和 aa 级 MD 的低维列表。总体而言,我们预计 MD-LAI 将成为编码蛋白质或肽序列的宝贵工具。该软件在 GitHub (https://github.com/Grupo-Medicina-Molecular-y-Traslacional/MD_LAIS) 上作为独立系统免费提供。