当前位置:
X-MOL 学术
›
J. Chem. Inf. Model.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Machine Learning-Driven Discovery and Database of Cyanobacteria Bioactive Compounds: A Resource for Therapeutics and Bioremediation.
Journal of Chemical Information and Modeling ( IF 5.6 ) Pub Date : 2024-11-27 , DOI: 10.1021/acs.jcim.4c00995 Renato Soares,Luísa Azevedo,Vitor Vasconcelos,Diogo Pratas,Sérgio F Sousa,João Carneiro
Journal of Chemical Information and Modeling ( IF 5.6 ) Pub Date : 2024-11-27 , DOI: 10.1021/acs.jcim.4c00995 Renato Soares,Luísa Azevedo,Vitor Vasconcelos,Diogo Pratas,Sérgio F Sousa,João Carneiro
Cyanobacteria strains have the potential to produce bioactive compounds that can be used in therapeutics and bioremediation. Therefore, compiling all information about these compounds to consider their value as bioresources for industrial and research applications is essential. In this study, a searchable, updated, curated, and downloadable database of cyanobacteria bioactive compounds was designed, along with a machine-learning model to predict the compounds' targets of newly discovered molecules. A Python programming protocol obtained 3431 cyanobacteria bioactive compounds, 373 unique protein targets, and 3027 molecular descriptors. PaDEL-descriptor, Mordred, and Drugtax software were used to calculate the chemical descriptors for each bioactive compound database record. The biochemical descriptors were then used to determine the most promising protein targets for human therapeutic approaches and environmental bioremediation using the best machine learning (ML) model. The creation of our database, coupled with the integration of computational docking protocols, represents an innovative approach to understanding the potential of cyanobacteria bioactive compounds. This resource, adhering to the findability, accessibility, interoperability, and reuse of digital assets (FAIR) principles, is an excellent tool for pharmaceutical and bioremediation researchers. Moreover, its capacity to facilitate the exploration of specific compounds' interactions with environmental pollutants is a significant advancement, aligning with the increasing reliance on data science and machine learning to address environmental challenges. This study is a notable step forward in leveraging cyanobacteria for both therapeutic and ecological sustainability.
中文翻译:
机器学习驱动的蓝细菌生物活性化合物发现和数据库:治疗和生物修复的资源。
蓝细菌菌株有可能产生可用于治疗和生物修复的生物活性化合物。因此,汇编有关这些化合物的所有信息以考虑它们作为工业和研究应用生物资源的价值至关重要。在这项研究中,设计了一个可搜索、更新、策划和可下载的蓝藻生物活性化合物数据库,以及一个机器学习模型来预测新发现分子的化合物靶标。Python 编程方案获得了 3431 种蓝藻生物活性化合物、373 种独特的蛋白质靶标和 3027 个分子描述符。使用 PaDEL 描述符、Mordred 和 Drugtax 软件计算每个生物活性化合物数据库记录的化学描述符。然后使用生化描述符来确定使用最佳机器学习 (ML) 模型进行人类治疗方法和环境生物修复的最有前途的蛋白质靶标。我们数据库的创建,加上计算对接协议的集成,代表了一种了解蓝藻生物活性化合物潜力的创新方法。该资源遵循数字资产的可查找性、可访问性、互操作性和重用 (FAIR) 原则,是制药和生物修复研究人员的绝佳工具。此外,它促进探索特定化合物与环境污染物相互作用的能力是一项重大进步,与日益依赖数据科学和机器学习来应对环境挑战相一致。这项研究是利用蓝藻实现治疗和生态可持续性的显着进步。
更新日期:2024-11-27
中文翻译:
机器学习驱动的蓝细菌生物活性化合物发现和数据库:治疗和生物修复的资源。
蓝细菌菌株有可能产生可用于治疗和生物修复的生物活性化合物。因此,汇编有关这些化合物的所有信息以考虑它们作为工业和研究应用生物资源的价值至关重要。在这项研究中,设计了一个可搜索、更新、策划和可下载的蓝藻生物活性化合物数据库,以及一个机器学习模型来预测新发现分子的化合物靶标。Python 编程方案获得了 3431 种蓝藻生物活性化合物、373 种独特的蛋白质靶标和 3027 个分子描述符。使用 PaDEL 描述符、Mordred 和 Drugtax 软件计算每个生物活性化合物数据库记录的化学描述符。然后使用生化描述符来确定使用最佳机器学习 (ML) 模型进行人类治疗方法和环境生物修复的最有前途的蛋白质靶标。我们数据库的创建,加上计算对接协议的集成,代表了一种了解蓝藻生物活性化合物潜力的创新方法。该资源遵循数字资产的可查找性、可访问性、互操作性和重用 (FAIR) 原则,是制药和生物修复研究人员的绝佳工具。此外,它促进探索特定化合物与环境污染物相互作用的能力是一项重大进步,与日益依赖数据科学和机器学习来应对环境挑战相一致。这项研究是利用蓝藻实现治疗和生态可持续性的显着进步。