祝贺王聪、吴宇晖同学题为“Combinatorial discovery of antibacterials via a feature-fusion based machine learning workflow”的文章在Chemical Science上发表(https://doi.org/10.1039/d3sc06441g)该期刊2021年影响因子为8.4。
鉴于细菌感染和耐药细菌的威胁日益严峻,筛选新型抗菌分子正受到越来越多的重视。然而,在具有潜在抗菌活性的化合物文库中进行筛选是一项复杂而昂贵的任务,并且通过遍历合成和表征来充分探索文库的整个化学空间既困难又耗时。为了解决这些挑战,本论文提出通过Ugi四组分组合化学反应构建化合物库,结合特征融合机器学习模型,以有效筛选潜在的抗菌药物。
本论文首先选取市售的38种酸、20种醛、21种胺和7种不同的异腈,组成共111,720种可能的Ugi产物文库。为缩小初筛范围,本论文采用一致流形近似与投影将文库的高维空间分布信息降为二维分布图,从中尽可能均匀地选取了360个具有代表性的组合。随后合成了所有360个组合,并通过高通量实验对其抗菌性能进行了表征。分子指纹和物理化学描述符是两种经典的分子特征,前者更关注特定化学结构的存在与否。而后者则聚焦分子的物理化学性质,鉴于二者都表现了分子的不同侧面且具有一定的互补性,本论文认为同时考虑这两种描述符能有效提升机器学习模型预测的准确性,并为此设计了隐空间约束神经网络(LSCNN)机器学习模型,验证了它相较于其他架构模型在测试集上的优越性。随后通过机器学习模型预测了文库中全部11万种候选产物的抗菌特性。基于这些预测,选择了最优抗菌性能的一批化合物进行进一步的湿实验验证,并最终成功筛选得到3种具有良好抗菌活性(MIC=12 μM)且不易引起细菌耐药性发展的化合物。在本工作中,成功地将机器学习模型与高通量实验相结合,大大降低了组合文库筛选的成本,有效提升了整个筛选过程的效率。