近日,王颖教授、刘中华教授课题组联合北京深势科技有限公司郑行博士团队,在化学信息学领域知名期刊《Journal of Chemical Information and Modeling》上发表了题为“LigandExplorer: An Automated Tool for Ligand Extraction from PDB Structures”的研究论文。该论文第一作者为博士研究生李亚奇(现为北京深势科技有限公司生命科学部算法研究员),王颖教授、刘中华教授与北京深势科技有限公司郑行博士为共同通讯作者。Journal of Chemical Information and Modeling为中科院化学领域2区top期刊,2025年影响因子为5.6。
该研究围绕蛋白质-配体复合物结构信息的自动化提取与标准化处理展开。针对当前大型结构数据库(如RCSB PDB)在配体注释上普遍存在的异质性、缺乏机器可直接读取的分类,以及在大规模计算建模前需要耗费大量人工进行数据清理的困境,团队开发了一套开源的自动化后处理管道——LigandExplorer。研究中,团队设计了一种仅依赖原子坐标构建残基级图的算法,以降低对元数据完整性的依赖;同时,通过整合三阶段的LightGBM机器学习模型,实现了对共价与非共价配体的自动提取,并能将其初步分类为离子、核酸、多肽、糖、有机物等类别,进而评估其相互作用的生物学相关性。
为验证该工具的可靠性与适用范围,团队在经典基准数据集上进行了客观评估。在PDBbind v2020精炼集的测试中,LigandExplorer实现了98.38%的结构提取一致性;在面向柔性多肽配体的PepBDB数据集中,获得了97.52%的处理成功率。详尽的案例分析表明,少数未能成功处理的情况主要源于上游原始数据库的记录缺失,以及目前算法在处理拓扑结构极为复杂的非标准环肽时仍存在的局限性。
这项研究所建立的自动化配体提取与分类工具,在一定程度上减轻了计算建模早期的数据清洗负担,为结构生物学数据的标准化处理提供了一种具有借鉴意义的方案。目前,团队已将LigandExplorer作为开源代码和Web应用程序免费向公众发布,期冀能为后续基于结构的药物设计、虚拟筛选以及人工智能大模型的训练提供基础且便捷的数据处理支持。
开源仓库地址:https://github.com/dptech-corp/ligandexplorer
开源web服务地址:https://apps.atombeat.com/ligandexplorer

第一作者:李亚奇