文章摘要
背景:药物发现面临高效探索庞大化学空间的挑战,分子语言模型(Mol-LLMs)因其可扩展性和与NLP模型的兼容性展现出潜力,但直接套用NLP预训练范式存在差异,且缺乏对关键要素如何影响性能的系统理解。研究目的:通过大规模系统性实验(超过30,000次),探究分子表示、分词策略、模型规模和数据集大小等预训练关键要素对Mol-LLMs分子生成性能的影响,并基于此构建高性能的NovoMolGen模型家族。结论:研究发现模型性能早期饱和,小模型(如32M参数)表现优异;不同分子表示和分词策略各有权衡,BPE整体更优;预训练损失与下游性能弱相关。NovoMolGen在无约束生成和目标导向优化任务上取得新的SOTA结果,但存在依赖合成可及性数据、缺乏功能语义等不足,未来需改进训练目标、引入早期强化学习并拓展应用场景。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。