ENGLISH

电子新闻

电子工程系与生命学院课题组合作开发冷冻电镜颗粒挑选的持续学习方法

发布时间:2022-05-16 点击数:

近年来,深度学习逐渐成为冷冻电镜图像处理流程中颗粒挑选的常用方法。然而,现有基于深度学习的颗粒挑选方法无法在新数据训练中动态地为模型积累新知识,换句话说,现有模型在新样本上被训练后,往往无法保持其在旧数据上颗粒挑选的精度。但如果在不断增加新数据进行训练时,一直保留原有数据共同训练,则存储和计算成本将大大增加。在现有冷冻电镜设施每天都产生大量新数据的情况下,这些问题大大限制了通用模型在新数据上的识别能力和精度。因此,我们需要改进现有深度学习网络训练的方式和方法,开发一种持续学习的技术,让深度神经网络能够模拟人的学习方式,在学习中积累新数据中的新特征,不断增强对生物样本图像的识别能力,助力自动化冷冻电镜系统与技术的发展。

2022年5月5日,清华大学生命科学学院李雪明副教授团队、电子工程系沈渊教授团队及北京科技大学陈健生教授团队(原清华大学电子工程系教师)联合在《自然•通讯》(Nature Communications)杂志在线发表题为“一种用于冷冻电镜颗粒挑选知识积累的范例驱动持续学习方法EPicker”(EPicker is an exemplar-based continual learning approach for knowledge accumulation in cryoEM particle picking)的研究论文。该论文报道了一种范例驱动的持续学习方法在蛋白质颗粒挑选中的应用,通过在颗粒挑选过程中不断学习新知识来扩展检测模型识别生物大分子的能力。

研究团队设计的基于持续学习的颗粒挑选算法,弥补了现有方法的不足,能够在训练神经网络的过程中不断积累新的颗粒挑选知识,提高通用模型的颗粒挑选能力。该算法设计了双路网络结构(图1),以及融合了知识蒸馏、历史回放、正则化、稀疏标注方法,将新样本的知识不断积累到通用模型中的同时,保证模型对旧知识的有效记忆,很好地解决模型在新数据上训练后无法挑选旧数据样本的问题。为进一步扩展方法的适用范围,团队针对广泛的生物对象设计了相应的挑选算法,支持有偏和无偏的颗粒挑选方式,以满足用户的不同需求。根据这些算法研究,团队开发了一个名为EPicker的新软件系统,经过训练之后可以精准地挑选蛋白质颗粒、囊泡和纤维等生物对象。通过在具有代表性和挑战性的数据集上进行大量实验,并与目前较为流行的颗粒挑选方法进行对比。验证了EPicker的有效性和优越性(图2)。研究结果表明,EPicker可以通过高效、高度自动化的持续学习过程,得到精度高、召回高且泛化能力强的蛋白质颗粒挑选结果。

图1 EPicker的网络框架和持续学习的示意图

图2 不同方法的颗粒挑选结果比较

清华大学生命科学学院李雪明副教授、电子工程系沈渊教授,北京科技大学计算机与通信工程学院陈健生教授为本文的共同通讯作者。清华大学电子工程系2019级硕士生张馨予,2020级硕士生赵天放为该论文的共同第一作者。本工作获得了科技部重点研发计划,国家自然科学基金委,北京市结构生物学高精尖创新中心,北京市生物结构前沿研究中心,生命科学联合中心和北京信息科学与技术国家研究中心等部门的资金支持。

论文链接:https://www.nature.com/articles/s41467-022-29994-y

分享到: