实验研究表明羟基磷灰石纳米粒子(HANP)可选择性抑制骨肉瘤细胞、黑色素瘤细胞等的增殖,而不对正常组织细胞产生毒性,在生物医学领域具有较好的应用潜能和价值。近年来,基于数据驱动的研究新范式有望加速材料与药物的研发进程,引起了众多研究者的关注,但是,目前基于抗肿瘤纳米羟基磷灰石HANPs材料的结构-性质关系的数据库与机器学习研究仍较缺乏。近期,南京大学化学化工学院马晶课题组联合该校计算机科学与技术系高阳教授、四川大学的朱向东教授等团队,建立了“抗肿瘤/组织再生性材料数据库” (http://www. webace-i3c.com/ATTRMaterialDatabase/home/home),其中实验数据集包含TEM、SEM、XRD、结晶度、Zeta电势、活性氧物种(ROS)、肿瘤抑制率等实验结果(图1)。对于肿瘤抑制率、ROS等实验数据,使用Apriori与Bayesian网络等数据挖掘算法进行关联性分析,发现材料形貌的描述符(如纳米粒子的长径比)与肿瘤抑制率、ROS等生物学活性之间存在关联。
图1用于机器学习的HANPs实验和理论数据集
进而,采用不同理论水平(DFT、DFTB、分子力场)计算了4万多个不同大小与不同形貌的纳米粒子的表面能等性质(图2)。基于可解释的机器学习方法(LightGBM, XGBoost, Support Vector Machine, GDRT等),仅采用三个描述符,即纳米粒子的长径比、钙离子的配位数、纳米粒子顶部晶面到中心的距离,就能精确地预测最多含数十万个原子的纳米粒子的表面能。与可解释的机器学习模型不同,深度学习可以自动提取特征,无需人工特征工程的投入。近期,马晶课题组发展了高精度、可迁移的图神经网络的DeepMoleNet深度学习方法(J. Chem. Inf. Model. 2021, 61, 3, 1066–1082)。利用小纳米粒子(原子个数小于200)的DFT数据集可对其表面能做出预测,但将该预测模型应用到较大的纳米粒子(最多含1000原子),仍是挑战。他们进而引入了截断近似,通过引入度量函数,建立了不同大小纳米粒子数据集之间的关系,可以对较大的纳米粒子给出具有DFT精度的表面能预测。
图2不同形貌纳米粒子的自动生成、多尺度数据集以及机器学习
为了更好地与实验结果关联,本文基于图像分割技术,将TEM或SEM表征得到的2维图像进行纳米粒子的3维几何结构建模。根据这些3维结构模拟得到的纳米粒子XRD图像和结晶度均与实验结果相一致(图3)。
图3纳米粒子三维几何结构重构与XRD、结晶度的理论模拟
马晶课题组还与南京大学匡亚明学院的董昊教授合作探究了纳米粒子表面电荷分布、晶面形貌对纳米粒子聚集、生长以及与生物分子结合机制的影响(图4),有助于进一步理解不同形貌羟基磷灰石纳米粒子的抗肿瘤抑制作用 (Front. Mol. Biosci. 2021, 8, 627015.)。本文发展的机器学习模型具有一定的普适性,可以用于探究其他类型纳米粒子的形貌与表面能等性质之间的关系,有助于加速各类纳米粒子和团簇的理性设计与筛选。
图4纳米粒子表面静电势以及成核与络合
该研究工作发表于Nature旗下的计算材料学期刊npj Computational Materials 7, 142 (2021)上,南京大学化学化工学院马晶教授和南京大学计算机科学与技术系高阳教授为论文的共同通讯作者,论文的第一作者是南京大学化学化工学院2017级博士研究生刘子腾。参与单位包括南京大学介观化学教育部重点实验室、南京大学计算机软件新技术国家重点实验室、南京大学匡亚明学院、四川大学国家生物医学材料工程技术研究中心、原子与分子物理研究所和生物医学工程学院。研究项目得到了国家重点研发计划和国家自然科学基金等经费的支持。