面对水体特征污染物精准治理的迫切需求,环境功能材料的高效开发长期受限于关键作用机制解析不清与高质量数据资源匮乏的瓶颈。近年来,张炜铭教授课题组创新性地提出“水处理吸附材料数据资源化驱动”研究范式,通过系统构建多源异构材料数据库、开发先进机器学习解析工具,成功实现了吸附材料从“性能评估-机制解析-定向设计”的闭环优化,为环境功能材料的智能化开发提供了新路径。课题组围绕吸附材料数据资源应用策略,开展了系列研究:包括数据驱动吸附模型开发 (Separation and Purification Technology 368 (2025) 133019),数据驱动高通量材料筛选 (Separation and Purification Technology 339 (2024) 126732) 以及数据驱动材料逆向设计(Environmental Science & Technology 2024, 58, 15298−15310)等工作。
在此背景下,课题组基于前期构建的目标污染物吸附材料数据集,进一步拓展了针对多种含氧阴离子的吸附材料数据集。研究发现,现有文献数据集普遍存在严重的数据偏倚问题:约80%的数据集中于pH中性条件(pH=7),而酸性和碱性条件下的样本严重稀缺,导致模型错误判断pH对吸附的调控影响;约65%的污染物初始浓度数据分布在10-100 ppm区间,高浓度与低浓度废水处理应用场景的数据缺失,致使模型错误地呈现浓度与吸附量之间的负相关关系。这种由“发表偏倚”导致的“幸存者偏差”,严重误导了学者对吸附机制的解析,例如模型错误地将空间位阻判定为主导机制,这与真实吸附现象相悖。
针对上述挑战,课题组创新性地提出了“实验-文献复合数据集”均衡化策略:针对真实应用场景(如典型废水条件:pH 1-6、浓度1-1000 ppm),定向补充了697组实验数据。该策略显著提升了模型性能,预测精度提升了4.49%,置信区间收窄了50%。基于均衡化数据集,特征重要性分析清晰表明,静电作用的贡献率高达48.4%,主导了吸附过程。而实验验证结果与此推论一致:季胺树脂因其更高的电荷密度,对CrO42-的吸附量较伯胺树脂提升了3倍。同时,DFT理论计算也支持了静电作用(而非空间位阻)在吸附过程中的主导地位。由此,课题组进一步定向设计了共价有机聚合物COP-A,通过增强电荷密度使吸附量较常规材料提升56%。该研究构建了“数据均衡化-特征分类-机制量化”新范式,为水处理吸附材料创制研究中“数据失真致结论失真”的共性难题提供了有效方法,为水中特征污染物精准分离提供科学指导。
该成果以“Machine learning reveals key adsorption mechanisms for oxyanions based on combination of experimental and published literature data”为题发表于《Environmental Science & Technology》, 原文链接:https://doi.org/10.1021/acs.est.5c03992。南京大学环境学院博士生袁岭和硕士生张涵为共同第一作者,张炜铭教授为通讯作者。团队博士生余航、博士后许荣明、张延杨副教授、花铭教授、吕路教授、潘丙才教授为共同作者。研究获国家自然科学基金(21925602, 52070096, U22A20403)资助。