数据结构考研(数据结构考研参考)-上海考研论坛

数据结构考研，数据结构考研真题

为推动科学数据开放共享，适应“论文出版+数据发布”的新型出版发展趋势，CPB 2021年开辟 “Data Paper” 数据论文栏目。本文是此栏目的最新发文，欢迎关注！

文章信息

Evaluation of performance of machine learning methods in mining structure-property data of halide perovskite materials

Ruoting Zhao (赵若廷), Bangyu Xing (邢邦昱), Huimin Mu (穆慧敏), Yuhao Fu (付钰豪), and Lijun Zhang (张立军)

Chin. Phys. B, 2022, 31 (5): 056302

Abstract

PDF

文章介绍

机器学习方法能够在保证材料模拟计算精度前提下大幅节约计算成本，已经被广泛应用于材料领域研究，例如：新材料预测、材料性质预测、自适应材料设计、原子间相互作用势计算等。但是，针对不同的材料研究问题往往没有统一的最佳机器学习算法，模型的选择必须符合材料数据以及特定研究问题的先验知识和假设。基于这一问题，吉林大学材料科学与工程学院张立军教授团队针对卤素钙钛矿材料体系，系统地研究了不同机器学习模型对钙钛矿体系材料结构热力学稳定性和带隙拟合的精度效果，并深入挖掘了钙钛矿结构与性质的关系。结果发现，机器学习模型针对不同的拟合目标性质表现出相似的趋势，非线性集成模型均表现出优异的拟合效果，其中eXtreme gradient Boosting decision tree (XGDT) 模型拟合效果最佳，能够同时提供分析影响混合卤素钙钛矿材料热力学稳定性和带隙重要的描述符信息。基于此，团队建立了混合卤素钙钛矿数据集，旨在为后续基于机器学习方法研究钙钛矿材料体系问题提供有效的帮助。该文章以“Evaluation of performance of machine learning methods in mining structure-property data of halide perovskite materials”为题，在Chinese Physics B第五期“数据论文”栏目出版。

研究背景

科学的研究已经经历了三种研究范式，从最初的实验科学范式，到以牛顿定律和麦克斯韦方程组为代表的理论科学范式，再到理论模型过于复杂，需要通过计算机方法模拟解析的理论模型范式。以上三种研究范式的发展为材料实验/理论研究积攒大量的材料科学数据，从而衍生出了基于数据驱动的第四类研究范式：利用数据科学知识，直接从实验/理论模拟大数据中提取挖掘物理/化学关系。同时，材料基因组计划的提出促进了材料信息学的发展，旨在弥合实验和理论模拟之间的差距，并促进一种更加数据密集型和系统化的研究方法。机器学习模型作为其中最重要的部分之一，将材料结构和性质紧密地衔接起来，因此选择合适的机器学习算法是构建特定材料研究体系的关键步骤，会极大地影响预测精度和泛化能力。钙钛矿材料以其较长的载流子扩散距离、较强的光吸收强度、易于调节的带隙和制造成本低等显著优势，在光伏领域备受关注。其具有较大离子半径的A位离子和具有多种元素组合可能性的[BX6]-八面体变化构型，为调节光伏性能提供了巨大的提升空间。因此，大量的研究关注于通过离子衍化等方式设计新型钙钛矿材料，使其保持优异的光伏性质，并具有高结构稳定性和无毒性，以适应不同的光电器件。本文通过系统地研究不同机器学习模型在拟合钙钛矿材料性质上的差异性，为后续将材料信息学方法应用于设计高效无毒钙钛矿材料提供了理论指导。

内容简介

为了评估不同机器学习模型在处理钙钛矿材料体系上的差异性。我们以立方相卤化物钙钛矿为结构原型(空间群: 3, 化学式: ABX3)，构建了 540 种混合卤化钙钛矿组合，其中 A = K，Rb，Cs; B = Mg，Ca，Sr，Ba，Zn，Cd，Ge，Sn，Pb 和 X = F，Cl，Br，I。同时，我们选择了12种材料领域常见的机器学习算法，包括套索算法(LASSO)、核岭回归(KRR)、 K近邻模型(KNN)、支持向量机(SVM)、决策树(DT)、极端随机树(ERT)、自适应增强决策树(ABDT)、随机森林(RF)、梯度提升决策树(GBDT)、轻梯度提升决策树(LGDT)、极端梯度提升决策树(XGDT)和人工神经网络(ANN)模型。高通量计算和机器学习流程均由课题组自主研发的Jilin Artificial-intelligence aided Material-design Integrated Package (JAMIP)（人工智能辅助、数据驱动的材料设计方法与软件，软件著作权号2021SR0349238，网址）完成，机器学习部分由生成计算材料数据、特征生成、特征工程和模型拟合与评估四部分组成，如图1所示。

图1. 机器学习工作流程示意图。

结果发现，对于钙钛矿材料体系，非线性集成模型展现出最为优异的拟合效果，这得益于其采用多个集成方法来优化单个模型的较高方差和偏差问题。其中XGDT模型拟合精度最高，而且还捕捉到了卤化物钙钛矿材料描述符与目标特性(热力学稳定性和带隙)之间潜在的构效关系。对于形成能，发现八面体元素电负性与键合距离的商差异性越大，钙钛矿越倾向于不稳定；对于带隙，八面体电负性与平均键合距离的商越大，钙钛矿带隙越呈现减小趋势，说明模型能够有效地挖掘出钙钛矿B –X八面体畸变情况对性质的影响。这为后续基于机器学习方法研究钙钛矿材料体系问题具有一定的指导价值。同时，为方便相关领域研究人员的使用和参考，本文已将上述材料计算结果和72维钙钛矿材料描述符信息汇总建立数据库，并在发布，为相关领域的科研人员在后续探索材料信息学方法应用于钙钛矿体系研究提供参考和使用平台。

本研究得到了国家自然科学基金杰出青年基金项目的资助。

官网：

从投稿到录用平均审稿周期：2个月

文章录用后2天内网上预出版（DOI）

每期评选封面文章、亮点文章并多渠道宣传推送

入选“中国科技期刊卓越行动计划”

本文转载自《中国物理B 》微信公众号

数据结构考研(数据结构考研参考)

未经允许不得转载：上海考研论坛 » 数据结构考研(数据结构考研参考)

数据结构考研(数据结构考研参考)

作者：admin

相关推荐

近期文章

近期评论

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏