专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
软件定义世界(SDX)  ·  谷歌CEO劈柴震撼预言:2030年AI直逼超 ... ·  12 小时前  
数局  ·  粉丝破1800万!韦东奕堂姐发声 ·  21 小时前  
CDA数据分析师  ·  【干货】如何用 AI 从0到1 ... ·  4 天前  
51好读  ›  专栏  ›  数据派THU

首次实现纳米晶体端到端解析,哥大团队提出PXRDnet,成功解析200种复杂模拟纳米晶体

数据派THU  · 公众号  · 大数据  · 2025-06-01 17:00

正文

请到「今天看啥」查看全文


研究亮点:

* 该成果破解了长期困扰材料科学界的纳米晶体结构解析难题,并提供了一款高效的人工智能解析工具,有望推动纳米技术、生物医学、能源存储、电子器件等多领域的创新应用。

* 该方法显著突破了传统方法的适用边界,并在多个案例中获得接近真实结构的候选解。

* 研究提出了 MP-20-PXRD 基准数据集(包含 Materials Project 中 20 个原子以内的稳定材料及其模拟衍射数据),并公开了代码和数据集,为后续研究提供了统一标准。

Image

论文地址:
https://go.hyper.ai/r1K6b

Materials Project 在线材料数据库:
https://go.hyper.ai/2gCe9

数据集:提出 MP-20-PXRD 基准数据集

为了得到有效的模型,研究人员提供了一个名为 MP-20-PXRD 的基准数据集,用来对 PXRDnet 进行以端到端的训练。

具体来说,研究人员采用了 Materials Project 的 MP-20 数据集, 该数据集由从 Materials Project 数据库中采样的材料组成,其晶胞内原子数量最多为 20 个。 然后研究人员采用 pymatgen package 模拟 MP-20 中所有结构的粉末衍射图。

Materials Project 在线材料数据库:
https://go.hyper.ai/2gCe9

模拟采用了 Cu Kα 辐射,且 Q 值范围为 0-8.1568 Å⁻¹。

MP-20-PXRD 数据集包含 45,229 种材料,按照 90%、7.5%、2.5% 的比例用以训练、验证和测试。值得一提的是,MP-20-PXRD 数据集已被开源,研究人员希望以此激励「后来者」进一步探索纳米晶体结构解析新方案。

模型架构:基于 CDVAE 打造,引入 PXRD 回归器

PXRDnet 模型基于 CDVAE 架构设计, 主要包含 3 个主要分支,即原子去噪声分支、变分自编码器(variational autoencoder, VAE)分支和 PXRD 回归器 ,它们通过共享的高斯潜在码相连接。该方法使得 PXRDnet 能够在给定 PXRD 模式和化学式的情况下,准确生成符合要求的材料结构候选,为纳米材料结构解析提供了新见解。

Image
PXRDnet 训练过程

基于 CDVAE 的骨架开发

介绍 PXRDnet,就不得不提到 CDVAE 模型,这是前者创建的基础。 CDVAE 是一种材料结构生成模型 ,其灵感来自于变分自编码器和去噪扩散网络,是一种学习从噪声中解压缩数据的生成模型。

为了理解 VAE 和扩散组件的分解,研究人员认识到材料的晶胞可以用 4 个组件来表示,即化学成分、原子数、晶格参数和原子坐标。

CDVAE 的第一个分支使用 VAE 处理前三个组件 ,编码器为 DimeNet —— 一种 SE(3)- 不变图神经网络(SE (3)-invariant Graph Neural Network),它可以将材料的图表示映射为潜在表示 z。图表示被修改为有向多重图,以体现材料固有的周期性。然后研究人员通过 kullback-Leibler 散度损失,潜在表示 z 被正则化为多元高斯分布,接着从 z 解码出化学成分、原子数和晶格参数。

每个预测都由一个单独的晶体参数多层感知器(MLP)生成,该感知器接收潜在编码 z。 z 将在随后模型的所有其他分支中用作材料表示。

CDVAE 的第二个分支通过噪声条件评分网络(noise-conditioned score network)利用去噪扩散来处理组件。 它假设组件原子数和晶格参数是固定的,正向过程用多元高斯噪声扰动原子坐标和原子种类;反向过程用 GemNet 参数化,这是一种 SE(3)- 等变图神经网络 (equivariant graph neural network)。该过程以上述潜在编码 z 为条件,这是其正常工作的基础。

值得一提的是,







请到「今天看啥」查看全文