专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

斯坦福团队开发AI数据提取框架，为能源领域数据获取难题提供方案

DeepTech深科技 · 公众号 · 科技媒体 · 2025-05-24 21:42

正文

（来源： Energy and AI ）

陈震林对 DeepTech 进一步解释道：“我们整合了领域专业知识与数值计算方法，包括物理方程和热力学方程的运用。然后，将专家计算结果与大模型输出进行多轮比对和迭代优化。”

随后，研究人员进一步进行微调，分析每篇文章在数据库中提取出错以及与人工标注结果不符的原因。

细致的误差分析结果显示，数据偏差可能来自两个方面：一方面，人工标注本身存在误差，在某些情况下大模型的判断反而更准确；另一方面，模型在单位换算或数值处理时会出现混淆。

针对这些问题，研究人员对其进行更多的训练和校正，使训练后的准确率从初始的 63.6% 显著提升到了 83.74%（如下表）。

表丨提示迭代训练结果（来源： Energy and AI ）

从文档处理效率方面来看，使用新方法从 32 篇文档中提取大量数据仅需 61.41 分钟，处理一个文档平均仅需 7.09 秒，较手动方法实现了显著提升。

值得注意的是，研究还揭示了文本类型对提取效率的影响——由于字段结构更简单、内容更直白，新闻类文章的提取速度明显优于技术文献。

陈震林指出，研究过程中的关键挑战在于开发最优的零样本学习方法，这需要通过对提示策略的持续迭代来寻找最佳解决方案。

图丨基于大模型的数据提取的迭代提示工程过程（来源： Energy and AI ）

该课题组不仅建立了一套系统的提示优化方法论，更探索出充分发挥大模型潜力的技术路径，为能源领域数据提取提供了可复用的研究范式。

需要了解的是，该框架的应用范围不仅限于能源行业的上游领域，其强大的适应性使其同样适用于中游和下游环节的数据提取任务。例如，在发电领域，该技术可高效处理能源监管机构发布的年度发电站报告，以及各国政府定期发布的能源统计报告。

这些报告数据来源多样，既包含传统油气领域信息，也涵盖下游发电产业（如数据中心运营数据）和各类结构化表格数据。

对此，陈震林特别强调：“我们致力于开发具备迁移学习能力的框架体系，使其能够通过'举一反三'的机制，在不同应用场景中创造新的价值。”