专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
51好读  ›  专栏  ›  DeepTech深科技

斯坦福团队开发AI数据提取框架,为能源领域数据获取难题提供方案

DeepTech深科技  · 公众号  · 科技媒体  · 2025-05-24 21:42

正文

请到「今天看啥」查看全文


(来源: Energy and AI


陈震林对 DeepTech 进一步解释道:“我们整合了领域专业知识与数值计算方法,包括物理方程和热力学方程的运用。然后,将专家计算结果与大模型输出进行多轮比对和迭代优化。”


随后,研究人员进一步进行微调,分析每篇文章在数据库中提取出错以及与人工标注结果不符的原因。


细致的误差分析结果显示,数据偏差可能来自两个方面:一方面,人工标注本身存在误差,在某些情况下大模型的判断反而更准确;另一方面,模型在单位换算或数值处理时会出现混淆。


针对这些问题,研究人员对其进行更多的训练和校正,使训练后的准确率从初始的 63.6% 显著提升到了 83.74%(如下表)。


表丨提示迭代训练结果 (来源: Energy and AI


从文档处理效率方面来看,使用新方法从 32 篇文档中提取大量数据仅需 61.41 分钟,处理一个文档平均仅需 7.09 秒,较手动方法实现了显著提升。


值得注意的是,研究还揭示了文本类型对提取效率的影响——由于字段结构更简单、内容更直白,新闻类文章的提取速度明显优于技术文献。


陈震林指出,研究过程中的关键挑战在于开发最优的零样本学习方法,这需要通过对提示策略的持续迭代来寻找最佳解决方案。


图丨基于大模型的数据提取的迭代提示工程过程 (来源: Energy and AI


该课题组不仅建立了一套系统的提示优化方法论,更探索出充分发挥大模型潜力的技术路径,为能源领域数据提取提供了可复用的研究范式。


需要了解的是,该框架的应用范围不仅限于能源行业的上游领域,其强大的适应性使其同样适用于中游和下游环节的数据提取任务。例如,在发电领域,该技术可高效处理能源监管机构发布的年度发电站报告,以及各国政府定期发布的能源统计报告。


这些报告数据来源多样,既包含传统油气领域信息,也涵盖下游发电产业(如数据中心运营数据)和各类结构化表格数据。


对此,陈震林特别强调:“我们致力于开发具备迁移学习能力的框架体系,使其能够通过'举一反三'的机制,在不同应用场景中创造新的价值。”








请到「今天看啥」查看全文