正文
(来源:
Energy and AI
)
陈震林对 DeepTech 进一步解释道:“我们整合了领域专业知识与数值计算方法,包括物理方程和热力学方程的运用。然后,将专家计算结果与大模型输出进行多轮比对和迭代优化。”
随后,研究人员进一步进行微调,分析每篇文章在数据库中提取出错以及与人工标注结果不符的原因。
细致的误差分析结果显示,数据偏差可能来自两个方面:一方面,人工标注本身存在误差,在某些情况下大模型的判断反而更准确;另一方面,模型在单位换算或数值处理时会出现混淆。
针对这些问题,研究人员对其进行更多的训练和校正,使训练后的准确率从初始的 63.6% 显著提升到了 83.74%(如下表)。
表丨提示迭代训练结果
(来源:
Energy and AI
)
从文档处理效率方面来看,使用新方法从 32 篇文档中提取大量数据仅需 61.41 分钟,处理一个文档平均仅需 7.09 秒,较手动方法实现了显著提升。
值得注意的是,研究还揭示了文本类型对提取效率的影响——由于字段结构更简单、内容更直白,新闻类文章的提取速度明显优于技术文献。
陈震林指出,研究过程中的关键挑战在于开发最优的零样本学习方法,这需要通过对提示策略的持续迭代来寻找最佳解决方案。
图丨基于大模型的数据提取的迭代提示工程过程
(来源:
Energy and AI
)
该课题组不仅建立了一套系统的提示优化方法论,更探索出充分发挥大模型潜力的技术路径,为能源领域数据提取提供了可复用的研究范式。
需要了解的是,该框架的应用范围不仅限于能源行业的上游领域,其强大的适应性使其同样适用于中游和下游环节的数据提取任务。例如,在发电领域,该技术可高效处理能源监管机构发布的年度发电站报告,以及各国政府定期发布的能源统计报告。
这些报告数据来源多样,既包含传统油气领域信息,也涵盖下游发电产业(如数据中心运营数据)和各类结构化表格数据。
对此,陈震林特别强调:“我们致力于开发具备迁移学习能力的框架体系,使其能够通过'举一反三'的机制,在不同应用场景中创造新的价值。”