主要观点总结
本文介绍了在中国发展高层论坛上,国家数据局局长刘烈宏提出的“以高质量数据促进人工智能发展”的四维战略框架,并详细阐述了高质量数据集在人工智能领域的重要性及其建设要求。文章还重点介绍了高质量数据集的类型、质量要求和标准,以及高质量数据在银行领域的应用和价值。
关键观点总结
关键观点1: 国家数据局局长刘烈宏提出“以高质量数据促进人工智能发展”的四维战略框架。
标志着我国数据要素政策进入精细化落地阶段,高质量数据集作为训练人工智能模型的基础,已成为人工智能赋能千行百业的核心要素。
关键观点2: 高质量数据集包括三种类型。
分别是面向社会公众的通用知识组成数据集、面向行业领域从业人员的通用知识组成数据集和面向行业领域机构内部业务人员的专业知识组成数据集。
关键观点3: 高质量数据集的质量要求包括文档完整性、质量合规性和场景适用性三个维度。
其中文档完整性要求数据集说明文档的完整性;质量合规性包括结构完整性、安全规范性等;场景适用性则涉及内容多样性、规模完整性等。
关键观点4: 在银行领域,高质量数据的重要性体现在多个方面。
包括准确性、完整性、一致性、时效性、相关性、覆盖性、平衡性、信噪比、标注质量、可解释性与文档完备以及可访问性与格式等方面。
关键观点5: 构建高质量银行数据集合的关键措施。
包括精心设计数据采集流程、严格数据清洗和预处理、制定清晰的数据标注规范、完善元数据管理和数据治理以及持续监控数据质量等。
正文
-
文档完整性:数据集应具备完整的说明文档,包含基本信息、 内容特征、建设过程及应用说 明等。
-
质量合规性:数据集中数据的质量满足人工智能模型开发和训练的基本要求。
-
场景适用性:数据集能显著提升目标应用场景人工智能模型的性能。
(1)文档完整性指标可以包括以下方面:
a) 基本信息完整性:数据集说明文档应包含数据集规模、格式规范、文件结构、获取渠道、技 术支持方式等基本信息。
b) 内容特征完整性:数据集说明文档应包含模态类型、数据分布情况、标签类别统计、样本示 例、局限性说明等内容特征。
c) 建设过程完整性:数据集说明文档应包含数据来源、采集方法、加工处理流程、标注规范、 版本控制记录等建设过程。
d) 应用说明完整性:数据集说明文档应包含使用许可、 目标应用场景、评估方法、基准测试结 果、典型应用案例等应用说明。
(2)质量合规性指标可以包括以下方面:
a) 结构完整性:数据集描述数据的元数据完整,不包含缺失值或缺失值应在合理范围内。
b) 安全规范性:数据集中数据符合人工智能模型开发和训练的安全要求,不包含中毒数据。
c) 格式规范性:数据集中数据的格式符合预定标准,可直接用于人工智能模型开发和训练。
d) 标注规范性:数据集中数据的标注符合预定的标注规范,遵循预先设定的规范化流程。