专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

AI大厦需要新的地基!

机器之心  · 公众号  · AI  · 2025-05-19 12:03

正文

请到「今天看啥」查看全文


向一体化数据底座演进 」。


为什么需要 Data×AI?


虽然「Scaling Law 撞墙论」宣称高质量数据即将耗尽,但实际上这里提到的高质量数据主要是指人类产生的易于获取的互联网数据。另一个方向上,随着生成式 AI 和新型数字化技术的发展,新生成的数据却正在日益暴增!IDC 预计,2028 年全球新生成数据量规模将达到惊人的 393.9 ZB —— 在 2024 年 147 ZB 的基础上还将以平均每年近 28% 的速度增长。如此海量的数据增长将给数据基础设施带来巨大的压力。不仅如此,多模态与非结构化数据爆发式增长、数据扩展性和碎片化等问题也在不断加剧。


这些问题综合起来,对底层基础设施的存储容量、架构扩展和实时分析能力提出了更高要求;也因此,数据库的稳健性与可扩展性已经成为 AI 应用成功的前提,正如数据科学界一句老话说的那样:「数据的边界决定模型的上限 」。如何高效、可靠地存储、管理和调用这些数据,成为 AI 基础设施能否支撑下一个十年的关键考验。可以说,数据在 AI 时代正面临着一场角色的重塑。


当然,这些需求也已经成为了相关领域发展的重要推动力。据 IDC 统计,2024 年全球大数据 IT 总投资规模约为 3540 亿美元,预计到 2028 年将增长至近 6440 亿美元。


「Data×AI」范式便是在这一背景中诞生的,传统意义上的 Data Infra(数据基础设施)概念正在走向升级:


Data Infra + AI → Data × AI Infra


也就是说,数据系统的作用不再只是为 AI 提供数据,而是本身也成为 AI 工作流程的一部分,与 AI 协同发展。



通过数据与 AI 的一体化融合,「Data×AI」范式有望解决行业数据流通难、多模态数据处理难、质量评估难等诸多问题。


比如在 行业数据 方面,数据碎片化早已是普遍存在的老大难问题,尤其在金融、医疗、工业制造等复杂严谨的行业,数据不仅分散在不同业务系统中,还存在极强的结构异构性和组织粒度差异。数据汇集的难度远高于算法构建。垂类数据缺乏统一建模方式,导致即使拥有大模型能力,也难以完成语义理解与业务联通。很多企业所谓的「AI 能力不足」本质上是「数据层打不通」。


多模态数据处理难 主要体现在数据融合和对齐的复杂性上。在实际应用中,文本、图像、音频、视频等不同类型的数据具有各自独特的结构和特性。例如,文本数据是线性的,图像数据是二维的,而音视频数据则是时序性的。将这些异构数据有效地融合在一起,要求系统具备强大的数据对齐和同步能力。此外,不同模态的数据在质量、密度和可用性方面可能存在显著差异,进一步增加了处理的复杂性。这些挑战使得多模态 AI 系统在实现高效、准确的决策支持方面面临严峻考验。


数据质量评估难 则主要源于数据的多样性和动态性。在 AI 模型训练过程中,数据的准确性、完整性、一致性和时效性直接影响模型的性能。然而,随着数据来源的多元化和数据量的激增,传统的数据质量评估方法已难以满足需求。例如,自动化工具可能难以识别和纠正数据中的细微错误或偏差,尤其是在非结构化数据中。此外,数据的实时更新和变化也要求评估机制具备高度的灵活性和适应性。因此,建立高效、智能的数据质量评估体系,成为确保 AI 模型可靠性和有效性的关键。







请到「今天看啥」查看全文