正文
而硬币的另一面则是,随着生成式AI的快速发展,新生成的碎片化数据在水涨船高,IDC报告指出,预计2028年全球新生成数据量规模将达到393.9ZB,其中企业数据规模和增速尤为凸显。于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模“突破PB级迈向EB级”成为新常态,这给数据存储、管理与分析带来严峻挑战。
另外,何征宇在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有很大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。
“无法数字化,就无法智能化。大模型幻觉的本质是缺数据,提供更好数据是解决幻觉的源头。”何征宇称OceanBase因自研海量交易数据库的创新理想而生,坚信其将为实现AGI梦想继续绽放,“未来所有的数据公司都将成为AI公司。”
AI时代带来了新的数据难题,已是行业共识,而同样清晰的是,AI和数据之间的关系变得更为密切。这也是OceanBase把打造AI时代的数据底座战略,提到一个新高度的重要原因。4月底,杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造“DATA×AI”核心能力,建设AI时代的数据底座。
“一体化数据底座其实是OceanBase一体化数据库基础上的延伸,它的核心在于能不能做好数据处理。”杨传辉表示,“我们不是要做一个新东西、去追一个热点,而是沿着一体化AI、无结构化数据方向做的,只不过伴随着DeepSeek的爆火,这件事的优先级提高了。”
而之所以提数据底座,他称是因为外界提到数据库,很容易会联想到这是做交易或者做分析的数据库产品,偏单一功能。而“数据底座”是希望通过一体化的产品、一体化的引擎,同时处理OLTP、OLAP以及AI的混合负载。
“大家可以把OceanBase DATA X AI的打法,想象成一个生态的打法。”杨传辉称希望OceanBase成为AI时代的MySQL,未来计划更加开放的开源。
四大方向出现阶段性成果