正文
某知名媒体的
采访中首度介绍:团队历时 4 年打造的 ProtonBase 堪称“六边形战士”。它既是一个支持行列混合存储的分布式数据库和实时数仓,实现了真正的实时 HTAP;同时也支持半结构化数据检索、文本检索和 OLAP 分析,让数据可视化能力得到了质的提升。更为关键的是,它通过实时增量物化视图技术取代了 Flink,重新定义了流批一体的计算范式;支持向量检索,构建了 AI Agent 所需的完整数据底座;更打通了湖上数据的高效导入导出和外表查询实现了湖仓一体。
这款产品不仅可以让金融量化交易决策和风控系统实现“亚秒级决策”,又能在车联网数百万级高并发信号写入的场景下,实现实时数据检测的秒级分析。其技术突破的底层逻辑,源于对“未来应用只需一个 Data API 和一个 AI API”的精准预判,而 ProtonBase 已率先拿下“多模数据库+AI 数据查询入口”的生态船票。
这场从硅谷到阿里再到打造 ProtonBase 的技术革命,究竟隐藏着哪些颠覆行业的密码?本文将深度解构其技术架构、场景落地与未来趋势,揭开小质科技的进化逻辑。
以下是视频采访的全部内容,为方便读者查看,视频下方也附上了文字内容。
Q1:首先感谢王老师来参加
AICon 大会上海站,请您做一下自我介绍。
王绍翾:
大家好,我是王绍翾,在美国博士毕业后,加⼊了 Facebook 做在线 Infra,参与的项目包括 Memcache,RocksDB,以及 Facebook 自研的在线图数据库 TAO 等项目。
2015 年,我回国加入阿里,主要有两段工作经历,第一段在搜索事业部,负责搜索的数据和机器学习平台;第二段在达摩院,负责整个机器智能工程,包括视觉/语音/NLP 等 AI 技术的模型训练、推理、以及向量检索技术。
2021 年,我离开阿里创建了小质科技,和团队一起打造了核心产品 ProtonBase。因为之前的技术积累和团队的口碑,我们得到诸多头部基⾦的认可,顺利融资近 1 亿美金。目前,公司已经成立 4 年,服务了数十家客户,产品历经反复打磨和验证,正处于商业化的全球扩张期。
Q2:小质科技的核心产品 ProtonBase,是多云原生、兼容 PostgreSQL 的分布式 Data Warebase。想请您分享一下,公司打造这款产品的初衷是什么?是基于怎样的行业背景和痛点洞察,才决定研发这样⼀款产品来解决行业问题的?
王绍翾:
我们创业之初就预见到未来的所有应用服务都将主要建立在两个 API 之上,一个是 Data API,一个是 AI API。
过去,Data API 的实现极为复杂,用户若想搭建一个应用的底层,往往需要使用非常多数据系统。例如,数据库横向扩展可能采用 MongoDB 或 HBase,文本检索使用 Elasticsearch,还可能需要向量检索,分析型数据库等。如此一来,用户最终必然会面对 A、B、C、D、E 等诸多数据产品,硬件开销以及运维和开发成本急剧上升。
ProtonBase 产品研发之初是想让业务的架构回归简单(
Simple
),解决架构不得不从 A 到 B,从 B 到 C,从 C 到 D 不断膨胀的问题。随着产品面世之后,在与市场不断磨合的过程中,我们发现 ProtonBase 最强的 PMF(产品与市场的匹配度)在于满足那些对实时决策(
Instant Decision
)有需求的业务,例如金融量化交易和风控、车联网、以及数据可观测性等场景,这些场景的数据既需要具备极高的端到端的实时性,同时也要支持在这些实时数据之上的高并发复杂查询—— 而这正是 ProtonBase 的优势所在。
Q3:在 ProtonBase 的研发过程中遇到的最大技术
挑战是什么?团队是如何突破这些难题,确保产品顺利推进的?
王绍翾:
挑战非常多,因为要把 ProtonBase 打造成一个强大、统一的 Data API 平台,必须具备五大核心能力:OLTP、文档数据库、文本检索、向量检索,以及 OLAP。
许多客户会问我们:“你们是如何将这些本质上差异巨大的能力整合到一个系统中的?”其实,我们整个团队经历了数据库,大数据,再到数据库的时代,积累了大量的工程经验。我们今天的产品其实就是集成了数据库和大数据的最重要的三个能力,第一是存储,第二是索引,第三是在高速存储上做到数据库级别的存算分离。