专栏名称: 高可用架构
高可用架构公众号。
目录
相关文章推荐
美团技术团队  ·  北斗计划 | 美团核心本地商业大模型全年招聘 ·  3 天前  
美团技术团队  ·  无需代码!美团 NoCode ... ·  3 天前  
美团技术团队  ·  可信实验白皮书系列05:准实验 ·  3 天前  
51好读  ›  专栏  ›  高可用架构

4 年融资 1 亿美金,ProtonBase 王绍翾揭秘 Data Warebase 核心技术

高可用架构  · 公众号  · 架构  · 2025-06-11 09:00

主要观点总结

本文介绍了小质科技CEO王绍翾在接受采访时的内容,包括团队打造核心产品ProtonBase的初衷、研发过程中遇到的技术挑战、以及企业在选择数据库产品时应考虑的因素等。同时,还探讨了随着AI技术的飞速发展,数据库和大数据领域的需求变化,以及创业者的一些建议。

关键观点总结

关键观点1: ProtonBase产品的初衷和核心技术挑战

ProtonBase旨在解决数据库和大数据领域的复杂问题,通过集成多种功能,实现数据的高效处理和查询。团队在研发过程中面临了数据存储、索引和存算分离等技术挑战,通过不断积累工程经验,成功打造了这款强大的产品。

关键观点2: ProtonBase的优势场景和客户案例

ProtonBase在数据API上实现了中间层的所有功能,具有多模数据库的优势。在金融、车联网、可观测性和实时数仓、AI Agent等场景中具有广泛的应用前景。客户案例包括金融行业的实时决策系统和车联网的异常检测系统。

关键观点3: Data Warehouse与HTAP、流批一体、湖仓一体的关联和区别

ProtonBase作为一个Data Warehouse,覆盖了HTAP、流批一体、湖仓一体等场景,解决了数据库和大数据领域的问题。它与HTAP的区别在于,HTAP要求系统同时支持OLTP和OLAP,而ProtonBase是一个多模数据库,除了HTAP功能外,还支持实时增量物化视图、文本搜索、向量搜索等功能。与流批一体和湖仓一体的区别在于,ProtonBase实现了物化视图的增量刷新,打通了数据仓库和数据湖,实现了外表的查询和计算。

关键观点4: AI时代数据库和大数据领域的需求变动

随着AI技术的飞速发展,数据与AI的融合越来越紧密,企业和开发者对数据库和大数据的需求也在发生变化。PostgreSQL逐渐成为主流数据库的选择,而Iceberg将成为未来数据湖的标准。创业者需要紧跟这些趋势,提前布局AI时代的标准接口。

关键观点5: 给AI和数据的创业者的建议

创业者需要明确产品的PMF(产品与市场的匹配度),专注于服务大客户并考虑全球化战略。同时,要紧跟行业趋势,不断提升产品的竞争力。


正文

请到「今天看啥」查看全文


我们创业之初就预见到未来的所有应用服务都将主要建立在两个 API 之上,一个是 Data API,一个是 AI API。

过去,Data API 的实现极为复杂,用户若想搭建一个应用的底层,往往需要使用非常多数据系统。例如,数据库横向扩展可能采用 MongoDB 或 HBase,文本检索使用 Elasticsearch,还可能需要向量检索,分析型数据库等。如此一来,用户最终必然会面对 A、B、C、D、E 等诸多数据产品,硬件开销以及运维和开发成本急剧上升。

ProtonBase 产品研发之初是想让业务的架构回归简单( Simple ),解决架构不得不从 A 到 B,从 B 到 C,从 C 到 D 不断膨胀的问题。随着产品面世之后,在与市场不断磨合的过程中,我们发现 ProtonBase 最强的 PMF(产品与市场的匹配度)在于满足那些对实时决策( Instant  Decision )有需求的业务,例如金融量化交易和风控、车联网、以及数据可观测性等场景,这些场景的数据既需要具备极高的端到端的实时性,同时也要支持在这些实时数据之上的高并发复杂查询—— 而这正是 ProtonBase 的优势所在。


Q3:在 ProtonBase 的研发过程中遇到的 最⼤技术 挑战是什么?团队是如何突破这些难题,确保产品顺利推进的?

王绍翾: 挑战非常多,因为要把 ProtonBase 打造成一个强大、统一的 Data API 平台,必须具备五大核心能力:OLTP、文档数据库、文本检索、向量检索,以及 OLAP。

许多客户会问我们:“你们是如何将这些本质上差异巨大的能力整合到一个系统中的?”其实,我们整个团队经历了数据库,大数据,再到数据库的时代,积累了大量的工程经验。我们今天的产品其实就是集成了数据库和大数据的最重要的三个能力,第一是存储,第二是索引,第三是在高速存储上做到数据库级别的存算分离。


  • 存储层: ProtonBase 支持数据的行存、列存以及行列混存;

  • 索引层: ProtonBase 实现了数据库最重要的全局二级索引(Global Secondary Index),以及搜索所需要的倒排索引、向量索引、分析所需要的列存索引等等;

  • 存算分离: 实现数据库级别的存算分离的挑战非常大。大数据的存算分离是基于公有云上高可用的对象存储,而数据库系统不能选用对象存储,因为它需要更高的吞吐和更低的延迟。要做好一个实时或者近实时的数据库级别的存算分离,难度和挑战很大,但我们实现了。


Q4:企业在选择一款数据库产品时要考虑的因素很多,ProtonBase 最优势的场景是什么,在哪些技术场景下,企业适合考虑使⽤ ProtonBase?

王绍翾: ProtonBase 在数据 Data API 上,几乎实现了中间层的所有功能,但我们并不希望客户将 ProtonBase 仅用于单一模式,更希望把它视为多模数据库,发挥出 1+1>2 的化学效果。目前我们至少在三个方向上看到了这种因为多模的能力带来的 1+1>2 的场景。

一是真正的 HTAP 场景







请到「今天看啥」查看全文