专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
新浪科技  ·  【中信证券:预计成熟运营后Robotaxi有 ... ·  昨天  
51好读  ›  专栏  ›  InfoQ

Apache Doris + Iceberg 超大规模湖仓一体实践

InfoQ  · 公众号  · 科技媒体  · 2025-03-28 19:30

正文

请到「今天看啥」查看全文


  • 实现去“O”目标 :通过能开平台直连 Doris,成功替代数据集市 Oracle 数据库。基于 Doris 高效分析能力,满足业务侧对数据调用及查询响应的严格要求,响应时间控制在 0.4s~0.7s。

  • 秒级别快速检索 :使用 Doris 替代地市公司 BI 系统使用的 PG 组件,使得在数据分析过程中,计数、聚合和单条快速检索等运算都能在秒级内完成。这种快速检索能力极大地提高了数据分析的实时性,为业务决策提供了更加及时和准确的数据支持。

  • 统一多技术栈 :基于 Doris 替换了多个技术组件,实现技术栈的统一,显著简化了架构。这不仅降低了系统的复杂性,还带来了性能的显著提升。

  • 02 湖仓融合分析

    湖仓一体架构在天翼云内部的应用已成熟。Apache Iceberg 作为主要的湖格式,其中存放 TB ~ PB 级别的数据,再通过 Doris 引擎对 Iceberg 数据进行查询加速,支撑了 BI 报表、实时战报、智能运维、在线应用等多种业务场景。

    下图是以 Doris 作为核心分析引擎的湖仓一体架构全景图:

    图片

    Doris 作为核心分析引擎,可以直接访问 Iceberg 表数据进行数据分析获取结果。结合数据缓存、物化视图透明加速等能力,可以极大的提升湖上数据得分析性能。在权限管理方面,天翼云使用 Apache Ranger 对 Doris、Spark、Hive、Iceberg 等组件进行统一管理。结合 Doris 对包括内表在内的其他数据源的关联查询能力,为业务提供统一、高效的实时数据分析能力。

    在湖仓一体建设过程中,天翼云和 Doris 社区紧密合作,在查询性能和 Iceberg 生态对接方面共建完成了大量工作,显著提升了 Doris 在湖仓融合场景下的实践能力。

    1. 查询性能调优:

    在查询性能方面,天翼云和 Doris 社区共同完成了复杂类型(Array、Map、Struct)的延迟物化功能。延迟物化是减少网络 IO 的一项重要技术,开启延迟物化功能后,数据扫描节点会优先读取谓词条件列,在使用过滤后的行号,读取剩余的列数据。如下 SQL:

    SELECT name, age, email, phone, addressFROM users WHERE age > 25 AND city = 'Shanghai';

    没有延迟物化的情况下,会将 name, age, email, phone, address 这 5 列数据全部读取后,再进行 age > 25 AND city = 'Shanghai'; 的条件过滤。而开启延迟物化后,会先读取 age 和 city 列进行条件过滤,再读取剩余的 email, phone, address 列。当谓词条件过滤率很高时,可以极大减少不必要的数据读取。

    图片

    优化后,相关类型查询的 IO 请求量从几百 GB 降至几百 MB,有效缓解了网络带宽压力,并提升了整体查询性能。







    请到「今天看啥」查看全文