主要观点总结
本文介绍了Apache Doris的架构、性能、故障恢复和动态弹性扩容等特性,强调了其在大数据处理中的应用价值。通过具体的测试案例,展示了Doris的高可用性、数据恢复和副本管理等功能。
关键观点总结
关键观点1: Apache Doris简介
Doris是一个高性能、实时的分析型数据库,基于MPP架构,支持SQL语言,兼容MySQL。
关键观点2: Doris的特性
Doris具有高性能、高可用性、动态弹性扩容、故障恢复等特性,支持大数据量的实时分析查询。
关键观点3: Doris的测试结果
经过测试,Doris在实时分析查询、数据恢复和副本管理等方面表现出优秀的性能。
关键观点4: Doris的使用场景
Doris适用于大数据处理、实时分析、用户行为分析、日志检索、用户画像分析等场景。
关键观点5: 总结
文章总结了Doris的特性和优势,并鼓励读者深入了解和使用Doris,同时提供了加入官方社区的联系方式。
正文
TIDB
TIDB 是一个非常优秀的国产分布式数据库,他的主要优势OLTP处理上,但是也支持OLAP,但是在我们调研过程中,抱着使用一个TIDB 完全替代掉Mysql 想法,我们进行了测试,我们使用的版本是
v5.3.3
,但是在测试过程中效果不理想,因为 TIDB 解析引擎会对SQL进行分析,来决定走 OLTP 还是OLAP,比如我们期望走OLAP 但是走了OLTP导致性能有所降低
ClickHouse
提到 Doris 不得不提ClickHouse,CK是
由俄罗斯IT公司Yandex为Yandex.Metrica网络分析服务开发的
开发的实时数仓,以性能著称,但是经过测试,与 Doris在不同场景各有优劣, 但是它的架构复杂、运维成本高,同时对 sql 语法兼容性没有Doris好,因此没有选择,不过国内也有不少公司在使用
Doris
运维成本低、兼容Mysql 语法、架构足够简单、社区支持性好(非常活跃),同时经过百度内部长达10 多年的大规模使用,成熟度不容置疑,没有理由不选它
性能测试报告
Doris 版本:0.15.0,目前最新版本是:2.03
-
-
CPU:8core 16G Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
-
-
-
测试1
6亿数据进行多表查询,响应
1.98s
SELECT SUM(lo_revenue), d_year, p_brand FROM lineorder, date, part, supplier WHERE lo_orderdate = d_datekey AND lo_partkey = p_partkey AND lo_suppkey = s_suppkey AND p_category = 'MFGR#12' AND s_region = 'AMERICA' GROUP BY d_year, p_brand ORDER BY d_year, p_brand;
测试2
ods_test_mysql_test_record_s数据量:148399619,67 个字段
ods_test_mysql_test_barrier_s数据量:1385,12个字段
执行以下 sql,耗时:
0.277s
SELECT
i.a1 AS p_code,
IFNULL(IFNULL(i.a56, b.a2), '0') AS gateway_no,
1 AS inout_type,
DATE_FORMAT(i.a2, '%Y-%m-%d') AS report_date,
DATE_FORMAT(i.a2, '%Y') AS report_year,
DATE_FORMAT(i.a2, '%c') AS report_month,
1 AS total_num,
(CASE WHEN i.a6 = 1 THEN 1 ELSE 0 END) AS big_car_num,
(CASE WHEN i.a6 != 1 THEN 1 ELSE 0 END) AS small_car_num,
(CASE WHEN i.a44 REGEXP '[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}(([0-9]{5}[DABCEFGHJK])|([DABCEFGHJK][A-HJ-NP-Z0-9][0-9]{4}))$'