一样的钱，6倍的性能，就问你心不心动

互联网行业观察 · 公众号 · 科技自媒体 · 2021-01-13 14:27

正文

请到「今天看啥」查看全文

Spark SQL模块是Apache Spark专门为大型数据中心结构化数据处理开发的功能模块。百度BigSQL数据处理平台基于Spark SQL开发，在性能上做了很多优化，开发了不少新功能。

交互式查询能力就是BigSQL在性能优化方面体现非常明显的一个例证。关于交互式查询的重要性，相信不用多解释了，服务响应快不快，跟它紧密相关。为实现次秒级的交互式查询响应，百度和英特尔在软硬两个层面都下了不少功夫。

软件层面，百度联合英特尔开展了Spark平台优化分析包（OAP）项目合作。其中，OAP 能很好地利用列式数据以及选定列上的用户定义索引，提高数据检索效率。与此同时，OAP还采用了细粒度的内存数据缓存策略，以此来消除磁盘和网络中的 I/O 瓶颈，将性能最大化。

硬件层面，百度与英特尔合作，利用英特尔傲腾持久内存替代部分DRAM，部署更具成本效益的解决方案。

百度内部测试显示，与使用传统纯内存的解决方案相比，使用傲腾持久内存可有效提高OAP的缓存性能及成本效益，大幅提升业务成效，例如帮助百度即席查询服务图灵减少工作负载、降低平均查询延时等。

具体如何实现的呢？两步走。

把常用的数据放在更快的存储里

OAP的核心是使用索引和缓存技术来加快交互式查询响应的速度。

当查询具有非常特定的筛选条件时，OAP可以在符合条件的列上创建索引。通过与列数据文件并排创建与存储完整的B+Tree索引，OAP可快速搜索B+Tree 索引来识别目标行，同时跳过后端存储（例如HDFS）上不必要的数据扫描。由于索引文件与原始数据文件保持分离，在创建或删除索引时均无需重写原始数据文件。