专栏名称: 互联网行业观察
互联网行业深度洞察,最前沿资讯、行业深度分析、内幕小道全覆盖,重磅新闻跟踪报道!
目录
相关文章推荐
51好读  ›  专栏  ›  互联网行业观察

一样的钱,6倍的性能,就问你心不心动

互联网行业观察  · 公众号  · 科技自媒体  · 2021-01-13 14:27

正文

请到「今天看啥」查看全文


Spark SQL模块是Apache Spark专门为大型数据中心结构化数据处理开发的功能模块。 百度BigSQL数据处理平台基于Spark SQL开发,在性能上做了很多优化,开发了不少新功能。

交互式查询能力就是BigSQL在性能优化方面体现非常明显的一个例证。 关于交互式查询的重要性,相信不用多解释了,服务响应快不快,跟它紧密相关。 为实现次秒级的交互式查询响应,百度和英特尔在软硬两个层面都下了不少功夫。

软件层面 ,百度联合英特尔开展了Spark平台优化分析包(OAP)项目合作。 其中,OAP 能很好地利用列式数据以及选定列上的用户定义索引,提高数据检索效率。 与此同时,OAP还采用了细粒度的内存数据缓存策略,以此来消除磁盘和网络中的 I/O 瓶颈,将性能最大化。

硬件层面 ,百度与英特尔合作,利用英特尔傲腾持久内存替代部分DRAM,部署更具成本效益的解决方案。

百度内部测试显示,与使用传统纯内存的解决方案相比,使用傲腾持久内存可有效提高OAP的缓存性能及成本效益,大幅提升业务成效,例如帮助百度即席查询服务图灵减少工作负载、降低平均查询延时等。

具体如何实现的呢? 两步走。


2

把常用的数据放在更快的存储里


OAP的核心是使用索引和缓存技术来加快交互式查询响应的速度。

当查询具有非常特定的筛选条件时,OAP可以在符合条件的列上创建索引。通过与列数据文件并排创建与存储完整的B+Tree索引,OAP可快速搜索B+Tree 索引来识别目标行,同时跳过后端存储(例如HDFS)上不必要的数据扫描。由于索引文件与原始数据文件保持分离,在创建或删除索引时均无需重写原始数据文件。






请到「今天看啥」查看全文