专栏名称: 人工智能与大数据技术
分享大数据、云计算、人工智能等高科技先进技术
目录
相关文章推荐
大数据文摘  ·  26 天倒计时:OpenAI 即将关停 ... ·  昨天  
数据派THU  ·  TimeReasoner:让大模型慢慢“思考 ... ·  2 天前  
InfoTech  ·  6月AIGC认证考试安排 ·  3 天前  
51好读  ›  专栏  ›  人工智能与大数据技术

百度开源高性能 Python 分布式计算框架 Bigflow

人工智能与大数据技术  · 公众号  · 大数据  · 2017-12-14 10:01

正文

请到「今天看啥」查看全文



授权协议: Apache

开发语言: Python

操作系统: 跨平台

开发厂商: 百度

Github: https://github.com/baidu/bigflow



Bigflow 简介


Baidu Bigflow (以下简称Bigflow)是百度的一套计算框架, 它致力于提供一套简单易用的接口来描述用户的计算任务,并使同一套代码可以运行在不同的执行引擎之上。

它的设计中有许多思想借鉴自 google flume java 以及 google cloud bigflow ,另有部分接口设计借鉴自 apache spark 。


用户基本可以不去关心 Bigflow 的计算真正运行在哪里,可以像写一个单机的程序一样写出自己的逻辑, Bigflow 会将这些计算分发到相应的执行引擎之上执行。


Bigflow Python 是一个致力于简化分布式计算任务编写和维护的 Python module, 它提供了对分布式数据和计算的高层抽象,你可以使用这些抽象来编写分布式计算程序。Bigflow Python能够将这些抽象映射到不同的分布式计算框架之上。


Bigflow Python 中 最重要的抽象被称为 P 类型 ,P 类型是分布式数据的抽象描述,非常类似于 Spark 中的RDD。 第二个抽象概念为 SideInputs ,它指被广播到计算中去的 P 类型或是 Python 变量。通常而言,一个计算将被并行地在计算集群中执行,这时每个计算切片都能够得到SideInputs来满足计算的需求(例如查字典)。



Bigflow 的目标


Bigflow 的目标是: 使分布式程序写起来更简单,测起来更方便,跑起来更高效,维护起来更容易,迁移起来成本更小。


目前 Bigflow 在百度公司内部对接了公司内部的批量计算引擎DCE(与社区Tez比较类似),迭代引擎 Spark,以及公司内部的流式计算引擎Gemini。







请到「今天看啥」查看全文