专栏名称: AI前线

我们专注大数据和机器学习，关注前沿技术和业界实践。每天发布高质量文章，技术案例等原创干货源源不断。同时有四千人的社群微课堂，每周一次业界大牛技术分享，也希望你能从这里分享前沿技术，交流深度思考。

利用已有的大数据技术，如何构建机器学习平台

AI前线 · 公众号 · 大数据 · 2017-10-23 17:52

正文

算法库

在算法库方面，我们选择了 Spark，相比于 R 或者 Python，Spark 具备分布式计算的能力，更高效。

ml 和 mllib 都是 Spark 中的机器学习库，目前常用的机器学习功能两个个库都能满足需求。ml 主要操作的是 DataFrame，相比于 mllib 在 RDD 提供的基础操作，ml 在 DataFrame 上的抽象级别更高，数据和操作耦合度更低。

ml 提供 pipeline，和 Python 的 sklearn 一样，可以把很多操作 (算法 / 特征提取 / 特征转换) 以管道的形式串起来，对于任务组合非常便利，如 StringToIndexer、IndexerToString、VectorAssembler 等。

组件化设计

从架构设计上来说，不管是算法单元、特征工程单元、评估单元或者其他工具单元，我们认为都可以以组件的形式来设计。借助通用的接口行为以及不同的实现可以达到松耦合、易扩展的目的。

上图是整个设计类图的一部分，实际上我们做了较多层次的抽象以及公用代码。下面看看核心类 BaseTask：

run 方法的实现是一套模板，步骤如下：

每个组件只要实现自己的核心逻辑 execute 方法就可以了。

平台迭代

v1.0（平台核心架构）

基于上述的设计目标，机器学习平台第一个版本的架构如下：

推荐文章

玉树芝兰 · 实测 Perplexity Labs：10分钟生成学术调研报告的全流程解析

10 小时前

艺恩数据 · 【艺恩报告】代言营销市场结构重估与情绪红利洞察

3 天前

大数据文摘 · Andrej Karpathy 盛赞！斯坦福团队新作，让Llama-1B 实现毫秒级推理

6 天前

大数据文摘 · 1步碾压250步！何恺明新作祭出MeanFlow，一行公式让 FID 狂降近 70%

4 天前

CDA数据分析师 · 【干货】如何利用数据分析实现精准营销？奈雪的茶抖音营销案例分析

4 天前

桃叭啦 · 【叮】很多人都不知道，手机还可以这么玩！

8 年前

手艺门 · 淡定看人生，宁静做自我

8 年前

跟大厨学做菜 · ✅春天苹果什么时候吃最好？答案竟然是…惊呆了~

8 年前

蓝点网 · Windows 10 Preview Build 16179版发布

8 年前

钱币圈 · 银行高价回收硬分币是真的吗？现在回收值多少钱？

8 年前