专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
相关文章推荐
InfoTech  ·  DeepSeek更新了! ·  3 天前  
人工智能与大数据技术  ·  AI编程新王Claude ... ·  3 天前  
人工智能与大数据技术  ·  15亿美元AI独角兽崩塌,全是印度程序员冒充 ... ·  2 天前  
人工智能与大数据技术  ·  AI 正在培养“文盲”程序员? ·  4 天前  
51好读  ›  专栏  ›  AI前线

谷歌和Uber的最佳实践方案:如何构建可持续的深度学习架构

AI前线  · 公众号  · 大数据  · 2017-10-27 18:00

正文

请到「今天看啥」查看全文


Michelangelo 构建于Uber的数据和计算基础设施之上,提供了一个存储Uber所有的交易数据和日志数据的数据湖泊、众多聚合Uber所有服务的日志消息的 Kafka 代理、一个 Samza 流计算引擎、多个托管的 Cassandra 集群和内部服务配置和部署工具。

该架构支持如下工作流:

  1. 管理数据

  2. 训练模型

  3. 评估模型

  4. 部署、预测和监控

Uber的 Michaelangelo 的架构如下:

我将跳过通常的大数据架构关注点,而指出一些值得注意的、与机器学习更相关的想法。

Michaelangelo 使用在线和离线流水线分开管理数据。另外,为了在组织内共享和重用知识,使用了一个“特征存储”:

此刻,在特征存储中,我们有接近 10,000 个特征,用于加速机器学习工程,全公司的团队时时刻刻都在添加新的特征。特征存储中的特征每天都在自动计算和更新。

Uber为建模师创造了一种领域专用语言(DSL),在发送模型进行训练和预测之前,用于选择、转换和组合特征。当前支持的机器学习方法有:决策树、线性和逻辑模型、k-means、时间序列和深度神经网络。

模型配置指定类型、超参数、数据源引用、特征 DSL 表达式和计算资源要求(即 CPU、内存、GPU 的使用等)。训练在 YARN 或 Mesos 集群中进行。

模型训练后,评估报告计算并提供性能指标。所有信息,即模型配置、学习得到的模型和评估报告,都存储在一个版本化模型仓库中,以进行分析和部署。模型信息包含:







请到「今天看啥」查看全文