专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
相关文章推荐
人工智能与大数据技术  ·  AI编程新王Claude ... ·  3 天前  
人工智能与大数据技术  ·  15亿美元AI独角兽崩塌,全是印度程序员冒充 ... ·  2 天前  
人工智能与大数据技术  ·  AI 正在培养“文盲”程序员? ·  4 天前  
51好读  ›  专栏  ›  AI前线

论文导读 | TFX:基于TensorFlow可大规模扩展的机器学习平台

AI前线  · 公众号  · 大数据  · 2017-10-29 18:00

正文

请到「今天看啥」查看全文


图 1:机器学习平台高级组件概览

“我们的平台对这些组件的实现能够将生产计划中的最佳实践进行编码。通过将上述组件集成到一个平台中,我们能够标准化组件,简化平台配置,并且将生产时间从数月缩短到数周,同时提供平台稳定性,最大程度地减少中断。”

数据分析,转换和验证

数据处理将影响一个机器学习平台的优劣。在数据的异常情况扩散之前发现它们,将节省大量时间。

数据中的小错误可能会在一段时间内以难以检测的方式显著降低模型质量(不像一些灾难性的错误会导致明显的故障,因此易于追踪),所以为了长远考虑,都任何一个机器学习平台都应始终保持对数据的警惕性。

为了建立基准并监控改动,TFX 会为每个输入数据集生成一组描述性统计信息。这些信息包括特征状态和价值、跨特征统计信息,以及可配置片段。这些统计数据需要大规模高效计算,并且在大型训练数据上进行精确计算是十分耗费资源的。 在这种情况下,可以使用提供近似结果的分布式流算法。

TFX 还包括支持特征冲突的一套数据转换函数。例如,TFX 可以生成称为“词汇“的特征到整数的映射。当数据转换在训练和服务之间仅有细微差别时,很容易弄乱一切。TFX 可以自动导出任何数据转换作为训练模型的一部分,以避免这些问题。

执行验证时,TFX 依赖于提供模版化描述预期数据的模式。该模式描述特征及其预期类型、价和域。TFX 可以帮助用户自动生成其模式的第一个版本。

图 2: 样本验证案例







请到「今天看啥」查看全文