专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
机器之心  ·  不愁了!开源智能体Paper2Poster「 ... ·  19 小时前  
AI前线  ·  小红书hi ... ·  20 小时前  
爱可可-爱生活  ·  【[13星]OpenThinkIMG:让AI ... ·  昨天  
机器学习研究组订阅  ·  Cursor ... ·  昨天  
爱可可-爱生活  ·  【[192星]openai-agents-j ... ·  昨天  
51好读  ›  专栏  ›  机器之心

业界 | 谷歌发布tf.Transform:一个TensorFlow数据预处理库

机器之心  · 公众号  · AI  · 2017-02-23 12:29

正文

请到「今天看啥」查看全文


参与:吴攀、李亚洲


当我们将机器学习应用于真实世界数据集时,我们需要花费大量工作来将数据处理成适合标准机器学习模型(比如神经网络)的格式。这种预处理(preprocessing)有许多不同的形式——从格式之间的转换,到文本的标记化(tokenizing)和提干(stemming)以及形成词汇表,再到执行各种数值运算(例如归一化)。


今天,我们宣布发布 tf.Transform,这是一个 TensorFlow 库,可以让用户定义预处理流程(preprocessing pipelines)和使用大规模数据处理框架运行这些流程,同时还能让用户以一种将这些流程作为 TensorFlow graph 一部分的方式运行从而利用这些流程。用户可以通过将模块化的 Python 函数组合到一起来定义一个流程,然后 tf.Transform 会使用 Apache Beam 来执行它。Apache Beam 是一个用于大规模数据的、高效的、分布式的数据处理框架。通过 Apache Beam 计划好的对其它框架的运行支持,Apache Beam 流程还能运行在 Google Cloud Dataflow 上。通过 tf.Transform 导出的 TensorFlow graph 可以让预处理步骤在训练好的模型被用于预测时被复制,比如当使用 TensorFlow Serving 将模型投入应用时。


相关链接:







请到「今天看啥」查看全文