专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  【[124星]Awesome-3D-Dete ... ·  15 小时前  
Web3天空之城  ·  英伟达CEO黄仁勋在巴黎VivaTech ... ·  昨天  
Web3天空之城  ·  英伟达CEO黄仁勋在巴黎VivaTech ... ·  昨天  
51好读  ›  专栏  ›  AI科技评论

动态 | 中科院计算所开源Easy Machine Learning系统,用交互式图形界面简化ML开...

AI科技评论  · 公众号  · AI  · 2017-06-13 21:23

正文

请到「今天看啥」查看全文


图2显示了系统的体系结构。整个系统由三部分组成:提供基础服务的大数据基础结构,提供机器学习任务的核心构建模块的机器学习库,和提供友好界面降低使用机器学习的难度的机器学习工作室。

大数据基础结构

该系统是建立在开源大数据系统Hadoop和Spark之上的。所有的数据,机器学习算法以及其它相关的信息都存储在分布式文件系统HDFS和Hive数据管理系统,MySQL的相关数据库系统用于存储元数据。我们的系统也依赖于分布式计算框架Map-Reduce 和 Spark。所有计算资源都由Yarn管理.每一个提交的机器学习任务(数据流DAG)首先转换为一个工作流DAG,然后随着工作流的调动程序调动。

机器学习库

机器学习库实现了一系列流行的机器学习算法(如分类、主题建模、图形处理、信息推荐等)。对于每种算法,都在Spark上运行了单机版和分布式版,因为在数据不够大的时候,单机版往往比分布式版更有效。除了核心算法,该库也会执行必要的模块来支持核心算法,包括数据预/后处理实现所需要的功能模块、数据格式转换、特征提取、绩效评价等,所有的算法和模块可以通过命令行和java API来调用。这些算法构成了用户定义机器学习任务的核心构建块。

机器学习工作室

机器学习工作室的主要目标是提供一个友好的用户交互界面,使普通用户可以使用机器学习算法轻松地解决自己的问题。机器学习工作室是作为一个Web服务实现的,可以通过Web浏览器访问。它提供了以下主要功能:

1) 资源管理

在机器学习库中实现的所有算法都可以从Studio系统中访问。该系统还提供了一些数据和任务,用于演示如何使用这些算法来解决问题。为了构造机器学习任务,用户可以直接使用系统中的算法和数据。他们还可以上传自己的数据和算法包。要上传一个算法包,用户需要指定运行该算法的命令行模式字符串的格式。字符串定义程序名、输入端口、输出端口和参数设置。这样,上传的算法可以在不同的参数设置下运行。在指定的任务数据流DAG中,该算法可以按照命令行模式运行。在提交机器学习任务之后,它将被分配一个唯一的ID,并存储在任务存储库中。用户可以在将来检查和重用任务。还可以将任务共享给其他用户。







请到「今天看啥」查看全文