专栏名称: 悦智网
悦智网依托国内外独享的科技咨询资源,分享最新的行业技术评论,实时发布国内外最新研究成果,打造技术成果的专业交易平台,促进科技成果的需求转化。
目录
相关文章推荐
51好读  ›  专栏  ›  悦智网

展示机器学习作品

悦智网  · 公众号  ·  · 2020-03-04 15:30

正文

请到「今天看啥」查看全文


公司需要考虑自己的数据科学家离职的后果,以及政府组织或重要的客户要求查看相关算法的审查情况以确保其公平和准确时,要怎样应对。 倘若不知道训练模型使用的是什么数据,也不知道是怎样加权这些数据的,可能会给公司带来业务损失和负面新闻,如果相关模型有失偏颇,甚至可能导致监管审查。
大卫•艾伦锡克(David Aronchick)是微软Azure开源机器学习策略部门的负责人,他说,许多公司已经意识到,他们必须像经营自己的软件开发业务那样来经营机器学习业务。 这意味着要尽可能地鼓励文件存档和协同开发。
对于文件存档流程应该是怎样的,微软有自己的想法。 构建和组织原始数据的研究人员启动流程,并对其做出适当的注解。 如果在这个阶段没有存档流程,可能会导致数据加注不充分且存在与之相关的偏差,或与业务要解决的问题不相关。
接下来,在训练期间,研究人员会将数据输入神经网络并调整其加权各种因素的方式以获得所需结果。 此刻,研究人员通常还是独自工作,但其他人员应该参与到其中以了解模型的开发过程,以防在合规性审查甚至是诉讼中出现问题。
在需要了解神经网络是怎样做出决策时,神经网络是一个黑盒子,但数据、层数以及网络加权不同的参数的方式不应该是秘密。 研究人员应当能够快速说明数据构建和加权的方式。
此时如果做好文件存档工作,则能使模型更具灵活性,便于未来使用。 例如,购物网站专门针对圣诞消费模式处理数据的模型不能适用于情人节消费。 如果没有良好的文件存档,则数据科学家必须重建模型,而无法回溯并调整一些参数以适应下一个节日。
实际部署模型是流程中的最后一步。 过去,只有在这个时候才会有其他人参与进来,熟悉和了解数据科学家的艰难工作。 如果没有良好的文档,他们在理解它时肯定会遇到麻烦。






请到「今天看啥」查看全文