正文
CSDN:您在什么时候开始接触到开源社区?什么情况下成为了多个深度学习框架的 committer?
唐源:
大四的时候在一家创业公司实习,公司对开源的政策特别开放,我们用到了各种各样的开源软件,用的过程中发现各种问题以及对用户体验度有着各种不满,Github 上面有地方可以提交建议,但是项目的管理者太忙,我就干脆自己对源代码进行研究然后提交修改,这样养成了一种习惯,遇到问题的第一反应是自己研究研究代码,然后自己直接去解决问题,独立阅读代码的能力也就这样慢慢培养出来了。很多时候由于对于某个开源软件特别熟悉,经常在做项目中会想到一些有趣的点子来对项目的性能进行改进和功能进行延伸。
至于成为深度学习框架的 committer,我最先开始参与的是 MXNet,当时只是业余时间做了一些小的深度学习的项目,发现这个开源项目还在初期,有很大的发展空间,然后又刚开始在其他项目中使用 Scala,在刘忆智的邀请和鼓励下,我们一起合作做了 MXNet Scala 语言包。又是机缘巧合,觉得 TensorFlow 的低阶 API 太难学也太难用,于是和谷歌的朋友合作建立了高阶的 API,也就是早期的 Scikit Flow, 类似数据科学领域中很热门的 Scikit-learn, 现在由于在 Google 内部和外部都需求特别大,也成为了 TensorFlow 中重要的一部分。
深度学习、机器学习的正确姿势
CSDN:机器学习在 Uptake 数据科学引擎的工作流程中扮演什么样的角色?
唐源:
数据科学是 Uptake 的核心,我们成功地和大型工业界的巨头,比如说 Catepillar,来合作建立比较有需求的产品,帮助解决传统工业上的一些痛点,比如 24 小时对火车每个重要部件进行条件和健康监控,帮助维修工程师找到问题所在,推荐高效的解决方式,新部件的自动下单订购,等等。机器学习在这个过程中起到非常重要的角色,我们需要用机器学习来建立很多有效的预测模型,由于数据量的庞大,数据性质的特别,以及出于物联网数据在传统大型工业领域还没怎么被深度探索的原因,我们也不能仅仅依赖于现有的技术,我们有着非常优秀的研发团队来支撑这一整个技术链。
CSDN:对于数据科学团队来说,您认为他们需要对深度学习了解到什么样的程度?