专栏名称: 36大数据
关注大数据和互联网趋势,最大,最权威,最干货的大数据微信号(dashuju36)。大数据第一科技媒体。不发软文,只做知识分享。
目录
51好读  ›  专栏  ›  36大数据

2017数据科学与机器学习行业现状调查:Python是最受欢迎的语言

36大数据  · 公众号  · 大数据  · 2017-11-10 07:50

正文

请到「今天看啥」查看全文


数据科学家的工作内容是什么?


我们把数据科学家定义为写代码来分析数据的人。他们的日常工作内容是什么呢?以下是我们的调查结果。


工作中使用哪些数据科学方法?


逻辑回归是工作之中最为常用的数据科学方法,不过在神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。


工作中使用最多的编程语言是什么?


Python是数据科学家最常用的语言,也是最常用的数据分析工具。不过,也有很多数据科学家仍然保持着对 R 语言的忠诚。


在工作中常用的数据类型是什么?


关系型数据是开发者在工作中最常用的数据类型,因为大多数产业工程师都十分关注于这种关系型数据。而学术研究者和国防安全产业则更注重于文本与图像。


如何分享工作中的代码?


尽管很多受访者(58.4%)在工作使用 Git 来分享代码,但大公司中的开发者更倾向于将代码保留在本地,并通过像 Email 那样的文件共享软件来分享代码。而初创公司可能需要在云中共享以保持更加敏捷的反应。


工作中遇到的障碍主要有哪些?


脏数据(dirty data)显然排在了第一位,也就是说,数据科学家最常见的困扰就是需要对数据进行大量的预处理工作。除了数据预处理之外,还有很多问题困扰着数据科学家,比如说众多的机器学习算法各有各的擅长领域,所以了解它们的性能也会有一些困难。


数据科学家初学者如何进入这个领域?


当开始一个新的职业生涯的时候,参考别人的成功经验会很有帮助。我们调查了在数据科学行业工作的人们,询问他们是如何入门的。以下是我们最喜欢的几条建议:


你们会推荐数据科学家新手最先学哪门语言?







请到「今天看啥」查看全文