正文
当识别大量数据中的信息时,数据科学家首先需要辨别不同的数据元素如何相互关联。例如,如果在一张图上绘制了一堆数据点,那么如何知道它们是否有意义
?
数据科学家最广泛使用的有三种统计和分析技术。也许数据表示两个或多个变量之间的关系,而其工作是绘制某种最能描述这种关系的曲线或多维平面。或者,它代表具有某种亲和力的集群。其他数据可能代表不同的类别。通过发现这些关系,可以使数据的其他随机性具有意义,然后可以对其进行分析和可视化,以提供组织可以用来制定决策或计划策略的信息。
以下了解可用于执行分析的各种数据科学技术和方法:
在分类问题中,数据科学家要回答的首要问题是:
“
这些数据属于什么类别
?”
将数据分类的原因很多。也许数据是手绘的图像,人们需要知道图像代表什么字母或数字。或者代表贷款申请的数据,想知道它应该属于
“
已批准
”
还是
“
已拒绝
”
类别。其他分类可以集中在确定患者治疗方案或电子邮件是否是垃圾邮件。
数据科学家用来将数据过滤到类别中的算法和方法包括:
•
决策树。
这些是分支逻辑结构,使用机器生成的参数和数值树将数据分类为已定义的类别。
•
贝叶斯分类器。
利用概率的力量,贝叶斯分类器可以帮助将数据分为简单的类别。
•
支持向量机
(SVM)
。
支持向量机的目标是绘制一条宽边距的曲线或平面,将数据分成不同的类别。
•K-
近邻算法。
该技术使用一种简单的
“
惰性决策
”
方法,根据数据集中最邻近的类别来确定数据点应该属于哪个类别。
•
逻辑回归。
尽管使用了分类技术,但它使用将数据拟合到一条线的想法来区分每一边的不同类别。这条线的形状使数据可以移至某个类别。
•
神经网络。
这种方法使用训练有素的人工神经网络,尤其是具有多个隐藏层的深度学习网络。神经网络已经显示出强大的分类能力,其中包含大量的训练数据。