正文
以上这么多的特性,在现实情况中,并不能都满足。
例如,在追求数据时效性的同时,可能需要牺牲部分可存储性。因为实时数据的收集和处理,需要更高的空间和成本。
同样,为了提高数据的可靠性,可能需要投入更多的资源进行数据验证和清洗,这可能会增加数据处理的复杂性和时间成本。
总之,
能够尽可能地满足更多特性的数据,就会被认为是高质量的数据。
数据的价值,也就更大。在实际应用中,我们需要根据具体场景和需求,权衡数据的各个特性,加以利用。
█
数据的分类方式
刚才在说数据特性的时候,提到数据有多样性的特点,也就是有多种形式和类别。
对数据有很多种分类方式。例如,现在最常用的,就是
按结构进行分类
,包括结构化数据、半结构化数据和非结构化数据。
结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。
结构化数据
非结构化数据,指网页文章、邮件内容、图像、音频、视频等。
半结构化数据,介于结构化和非结构化数据之间。如XML、JSON等格式的数据,它们有一定的组织形式,但不如结构化数据那样严格。
目前,非结构化数据的占比是最高的。例如,在互联网领域里,非结构化数据的占比已经超过了80%。
根据数据的来源
,也可以分类。
例如,企业所产生的营销数据、业务系统数据、生产数据等,互联网行业所产生的社交内容数据、订单数据、用户数据等,政府部门所产生的社会治理数据、地理数据、经济数据,等等。
根据数据的性质
,还可以分为定位数据(描述空间位置,如坐标)、定性数据(描述事物属性,如“阴雨天气”)、定量数据(反映数量特征,如长度、重量)、定时数据(记录时间特征,如日期、时刻)等。
总之,每种分类方式都有其特定的应用场景和价值。
了解数据的分类,有助于我们更好地理解数据的本质,以及如何在不同场景下有效地管理和利用数据。
█
数据的度量方式
前面我们也提到,数据具有量化性的特点。也就是说,数据是可以度量的。
我们通常度量数据的单位,大家应该比较熟悉,就是KB、MB、GB、TB等。
我们传统PC和手机处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。