正文
■有人提出,大数据的价值密度低,数据挖掘相当于“沙里淘金”。其实,对于同一个结构开放的大数据,一些人可能视其为一堆垃圾,毫无意义;而在另一些人看来则会是一座宝库,价值连城。大数据的价值和意义,很大程度上取决于人们的理解,取决于人们的眼光。归根结底,取决于对人的需要及其发展的理解和把握
■信息文明的发展,是一个在大数据基础上的公共信息对称化过程。这就要求,为推动信息文明的发展,必须在公共领域尽可能消除信息不对称。同时,为保持信息文明发展的动力,必须尽可能保护创新专利。这很可能是时代发展的必然趋势。对此,人类社会应当提前进行思考,即如何避免新的社会不公平的出现
在技术定义上,大数据最主要的一个着眼点是规模大。但是,大数据的关键性质不主要是规模大,而是完全不同于作为样本数据的小数据。通常,样本数据的获取总是会先设定明确甚至单一的目的。这种取样,一方面可以更好地实现采样前预设的目标,另一方面也抹去了其他的可能性。
大数据的另一个重要性质是维度全。通常,我们拍照会选取一个角度。角度一取,数据就固定了。面对一张拍好的平面照片,再要换个角度去观察已不太可能。大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据。
关于大数据的特征,最早是用3个V来概括的。几年前,人们认为“3V”不足以描述大数据的特征,又提出了“4V”的描述,即volume、variety、velocity和value。
“volume”一般理解为大量。大数据首先意味着数据量巨大。小数据时代主要由人工创建数据,大数据时代则由机器、网络和人类相互作用生成。大量是大数据的基本特征,但往往被误以为大数据就是大。事实上,这个特征所表达的是大数据规模的整全性。大数据的“大”不是纯粹量的概念,关键是全,是一个质的概念。
“variety”一般理解为多样。这包括大数据来源的多样性和类型的多样性,也包括数据结构的多样性。由于数据结构的多样性和复杂性,大数据的这一特征还意味着数据结构的开放性。举例来说,大自然可以满足人类的生存需要,但我们面对大自然时的作为很有限。而大数据不一样,在以人类需要为出发点的大数据挖掘中,人类可以在这一个无限空间中进行满足自己需要的创构。
“velocity”一般理解为高速。它不仅仅是指技术设备的数据处理速度,更重要的是指实时数据流。样本数据在取样后就是冻结的,而大数据可以实时获取所需信息。对于大数据来说,信息是活的,是随着时间而流动的。正因为如此,对于实时数据流来说,速率就特别重要。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存更密切地联系在一起。不仅如此,只有高速流动的数据,才能提供无限的可能性。以往受速率限制,人们获得的数据和所要反映的内容往往是脱节的,而数据流的高速率使我们把握对象的手段越来越完善。