IBM和IDC(国际数据公司)将大数据的特点归纳为“4V”,即海量性(Volume)、多样性(Variety)、快速性(Velocity)、真实性(Veracity,IBM的界定)或价值性(Value,IDC的界定)。在此基础上,涂子沛先生提出数据有测量、计算、记录三种来源,大数据可理解为传统的小数据(源自测量)加上现代的大记录所产生的数据。“大数据是指人类有前所未有的能力来使用海量的数据,在其中发现新知识、创造新价值,从而为社会带来‘大知识’、‘大科技’、‘大利润’和‘大智能’等发展机遇。”因此,大数据之大,不仅在于大容量,更在于大价值。大数据被称为“‘第三次工业革命’的新石油”和“人类的眼睛”。
作为大数据在治安防控领域的分支,“犯罪大数据是指能全面反映犯罪相关人、事、物的数量特征、时空分布特征,以及变化过程的海量、多源、异构数据。犯罪大数据具有多源异构、高维度、长时序的特征。”犯罪大数据同样具有“4V”特性,在思维、方法、类型、价值上与大数据一脉相承,但它是以犯罪及其防控为核心的数据,是犯罪及其防控信息的载体。经过数据整理与加工后,犯罪大数据能够呈现出具有规律性的犯罪防控知识。
犯罪大数据的大价值主要体现于犯罪防控的创新实践中。在国外,美国圣克鲁斯警局较早运用大数据分析历史案件,发现、推测犯罪趋势和犯罪模式;美国马里兰州运用软件预测罪犯假释或缓刑期间的再犯可能性,这种预测成为了法庭假释审查的参考;孟菲斯市警局启用“Blue CRUSH”预测型分析系统后,过去五年暴力犯罪率大幅下降;南卡罗来纳州警察运用IBM的数据分析工具探察犯罪模式,发现犯罪热点,优化警力部署;洛杉矶警局与科研机构合作,基于过去80年的130万个犯罪记录开发出预测犯罪高发地点的软件;纽约警局在梅普尔的领导下启用CompStar系统,以犯罪地图为工具预测犯罪高发时空热点,开展地点警务;美国Palantir公司为洛杉矶警局设计了一套犯罪防控语义知识搜索挖掘平台,用于日常的警方业务工作中。在国内,信息警务异军突起,犯罪大数据分析逐渐成为治安防控的重要支撑。山东省公安机关“警务云平台”建设取得重大进展,截止2016年已收集460类369亿条数据,存储总量达到10P,每日处理数据达千亿条;2013年北京市公安局怀柔分局与天津工业大学合作,研发出“犯罪数据分析和趋势预测系统”,取得了良好的防控效果;台湾新北市警局以犯罪大数据分析构筑“科技防卫城”。
相对于犯罪大数据的丰富实践,我国犯罪大数据的理论研究甚为滞后,这在客观上制约了犯罪大数据在治安防控中的应用。为此,在全面体察上述实践的基础上,本文尝试从以下五个方面解读犯罪大数据:
1.犯罪大数据不能简单等同于公安大数据
公安机关与海量的线索、情报、信息打交道,并拥有人、车、案件、证据、户籍管理、警力部署、警用地理信息等犯罪数据库,因此有学者直接提出“公安大数据”范畴。虽然公安机关是打击和预防犯罪的重要力量,但犯罪治理的主体不限于公安机关。从全局层面、系统角度来理解,法院掌握的已判决刑事案件数据、检察机关掌握的提起公诉刑事案件数据、国家安全机关掌握的国家安全数据、司法部门掌握的罪犯矫治数据、政法委掌握的维稳及综合治理数据、纪委掌握的反贪及廉政建设数据、政府其他机构掌握的城市公共安全数据、社会其他团体及公民个人(现代社会每个人都是人联网数据记录与传输的终端)掌握的与治安防控有关的数据均与公安大数据一样,属于犯罪大数据的范围。可见,“犯罪大数据”比“公安大数据”涵盖范围更广、视野更加开阔、内容更为丰富,“犯罪大数据”应成为研究大数据浪潮对犯罪防控影响的基石范畴。
2.犯罪大数据包括犯罪小数据
从类型上看,犯罪小数据亦是犯罪大数据的有机组成部分,源自测量的小数据与现代大记录形成的数据共同组成了犯罪大数据。“大数据从类型上可分为结构化数据、半结构化数据和非结构化数据。”结构化数据是防控机关内部系统中的信息,如Excel表格中案件情况的统计数据。从容量及数据来源上看,结构化数据属于典型的犯罪小数据。半结构化数据包括Word文档中的文字、网页中的新闻、电邮等;非结构化数据是基于物联网、手机等移动智能终端、车联网等的传感器所形成的视频、图片、地理位置、活动轨迹、网络日志等数据。
从数据可用性上看,大数据的价值主要体现在传统的小数据或结构化数据上。当前人类的数据约75%是非结构化数据和半结构化数据,这也是大记录的表现形式。非结构化数据和半结构化数据要想体现出数据治理的价值,当前主要的处理方法还是把它们转化为严整结构的小数据。以往传统的区域犯罪风险评估、基于犯罪地图的热点探测、实验性防控项目跟踪等量化研究很多都属于小数据分析。“大数据无法取代以抽样调查和实验研究为代表的传统的‘小数据’研究,抽样调查的样本在特定情况下比某些‘大数据’更具有代表性。从长远来看,大数据不仅不会取代小数据,而且必须依靠小数据才能得到发展。”因此,犯罪大数据并不排斥传统的小数据分析,犯罪小数据与大数据是一种共生相依的关系。
3.“理论+数据”结合下的数据相对论
犯罪大数据分析以对犯罪规律的精准把握为目标,但这种分析并不是单纯的客观性分析,仍离不开主观假设、理论思辨、经验和偏好、既有知识积累、价值评判的影响。有了犯罪大数据也不意味着就能为决策者、研究者提供一个绝对真实的“镜像世界”。我们有时必须无奈地承认犯罪大数据并非是包治百病的神药。大数据分析的推崇者以往每每列举洛杉矶警局运用大数据预测犯罪的例子,但2015年洛杉矶犯罪率却出现了13年以来各类犯罪齐升高的现象。这是否意味着犯罪大数据分析失灵或大数据泡沫破裂呢?
实际上,数据越多,分歧也可能越多,因为每一个不同的观点,都能找到相应的数据来支持。“要将千变万化的人类行为提炼归纳进一套相关性分析模型和数学公式里面,几乎是不可能的。这就是大数据不可能宣告理论终结的原因所在。”“所有的研究者都在解释数据,当研究者试图理解其发现的意义时,解释就开始了。”数据是不能单靠自己“说话”的,还有赖于研究者的数据清理、分析、解释工作。“不对原始数据进行调整就等于故意公布错误的信息。”因此,犯罪大数据分析必须扎根在犯罪学基础理论之上,并接受理论的指导,任何分析都是一半数据、一半理论;理论驱动与数据驱动之间是一种“海上明月共生潮”的珠联璧合关系。
根据数据相对论的理解,数据永远在追赶事实。数据仅记录事实的一个侧面。数据再大都不是事实,但它逼近事实。事实确实只有一个,但又千万个棱面,任何一组数据,可能都只仅仅描绘了一个“面”。研究者用数据描述事物不同棱面的过程就是解释数据。可见,犯罪大数据分析是否科学有效不仅取决于犯罪数据的质量,更取决于研究者如何将犯罪学理论与犯罪数据有机结合,以既有理论、知识设计算法和程序,以量化分析探究犯罪规律、检验和修正犯罪学理论,从而改进犯罪治理模式。此外,有效的犯罪大数据分析能够提升犯罪防控决策和实施活动的科学性,但并不意味着能直接带来犯罪率的降低。毕竟,影响特定区域犯罪率的因素很多,即使犯罪大数据分析应用甚多,有时也无法对冲人口、城市化、经济、社会结构等深层次原因的影响。
4.从相关到因果的犯罪规律探究