专栏名称: 新闻实验室
这里是方可成的新闻实验室,期待与你产生化学反应!在这里你可以读到关于新闻、媒体、科技、文艺、社会等多方面的跨界话题,有趣有料。
目录
相关文章推荐
新华社  ·  暴雨黄色预警 ·  昨天  
新华社  ·  这5件事再干下去,眼睛危矣 ·  3 天前  
51好读  ›  专栏  ›  新闻实验室

第一篇关于中国疫苗问题的数据新闻是如何出炉的

新闻实验室  · 公众号  · 社会  · 2018-07-26 11:59

正文

请到「今天看啥」查看全文



相较于其他的新闻类型,数据新闻的一个特点就是能把问题量化。 不管是金钱的流向,还是位置的移动,甚至桌上吃什么,只要每一笔、每一次、每一顿都有结构化的记录,就能分析出点门道来。 数据新闻中的“数据”二字绝不单单是“数字”(number)的意思。


为了理清疫苗在中国到底有什么问题,首先想到的是新闻报道。通过检索慧科新闻数据库(一个搜集了各类媒体报道的新闻数据库)中近十年所有标题含有”疫苗“两字的报刊新闻,我梳理了所有涉及疫苗问题的报道。


这件事做了两天,从19号到20号,最直观的感受就是难受,因为看到:


2010年,王克勤的《山西疫苗乱象》引发巨大反响,媒体铺天盖地报道”山西疫苗案“;2014年,不断有婴儿接种乙肝疫苗后死亡,媒体铺天盖地报道”乙肝疫苗疑似致人死亡“;2016年,一篇名为《疫苗之殇》的文章刷爆朋友圈,媒体铺天盖地地报道”山东疫苗案“。



此外,还有各地报纸零零散散的疫苗问题报道。


所以21号疫苗文章刷屏时,没有惊讶,现在是历史的翻版。


不过,仅仅梳理新闻报道是难以呈现疫苗问题全貌的,因为报道的最低标准是只用告诉我们发生了一件疫苗安全事件,至于注射的是什么疫苗,是否真是偶合症,是否有公职人员犯罪等,在不同报道中详略不一,有的报道事无巨细,有的报道只字不提。


这时能够想到的资源就是判决书。 法院的判决书不仅提供了刑事、民事等案件的详细内容,而且信息结构固定,方便分析。更关键的是,判决书容易获取。根据相关规定,除特殊情形外,发生法律效力的判决书均要在互联网公布。



判决书能被方便查阅,和近十年来政府推行的信息公开一样,都是助推数据新闻发展的条件之一。 很多数据新闻的数据都是来源于政府等国家机关公开的资料,这在全球也是一个趋势。


各级法院在相应网站上都会公布自己的裁判文书,而中国裁判文书网(https://wenshu.court.gov.cn/)便是最高法汇总裁判文书的地方。从2014年至今,提及“疫苗”二字的刑事、民事判决书共有8000多条,因为手动整理缓慢,网易数读的另一位同学负责用Python爬取。


在互联网中沉淀着海量数据,《经济学人》把它们称为 数字时代的石油 ,对数字编辑而言,如果搜集起来加以分析,将会得出很多有价值或有趣的结论。网易数读曾发过一篇《分析了300万字文本后,我们终于知道了什么是直男癌》(http://data.163.com/17/0830/19/CT43NV6M000181IU.html),就是基于微博、知乎、豆瓣、虎扑这些社交平台的文章和帖子。而Python这类灵活的工具能节省很多获取或清洗数据的时间。


新闻网站Propublic的那篇有名的 数据新闻《给医生的美元(Dollars for Docs)》 数据就是搜集自药企网站(美国《平价医疗法案(ACA)》规定医药企业必须披露因推销式谈话、咨询等而给医生、牙医等的费用)。搜集来的PDF文件页数有17320页,网站则有243034页,合起来有1099377条记录。要是一个人来手动复制黏贴整理这些记录,要一年半的时间,所以他们就写了个程序,批量化地完成了整理数据这件事——当然,整个过程中,依然需要很多人工的核查和清理。








请到「今天看啥」查看全文