专栏名称: 上海书评
纽约有The New York Review of Books,伦敦有London Review of Books,上海怎能没有Shanghai Review of Books?
目录
相关文章推荐
51好读  ›  专栏  ›  上海书评

谷歌的图书扫描计划为何失败

上海书评  · 公众号  · 读书  · 2017-05-09 15:40

正文

请到「今天看啥」查看全文



这个扫描系统很高效的原因是软件完成了大部分工作。在传统的图书扫描系统里,在每次拍照之前确保每一页都是放正、铺展的是拖慢扫描进度的主要原因,而在谷歌的扫描系统中,每页歪歪扭扭的图书的照片会经过一个“去皱算法”的处理,该算法利用光学雷达的数据,最终使得书中每行文字回到正常的、看起来横平竖直的高度。


该项目的巅峰时期曾雇佣了大约50个全职工程师。他们负责研发能把图像转化为文字的光学识别软件,写去皱、颜色校正和对比度调节的算法,以便更好地处理图像,他们还研发了识别书中插图和图表的算法、提取页码的算法、把脚注转换为引用的算法、甚至还有按照布林和佩吉早期研究的思路,把图书按照相关度排序的算法。丹·克兰西(Dan Clancy)曾在该项目鼎盛时期担任工程主管,他说,“书与书之间还没有形成网络。一个巨大的研究挑战就是理解书与书之间的关系。”


在当时谷歌公司的其他部门都痴迷于让各种app更社交化,比如在2011年发布的Google Plus,而负责图书项目的人则将书籍扫描看作是像谷歌的搜索服务一样老派传统的东西,它们都呼应了谷歌公司的使命:“让全世界的信息有序,并且跨越国界地流通和发挥作用。”


图书扫描项目是有史以来第一个被谷歌称作“探月”(moonshot)的项目。在谷歌开发无人汽车和通过高海拔气球向非洲输送互联网的“疯狂气球计划”(Project Loon)之前,这个数字化图书的计划被外界认为是一个白日梦。甚至有些谷歌的员工也认为这个项目纯粹是在浪费时间和金钱。克兰西告诉我,“当时在我们做这个谷歌图书搜索项目的时候,谷歌内部肯定有不少人想:‘为什么我们要在这个项目上投入这么多钱?’一旦谷歌开始稍微精打细算起来,就会有人质疑,‘等等,你每年有4000万美元可以花,然后你居然砸了5000万美元在图书扫描上?然后这个项目总共要花掉我们3到4亿美元?你在想什么呢?’不过拉里和谢尔盖一直忠实地支持这个项目。”


在2010年8月,谷歌在博客上发了一条消息,说全世界总共有129864880册图书,而谷歌要把它们全部扫描完。


当然啦,事情后来的发展并不完全像他们说的那样,这个探月项目大概比原计划少扫描了1亿本书。计划失败的整个经过很复杂,但是起因却很简单:谷歌做的这件事被认为是错的,而没有人愿意宽恕。在得知谷歌从图书馆中拿走了百万册的图书,一本一本地扫描完毕,还像没事人一样地把书还了回去之后,各路作家和出版商开始起诉谷歌,正如他们在一开始的抗议中写道的,指控谷歌“大规模侵犯知识产权”。


可以自动翻页的图书扫描仪


谷歌扫描图书的初衷不是为了建一个数字图书馆,让大家能够完整地阅读电子书,这个点子是后来才有的。他们一开始的目标只是为了让用户能检索图书,对于那些有版权的书,谷歌只能显示图书的片段,搜索结果中只能显示你搜索到的条目前后的几句话。因此谷歌把他们的图书搜索服务比喻成一个卡片式的索引目录。


谷歌还以为建立一个卡片式的索引目录是属于“合理使用”的范畴,就像版权法允许学者可以引用别人的作品一样。谷歌公司的律师大卫·杜蒙德(David Drummond)说,“合理使用和不合理使用的区别在于是否有对原文的改变。没错,我们在数字化图书的过程中是制作了一个副本,但是很显然,让用户能够在书中找到某个术语不等于让用户读了这本书。这也是为什么谷歌图书提供的服务和图书本身不一样。”


杜蒙德必须得是对的,因为依照法律,故意侵犯支持产权的赔偿金额是15万美元/每本书。如果谷歌真的侵犯了千万册图书的知识产权,那么它需要赔偿的数额将以万亿计。美国加州大学伯克利分校的法学教授帕梅拉·塞缪尔逊(Pamela Sameulson)在2011年写道:“谷歌的确有理由害怕他们是在孤注一掷地赌自己的行为是对知识产权的‘合理使用’。”知识版权的拥有者们反扑了回去。


他们反扑的理由很充分。因为谷歌在没有任何许可的情况下就洗劫了图书馆。这显然是错误的。如果你想要复印一本书,首先你要有复印的权利(the right to copy it)——也就是作者和出版商老爷们才有的“版权”(the damn copyright)。如果放任谷歌成批成批地复印美国所有的图书,对版权拥有者们无疑遗患无穷,这种行为说不定会导致他们失去“知识产权”本应给他们带来的利益。“美国作家协会”和几位作家代表全美所有的图书版权受益者对谷歌提起了集体诉讼(有一些出版商已经单独起诉了谷歌,但是之后很快就加入了美国作协的集体诉讼)。


科技公司蔑视知识产权已经有很长的历史了,因为它们发明了新的分发内容的方式。在20世纪初期,制造了自动钢琴上的打洞纸卷(piano rolls)的人无视了乐谱的知识产权,后来遭到了音乐出版商的起诉。同样的事也发生在了唱片制造商和早期的商业收音机供应商的身上。在上世纪60年代,有线电视在没有授权的情况下转播了无线电视的信号,随即面临着高额的诉讼。电影制作公司起诉录像机制造商,音乐公司起诉了在线音乐共享服务KazaA和Napster。


正如蒂姆·吴(Tim Wu)在2003年一篇法律评论文章中指出的,发生在自动钢琴的打洞纸卷、唱片、广播和有线电视身上的事,并不是版权拥有者要打压新技术。相反,他们要求从新技术中分一杯羹。通常的做法是颁发版权许可,比如音乐家必须要把他们的作品授权给打洞纸卷制造商,作为交换,制造商要为他们制作的不同歌曲的纸卷支付一笔固定数额的费用,比如一首歌两分钱。音乐家因此拥有了一个新的收入来源,公众也能在自动钢琴上听到他们喜欢的歌曲。吴写道:“历史表明,时间和市场经济总是能保证利益博弈的平衡。”


但是尽管每一方都获得了好处,每次博弈版权方都会害怕他们会被新技术取代。当录像带出现的时候,电影制作人强烈抗议。当时美国电影协会的主席杰克·瓦伦提(Jack Valenti)在法庭上陈词:“我告诉你们,对美国的电影制片人和美国公众来说,录像机比在波士顿地区杀死了13名妇女的杀人犯对独自在家的妇女的威胁还要大。”大的电影制作公司起诉了索尼,认为它们的录像带生意完全是对知识产权的剽窃。但是美国索尼公司对环球影业制片厂的案子之所以为人所知,是因为它判定只要复制技术依然有从事“非侵权”活动的可能性,比如人们可以用在家里看电影,所以录像机的制造者并不承担侵犯知识产权的责任。


索尼的案件迫使电影行业接受了录像机的存在。不久之后,他们开始把录像机看成是一次契机。2000年的时候一个评论员这么说:“录像机后来成为了继电影放映机之后对电影制片人和硬件生产商来说最有利可图的发明。”


所有起诉谷歌的作家和出版商只花了几年时间就意识到,事实上还是存在一个让各方都满意的解决方案的,尤其是当你开始把注意力转向一些已经绝版而不是还在销售的图书的时候。如果你发现了这个区别,你就会以不同的眼光来看待谷歌的整个项目。或许谷歌并没有掠夺任何人的劳动成果,他们只是使旧书重获新生。谷歌图书之于绝版书籍就像录影机之于已经下线的电影。








请到「今天看啥」查看全文


推荐文章
海通有色  ·  美基建投资或超万亿美元
8 年前
酱子工厂  ·  老师教训学生,笑死人!
8 年前
新丝路金控  ·  伟大的划分:合伙人股权分配基本法
7 年前
基本实验室  ·  终极大数据,人神分野的起点
7 年前