专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
zartbot  ·  从AI落地的视角看看Infra的需求 ·  8 小时前  
zartbot  ·  从AI落地的视角看看Infra的需求 ·  8 小时前  
爱可可-爱生活  ·  【damn:AI驱动的命令行助手,一键获取你 ... ·  昨天  
彭涛说  ·  我跟AI打了个视频电话... ·  昨天  
彭涛说  ·  我跟AI打了个视频电话... ·  昨天  
新智元  ·  RLHF已死,RLVR引爆AGI革命!Cla ... ·  昨天  
人工智能那点事  ·  粉丝已破百万!北大“韦神”突然开号?评论区成 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

业界 | 谷歌开源深度学习街景文字识别模型:让地图随世界实时更新

机器之心  · 公众号  · AI  · 2017-05-04 13:17

正文

请到「今天看啥」查看全文



谷歌地图的街景功能拥有 800 亿张高分辨率图片,而且这个数字还在以每天百万的速度不断增加。街景图片是获取准确地理信息的绝佳渠道,而利用深度学习从图片中获取信息,并实时更新地图地址内容正是谷歌研究团队努力的目标。


每一天,谷歌地图都会为数百万人指路,并提供相应的实时路况信息和商店推荐。为了向用户提供最好的体验,这些信息必须随着不断变化的世界实时更新。谷歌街景车每天都会收集数百万张图片,而人工分析这超过 800 亿张高分辨率图片中的信息,试图找出其中的新变化是一个不可能完成的任务。谷歌 Ground Truth 团队正在研究如何让计算机自动将图片中的内容转变为谷歌地图需要的信息。


在最近的一篇论文《Attention-based Extraction of Structured Information from Street View Imagery》中,谷歌的研究者讨论了使用深度神经网络在多个国家收集到的街景图中读取街道名的任务。谷歌的算法在「French Street Name Signs(FSNS)」数据集中达到了 84.2% 的准确率,表现大大超过了此前表现最好的系统。更重要的是,新系统除了可以读取街道名称,还可以自动读取图片中的商户名,以及其他信息。谷歌近日已将这一模型开源。


Github 地址:https://github.com/tensorflow/models/tree/master/attention_ocr


在 FSNS 数据集中的街道名被谷歌的系统成功转录,这个路标提供了四张不同图片。


在自然环境中识别文字对于计算机视觉和机器学习而言是一个非常具有挑战性的任务。传统的光学字符识别(OCR)系统主要适用于从文件中扫描信息,而从自然视角中获取文字则面临更多麻烦,失真、遮蔽、方向模糊、复杂背景和不同视角都会对识别产生影响。谷歌应对这一挑战的研究从 2008 年就开始了,他们曾使用神经网络来模糊结晶图片中的人脸与车牌以保护隐私。在先前阶段的研究中,研究人员逐渐意识到经过足够已标记数据的训练后,机器学习不仅可以用来保护用户隐私,还可以自动为谷歌地图进行实时信息的更新。


在 2014 年,谷歌 Ground Truth 团队发布了当时最好的读取街景门牌(SVHN)数据集中门牌号的方法。这一应用是由 Ian Goodfellow 等人提出的,它不仅引起了学界的关注,也切实改变了谷歌地图的面貌。今天,全球大约 1/3 的地址都是由这一系统提供的。在一些国家如巴西,Goodfellow 等人的算法为谷歌地图提供了超过 90% 的地址,极大地增强了地图的可用性。







请到「今天看啥」查看全文