专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
新浪科技  ·  【#为什么年轻人不爱吃哈根达斯了#】#哈根达 ... ·  21 小时前  
新浪科技  ·  【#格力钛回应18.06亿股权被冻结#:原实 ... ·  23 小时前  
51好读  ›  专栏  ›  雷峰网

作为一名老司机,我此刻理解了18世纪纺织工人看到蒸汽机时的心情

雷峰网  · 公众号  · 科技媒体 硬件  · 2016-09-29 21:18

正文

请到「今天看啥」查看全文



创建一个大规模的标注视频数据集,需要解决两个关键性问题:


  1. 视频标注的时间远远高于图像标注。(在人工标注的情况下)

  2. 处理和存储视频的计算成本很高。


为了解决第一个问题,谷歌使用了 YouTube 及其视频标注系统(video annotation system)。该系统能为所有公开的 YouTube 视频快速确定相关性高的知识图谱主题。这些标注是由机器生成,整合了来自数百万位用户的强大用户参与信号(user engagement signals)以及视频元数据的内容分析。由此,标注的质量非常高,可以达到视频分析研究和制定标准的目的。


如何保证这个视频数据集的稳定性和高质量? 谷歌使用了超过 1000 条评论的公众视频,而且创建了一个多样化的实体词汇集。这些内容都是可视化的,且出现频率很高。


从下图我们可以看出该数量集的规模及多样性:


数据浏览器在顶层垂直类别的视频分布


数据浏览器允许浏览和搜索整个知识图谱的实体词汇集,它们被分成了包含了对应视频的 24 个顶层的垂直类别。


一个标注了实体(Guitar)的数据集视频的子集。







请到「今天看啥」查看全文