专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
相关文章推荐
网信河北  ·  加快工业高质量数据集建设 ·  19 小时前  
网信河北  ·  加快工业高质量数据集建设 ·  19 小时前  
艺恩数据  ·  【艺恩报告】2025年黄金饰品消费分析报告 ·  昨天  
51好读  ›  专栏  ›  AI前线

分析海量视频中的违规内容,七牛如何构建弹性深度学习计算平台

AI前线  · 公众号  · 大数据  · 2017-10-05 14:00

正文

请到「今天看啥」查看全文


内容分析说起来很简单,就是你上传一个图像具体是什么,但是实际上又很复杂,很难说清楚,内容是什么?

比如我拿出一张图片,每个人描述一张图片里面有什么东西,这个叫图片描述。每个人的描述可能都不一样。主要问题是我们在看到东西,听到东西的时候,我们做出的反应,做出的事情跟我们大脑处理的任务相关。所以内容总结起来其实是跟内容最后的目的相关的。

我们怎么理解这个内容。首先我们可以去把内容解析成很多目的。第一个是分类,分类是基本内容的解析,比如判别这个图片是不是黄色图片。第二个就是检测,比如检测这个视频里面有没有人脸,这些人脸是谁,里面出现了哪些物体,有没有车,车的型号是什么。还有分割,比如说一个画面里面,这个人的形状是怎样的,他跟背景的界限在哪里,这就是一个很简单的分割问题。然后就是跟踪,比如说一个视频中,我们有人脸在走动,这就是一个跟踪问题。以及一个视频的描述,一个视频每一段里出现了什么事件,每一段里面有多少人物,这些是一个描述。还有搜索,我看了很多图片之后搜关键的信息出来,再之上可能就是分析,还可能做很多的处理。

其实我们去解读 content,最关键的是内容的目的。我们首先会去看对这些内容需要做哪一些事情,我罗列的就是我们经常做的一些项目的相关内容。

我们从去年开始做了一个很大的转变,我们从连接基础服务的提供商,变成去给客户做智能的提供商,也就是说我们希望帮助客户去做智能,去提供一些智能的解决方案,让客户去做一些更智能、更互动性的,更了解自己内容的一些行为。这就是我们提出要把我们的连接生意做成智能的生意。我们现在有海量的数据,而图像和视频的泛化能力是很强的,我们通过平台上的数据跟用户一起共建,一起训练,就可以得到很多有价值、有意思的东西出来。

现在这个时代经常提人工智能,智能这个词语到底是什么意思?其实很久以前图灵机的时候就已经有智能这件事情了,而到现在大家对智能还没有一个准确真实的答案,怎么样算是一个智能,我个人理解的智能是类似于人一样直觉型地思考反馈很多的东西,这可能就是最基本初级的智能。

其实我们现在做人工智能,要具备泛化的能力。比如要用深度学习解决像机器视觉这样的问题,首先要解决的最重要的两个问题,一个是大数据的问题,还有一个就是深度学习,也就是机器学习算法的问题。每天我们平台上传处理的图像非常多,可能超过 10 亿,我们不可能把所有的上传图像都拿来学习一次,所以大数据的处理能力非常重要。其次就是我们不可能把所有图像都拿去人工做标注,这个工程量非常大。所以我们会结合很多算法做一些半监督的机器学习,再加上标注,再加上深度的神经网络取得最终的结果。也就是说人工智能实验室在解决两个问题:一个是大数据,另外一个是机器学习的问题。

图中是我们去年成立的实验室 Ataraxia AI Lab。这个名称来源于一个古希腊的哲学学派,这个学派是个怀疑论的,Ataraxia 是指人对世界的认知是有缺陷的,你永远不可能了解事物的本质,就像我刚才提出来智能这个问题,其实每一个阶段都有人提出智能的含义,图灵认为智能能用机器制作出来,后面有希尔乐等等人反驳了他,其实智能这些东西跟用机器模仿出来的东西完全不一样。

我们做人工智能、做认知这件事情,我们一直在质疑自己,最终想达到的境界就是 Ataraxia 的境界,一直在不停地追求永远达不到的一个境界,这个就是古希腊文翻译出来的一个哲学的单词。

接下来介绍一些我们之前做的事情。我们做的第一件事情就是把一张图片扔进 CNN 的网络,识别这张照片是色情、性感还是正常的。如果这有搞机器视觉的朋友就会觉得这是一个非常常见、非常基础的一个分类问题。但是这个分类问题,它其实不那么好解决。因为会有各种各样的图像表述它是色情的,是性感的,所以模型需要去学习、去标注的内容非常多。我们在去年刚建实验室的时候,有很多实习生在实验室每天标注这些色情内容。当然现在已经少了,因为我们每天会有半监督打标的迭代过程,我们一直在优化鉴别色情暴恐的系统。如果大家有兴趣可以去我们实验室看一下,我们一直固定有人在做图像标注。包括有一些兼职的,在学校里面在帮我们做的,我们自己做了一套网络上的标注系统。







请到「今天看啥」查看全文