正文
人类希望用立体视觉观察世界,只有X轴和Y轴组成的坐标系,包含的信息量很少,所以人们需要的是对三维空间的理解。用2D的摄像头拍摄三维空间所呈现出的画面,其实是一种变形空间,而我们的世界是带有时间的三维世界,只有对三维世界进行三维采集,三维分割,才能观察并理解真实空间,进而解决真实空间中存在的问题。因此,我对使用2D信息的派别持悲观态度。举个例子,一个人通过摄像头时可能在低头,也可能在做其它动作,有时角度很特殊,面部只露出一部分,这种情况下很难利用2D信息进行人脸识别。
我们的技术为什么叫 “3D行为识别”?因为在判定一个人的行为时,我们没有使用常规方法,而是通过加入3D技术,使用了一种全三维的方法,这种方法也可以被称为数学空间、几何空间。到目前为止,公司80%的精力都放在数学层面上,在描述这个世界。
3D行为识别的研发具有一定难度。以前做线下消费行为识别非常难,因为动态识别需要对人的动作进行跟踪,而跟踪是一件很困难的事情,凭借单个摄像头进行跟踪并不现实。当我们把整个三维空间全部矢量化后,这项工作变得简单了。首先把空间和人矢量化,某人进入场景后,设备会对他进行轨迹跟踪,然后可以对他全身的骨骼进行精确的分析和判断,他的手指做了什么运动,碰到了哪些地方,所有轨迹都可以进行跟踪和识别,这项技术不属于机器学习的范畴,而属于几何计算。
目前我们的3D识别技术每秒需要处理3.4G数据,虽然数据量很大,但也带来了更多信息。
面对一个面积在一万平米、能容纳十万人的场景,我们的算法依然能够完成行为识别。
现在技术上已经可以在任意复杂的环境里面100%跟踪并识别任意多人,可以记录每个ID进出监控区域的时间,并重现其运动轨迹,不管这些人是抬头还是低头,即便只能看到半个耳朵或一只手,同样可以实现识别与跟踪。体积很小的物体也可以能被精确跟踪,动态轨迹可以精确到厘米。
皓图智能目前主要对两类行为进行识别,一类是异常行为的识别,另一类是日常状态的识别。异常行为目前只能识别三种:倒地、撞墙、打架。可能很多人觉得识别“倒地”这个动作很简单,很多公司都可以做出来。其实到目前为止,没有哪家公司检测倒地行为可以实现100%的准确率,能够达到40%的准确率就很不错了。但皓图的准确率是100%,因为我们依靠的是每个人的骨骼特征和轨迹,并且掌握地面的平面方程,可以做到精确计算,当某人倒地时,他身上每一个肢体部位的速度都能被完全掌握。可能有些人会对100%的准确率持怀疑态度,实际上这个准确率不需要测试,因为这就是数学的特点,在几何空间内,数据完全可以计算出来。
目前我们的技术已经落地,主要场景在监狱、派出所。一个容纳12人的监舍,安装四台设备,就能够完全掌握监舍内的所有轨迹,完成异常行为的识别,比如犯人在卫生间里停留的时间,超过一个标准机器会自动报警。
我对人工智能的发展持悲观态度。人工智能需要和一些垂直领域进行联合,比如在语音识别领域,除了识别讲话内容,机器能否把讲话者的微表情或是肢体动作识别出来?能否把微表情或是动作同样转换为文字?这种技术研发可能需要要十年时间甚至更长,难度非常大。