专栏名称: 健一会投资

健一会成立于2011年，致力于成为“最靠谱的一级市场投资人社群”，会员基本覆盖清科排名前50名的机构，以投资总监以上职位的个人朋友为主，提供的公益服务包括深度闭门沙龙、微路演、众筹基金、退出设计、个人PR等。活动均为邀请制。

皓图智能熊效李：无需检测，3D行为识别的准确率就是100%

健一会投资 · 公众号 · · 2017-10-12 19:03

正文

请到「今天看啥」查看全文

人类希望用立体视觉观察世界，只有X轴和Y轴组成的坐标系，包含的信息量很少，所以人们需要的是对三维空间的理解。用2D的摄像头拍摄三维空间所呈现出的画面，其实是一种变形空间，而我们的世界是带有时间的三维世界，只有对三维世界进行三维采集，三维分割，才能观察并理解真实空间，进而解决真实空间中存在的问题。因此，我对使用2D信息的派别持悲观态度。举个例子，一个人通过摄像头时可能在低头，也可能在做其它动作，有时角度很特殊，面部只露出一部分，这种情况下很难利用2D信息进行人脸识别。

3D行为识别：一种与众不同的识别方法

我们的技术为什么叫 “3D行为识别”？因为在判定一个人的行为时，我们没有使用常规方法，而是通过加入3D技术，使用了一种全三维的方法，这种方法也可以被称为数学空间、几何空间。到目前为止，公司80%的精力都放在数学层面上，在描述这个世界。

3D行为识别的研发具有一定难度。以前做线下消费行为识别非常难，因为动态识别需要对人的动作进行跟踪，而跟踪是一件很困难的事情，凭借单个摄像头进行跟踪并不现实。当我们把整个三维空间全部矢量化后，这项工作变得简单了。首先把空间和人矢量化，某人进入场景后，设备会对他进行轨迹跟踪，然后可以对他全身的骨骼进行精确的分析和判断，他的手指做了什么运动，碰到了哪些地方，所有轨迹都可以进行跟踪和识别，这项技术不属于机器学习的范畴，而属于几何计算。

目前我们的3D识别技术每秒需要处理3.4G数据，虽然数据量很大，但也带来了更多信息。面对一个面积在一万平米、能容纳十万人的场景，我们的算法依然能够完成行为识别。现在技术上已经可以在任意复杂的环境里面100%跟踪并识别任意多人，可以记录每个ID进出监控区域的时间，并重现其运动轨迹，不管这些人是抬头还是低头，即便只能看到半个耳朵或一只手，同样可以实现识别与跟踪。体积很小的物体也可以能被精确跟踪，动态轨迹可以精确到厘米。

皓图智能目前主要对两类行为进行识别，一类是异常行为的识别，另一类是日常状态的识别。异常行为目前只能识别三种：倒地、撞墙、打架。可能很多人觉得识别“倒地”这个动作很简单，很多公司都可以做出来。其实到目前为止，没有哪家公司检测倒地行为可以实现100%的准确率，能够达到40%的准确率就很不错了。但皓图的准确率是100%，因为我们依靠的是每个人的骨骼特征和轨迹，并且掌握地面的平面方程，可以做到精确计算，当某人倒地时，他身上每一个肢体部位的速度都能被完全掌握。可能有些人会对100%的准确率持怀疑态度，实际上这个准确率不需要测试，因为这就是数学的特点，在几何空间内，数据完全可以计算出来。

3D行为识别的落地

目前我们的技术已经落地，主要场景在监狱、派出所。一个容纳12人的监舍，安装四台设备，就能够完全掌握监舍内的所有轨迹，完成异常行为的识别，比如犯人在卫生间里停留的时间，超过一个标准机器会自动报警。

我对人工智能的发展持悲观态度。人工智能需要和一些垂直领域进行联合，比如在语音识别领域，除了识别讲话内容，机器能否把讲话者的微表情或是肢体动作识别出来？能否把微表情或是动作同样转换为文字？这种技术研发可能需要要十年时间甚至更长，难度非常大。

问答环节