正文
每个公司都在干这个事情:当我们有海量的数据,而且这个数据的来源很广泛,就可以做一个非常完整的用户画像。
第一,深度理解我们的用户。我们在理解这个用户时,甚至利用机器计算去补充用户没有告诉我们的信息。基于多种维度,我们甚至可以总结用户性别。通过数据的聚合,特征提取,推测性别数据,我们的覆盖率是90%,里面的准确率能达到89%。还有年龄段,职业等,准确度越来越高;
第二,用户真实性。小米从第一天卖手机,最大的敌人是黄牛。一开始,他们模拟真实的用户去抢手机,一开始,我们每人每天都写很多代码去互相攻防。后来,我们开始机器学习了,把用户的全部维度,全部输入到机器里面,让他判断真实的用户是这样。之后,每一个用户进来,可以瞬间判断到底是不是一个真实用户。因为黄牛可以通过一两个维度,甚至使用10个、20个、100个维度去模仿真实的用户,但是不可能做到1000个维度。所以我们基本上可以判断出黄牛。有时候算法太好了,让一个稍微有一些异常的真实用户被判断黄牛,因此还要把它往下调一点。这就是我们怎么样用大数据反过来验证现实上的真实度。为了画像更精准,我们不断地要提高我们的内容词、知识图库。
那么如何让大数据落地到你的产品?今天下午,小米发布了最新的电视,最大的亮点是人工智能的部分。这不是一个新的概念,但要把它做得靠谱,整个行业花了很多年。我们可以通过语音搜索片子,找到很多关于电影的信息,演员的各种信息。过去可能要花20个遥控器的操控,今天通过一个自然的语音,就可以找到。
之前我意识到,我们把人工智能落实到可以摸得着、用的好、买得到的设备,才可以说把人工智能带给用户。其实做人工智能技术的公司很多。今年越来越多的人工智能技术将落实到产品上。比如小米电视,已经可以做到在看电视的时候,问这个演员是谁,他就马上告诉你,是邓超。还可以问邓超今年几岁,老婆是谁,我要看邓超的老婆的电影。基本上用户问的越多,这个系统就会越来越自然。我想,除了语音、人脸识别技术,里面最核心的一点是自然语言处理。怎么把精准度达到百分之90的语音识别后的文字转成语义,之后进行分析。比如复杂的一句话,老情人的老情人的老情人的老情人的老情人的干女儿,这样人理解起来都比较麻烦的句子,现在都可以理解了。
那么自然语言处理也好,去了解特定场景下的用户习惯也好,现在我们采用的主要方法都是机器学习。过去我们是用问卷等方式,用人工的方式去迭代。但是,现在基本上是通过机器学习,加一部分人工干预的方式,让它更频繁的迭代,不是一周一个迭代,而是每个小时在迭代。我认为它的进步是用一个非线性的速度在提升,举个例子吧。我们总是说智能硬件对不对?你说这个灯是智能灯,但是你有没有想过,如果你们用过这些所谓的智能灯,当然有两个选择,一个是过去直接用手按对不对,第二个方式就是打开你的手机,解开你的锁屏,好不容易找到APP再打开,等了一两秒钟,然后你再关灯开灯。你基本上试上几次,都不会有什么用对不对?
我认为今后大家会看见真正懂你的灯,而且懂你一个人。因为每个人开灯、关灯的习惯千差万别。如果要找全世界最强的工程师把它做出来的话,十万个规则都做不好。而且这个代码量惊人。正确的做法是,通过灯的维度,知道你的特征,通过家里全部的智能硬件来掌握你的特征,比如家里wifi与你手机的状态,家里电视的状态,音箱的状态,客厅净化器的状态,房间的净化器的状态,可能要上百个特征。就根据过去一个月的使用历史进行分析,知道在这些特征成立下,你会开灯,你会关灯,这样才有可能做出一个真的是懂你的灯。
有很多人说用一个摄像头、传感器就知道了。这其实是远远不够的。比如,晚上下班回去,他就开灯,然后打扰到你的室友。真的要做这个,难度远超大家的想象,因为这些维度不应该是人去学习的。当你家里的设备越来越多,他们的状态全部都可以被分析,被记录,我只要跟随一个礼拜,就可以理解你的习惯。我认为他会比任何一个工程师可以做的10万个规则都更符合你想要的。
另外一个案例,就是智能手环。把这个东西做精准很不容易,要靠算法判断是在走路还是在跑步?然后不断的调试,每个人挥手的方式不一样。所以,工程师拍脑袋去想办法,然后把算法变成了代码。
其实有一个更好的方法,就是让足够多的用户带着他去跑步,打羽毛球,玩排球,打篮球,上山下山,OK,然后机器学习,我们就可以很方便的知道各种各样的活动里面的规律。如果机器学习发挥好,可能过去十个工程师才可以做到的事情,未来可能只需要两个工程师,非常擅长收集高质量的大数据,知道怎么样用机器学习。