正文
热潮的背后,有一个逻辑被越来越多公司认可,作为人机交互最主要方式之一,智能语音将成为万物互联时代的入口。
尤其在智能家居、车载等重点领域,各大公司几乎都在布局,随着各个公司实力的增强,未来在垂直领域的竞争也在所难免。
2011年,在中国科学院自动化所硕博连读加工作了10年之后,“技术上做的很漂亮”却深感体制内难以实现产业化的梁家恩,决定出来看看,“当时互联网、移动互联网比较热,想看看这些人到底在搞啥。”2011年,他加入了由黄伟刚刚创办的盛大创新院语音分院。
这一年10月,搭载英文版Siri语音助手的iPhone4s推出,迅速成为科技界瞩目的焦点。梁家恩认真研究过Siri之后,觉得以自己的技术能力,做一个Siri这样的中文语音助手并不难。“我们觉得语音已经干了12年了,是不是出来要做点事情?当时我就琢磨,出来试一试,做不成也就认了,不能连尝试的勇气都没有。”
2012年初,他从盛大创新院辞职,创办云知声。与一些尚未开始创业就手握天使投资的创业者不同,云知声的起步显得颇为窘迫,创始人自掏腰包、连续几个月纯投入,一度连发工资都很困难。2012年6月,创始团队不得不以个人名义向投资人借款,才最终把公司注册下来。
尽管做语音识别的大方向很清晰,但是这条路该怎么走,梁家恩当时并没有想清楚。资料显示,2012年8月,云知声推出了一款名为“爱说说”的语音助手。不到一个月,云知声又推出了语音云平台,外界的质疑蜂拥而至——一家小创业公司开始就做平台,就是自己找死。
这多少有些无奈,因为云知声的手上,语音数据量非常小,“做人工智能,如果我们搜不来数据,就是无米之炊,技术再牛没用。”
梁家恩说道,“我们判断整个人工智能,它未来的智能一定是在云端的,这也是我们做云平台的逻辑。”
在数据量上没有优势,就在算法上想办法。云平台推出来不到一个月,梁家恩就在淘宝上买回来了几个游戏显卡,开始搭建GPU(图形处理器)平台,研究深度学习在语音识别的应用。
云平台的推出使数据量猛增,云知声准确率达到85%,两个月后上线的深度学习算法,将准确率提高至91%。这也成为云知声之后发展的根基。“现在来看,我们当时的路走对了。”梁家恩说。
几乎就在平台上线的同时,Siri中文版推出,百度、搜狗等国内巨头都想抢先发布自己的中文语音助手。对于当时需要借助外部技术的搜狗而言,它面临两个选择,一边是一家已成立10余年的上市公司,一边是刚诞生几个月的创业公司云知声。
搜狗进行了非常谨慎的测试,发现两家技术水平上不分伯仲,但云知声在处理器的速度上更快,并且通过对私有云优化,将服务器数量从5台优化到了1台,成本大大降低,最终决定与云知声合作。2012年11月确定合作后,云知声只用了两周就完成了对搜狗语音服务的支持。
真正让云知声走向公众视线的,是公司与锤子科技罗永浩的合作。