首页   

专访 | 钱晨:为什么 “智能音箱” 可能会被做臭?

雷峰网  · 科技媒体  · 7 年前


雷锋网按:卸任锤子科技 CTO 之后,钱晨加入数字家圆,参与了一款视频通讯设备——亲见 H1 的研发,做的是他老本行——声学,其中最核心的工作便是远场语音识别。远场语音识别也是 Amazon Echo 的核心技术之一,Echo 的火爆点燃了整个市场,但钱晨告诉雷锋网,他并不认为这是 “最好的时代”。

1998 年,钱晨在中科院顺利拿到了水下声学博士学位,很长一段时间,他在北京摩托罗拉研发中心担任电子与声学工程师。

他现在担心的是,百家争鸣背后,“智能音箱” 这个概念会被做臭,就像他玩石头从来不碰田黄,因为一说到田黄,他第一反应就是赝品。

以下是钱晨自述,由雷锋网整理。

这么说吧,做前端声音处理的,国内没有高水平的。因为我们这个专业,一年毕业不到 50 个学生,大家都知道,这个水平不会太高。但是美国人比较有意思,美国人做物理比咱们深,物理做深了以后,它就能解开一道道题。

麦克风这个行业,有两个流派。一个是说自己有 6 个、7 个麦克风(Amazon Echo)的那种,叫麦克风阵列;第二个流派就是 “两麦”(Google Home)。从这一点出发,不管厂商怎么讲故事,都逃不出这两个。

麦克风阵列流派的缺点是夹角窄。

展开之前得先谈一谈 “波束形成”。波束形成实际上 20 年前就有人做了。军工里的声纳,微波里的智能天线,都是这个技术。

当时大家为什么用波束形成?主要是因为做电路的时候就是处理各种放大信号,而波束形成本身就是一个放大信号,我们管这个放大叫空间增益。对空间场的增益还有一个公式,根据它,能做出很多技术创新来。

亚马逊做 Echo 的时候就用了这个技术。这个技术体现在产品上,就是它能识别声音传来的方向,然后把旁边的声音滤掉,把需要的声音增加了空间增益。对比到电路上,就是这个信号的放大倍数多,信噪比好,信号被放大以后,很干净。

麦克风阵列就是用这个阵列形成一个波束,波束角是 60 度。

“两麦” 没有夹角窄这个问题,它也有空间信息,能分辨出来声音是左边来的还是右边来,但它没有增加放大量。

对比这两个流派,时间差能说明一些问题。亚马逊 4 年前就在 Echo 上用了波束形成,而 “两麦” 是去年开始用的,就是 Google Home。所以这两个技术在应用成熟度方面,差了三年到四年。

再往下走就到设备端了。

设备首先要解决的问题就是噪声抵消。比如一个人跟另一个人说话,声音是从四面八方传到耳朵里的,对设备来说,情况也一样。那这就有问题了,有些方向的声音快一点,有些会慢一点,叠加在一起就产生了混响,或者说噪音。

所以麦克风把声音识完以后,剩下的事就是做噪声抵消,让声音信息干净到能让 “对方” 听到,计算机才能够处理。

现在可以看到,科胜讯、云知声、思必驰,科大讯飞这些公司,它们都说自己有全套解决方案,实际上,“全套解决方案” 就是能解决刚才所说的噪声抵消和后面的云端处理。

只有设备里的噪声抵消解决干净了,信息才能传到下一级,去做语音识别。

语音识别国内做得最好的就是科大讯飞,他们最喜欢干的就是,每次有人在那儿说话,它给你翻成文字。它这个做得很漂亮。但这些文字是什么意思?它不管了。因为这已经到了语意识别,而在这一块做得最好的是微软和亚马逊。

总之,可以把语音设备的技术分成三段:一是噪声抵消,二是语音识别,三是语意识别。在语意识别这块,老外比中国人强。

对用户来说,一定是三段都做好才能有所体会,但语意识别是个更难的东西,基本上只有大公司能做,小公司做不了。

我现在认为 “智能音箱” 快做坏了,就是设备端都没有做好。如果降噪这一块没有处理好,科大讯飞算法再好也傻,识别率就下降,语意识别就更别谈了。

很少有人注意到一个信息,国家做了一个实验室,希望厂商们把自己的语音设备放到实验室去认证。

它就跟手机一样,手机厂商都会说自己的产品好,但最后必须得过 3C 标准,需要认证。所以大家都说自己好的时候,实验条件是什么?环境条件是什么?他们答不上来的。

声学测量远比电磁场测量复杂,能不能适应复杂的物理环境才是体现设备水平高低的地方,而那些总拿 “能识别几米几米” 说事的,消费者都不会买单。

推荐文章
广州数据交易所  ·  广州数据交易所(天河)服务专区揭牌,全市首家 ...  ·  3 月前  
伯阳先生-段本司  ·  加拿大政府放弃对阳性患者的隔离要求了但好像加 ...  ·  1 年前  
二哥税税念  ·  研发费用三个口径,高新vs加计vs会计核算  ·  2 年前  
老崔密文  ·  这首歪唱真绝了! 发到群里大家听听!  ·  3 年前  
© 2022 51好读
删除内容请联系邮箱 [email protected]