专栏名称: GPLP
GPLP是专注于创业、投资的专业的咨询平台,旨在为创业者以及投资人,其中包括上市公司、企业、银行等提供专业的内容、最新的行业形势及最客观的解读。
目录
相关文章推荐
51好读  ›  专栏  ›  GPLP

科大讯飞语音技术的“小”更新 让20亿终端变身机器人?

GPLP  · 公众号  · 科技投资  · 2024-08-22 20:14

主要观点总结

本文介绍了科大讯飞与华为之间因新技术引发的热议和合作深化,重点介绍了科大讯飞推出的极速超拟人交互技术,以及其对智能语音市场可能产生的影响。

关键观点总结

关键观点1: 科大讯飞与华为高管互访引发外界关注。

两公司高管互访,传言双方合作终止引发股市波动,实际上双方保持良好合作关系并深化战略协议。

关键观点2: 极速超拟人交互技术成为关注焦点。

新技术演示引发业内关注,采用端到端技术实现语音到语音的建模,带来更快的响应速度和更丰富的声音感知表达能力。

关键观点3: 端到端技术方案的优势。

端到端技术方案简化了传统技术中的处理步骤,实现了更快的响应和更准确的感知表达,使人机对话更加自然流畅。

关键观点4: 智能语音市场的潜力。

移动物联网终端用户的增长和全球物联网设备数量的预期增长,以及智能语音服务市场规模的预测增长,显示了智能语音市场的巨大潜力。

关键观点5: 极速超拟人交互技术的市场影响与未来可能性。

新技术将激发智能语音市场的迭代发展,提升用户体验,并在多个领域如智能汽车行业、养老和育儿领域、智能终端等带来广泛的应用和新的交互产品可能性。


正文

请到「今天看啥」查看全文


02
智能语音技术的新旧之别

以ChatGPT为代表的大模型浪潮到来之前,人工智能领域落地最为成功的产品毫无疑问是小爱同学、天猫精灵、Siri……这些名字遍布在手机电脑、汽车座舱、家居家电等各种智能终端之上,成为消费者打开智能体验的魔法咒语。

“咒语”在科技时代的同义词,正是智能语音。传统智能语音技术分为语音识别和语音合成两个模块,声音信号经过语音识别转换为代码,经后台处理后再由语音合成技术输出位文字或声音,各种语音助手、智能音箱采用的正是这项技术。传统语音技术国外代表企业是Nuance,苹果的Siri、三星的语音助手S-Voice背后都是Nuance的技术,国内的代表则是科大讯飞,从普通话考试、语音输入法到带有各种语音互动功能的智能终端,科大讯飞在中文语音技术领域一枝独秀。大模型浪潮到来后技术路径变成了语音转文字、大模型生成回复文本、语音合成三步走,大模型替代了原有的技术后台,包括OpenAI旗下的语音大模型Whisper在内,整体技术路径未有太大变化。

而科大讯飞本次“极速超拟人交互”的推送中提到,该技术“采用统一神经网络直接实现语音到语音端到端建模”,随并未提及具体技术路径的细节,但“端到端”已经说明一切。从特斯拉采用端到端技术方案的FSD捷报频传,到OpenAI 跨文本、视觉和音频端到端地训练了一个新模型GPT-4o,“端到端”已经成为目前人工智能前沿被证实能力更强的技术方案。

“端到端”是将输入直接映射到输出,省略了传统技术中的手工特征提取和复杂的中间处理步骤,应用于智能语音带来的效果就是“超拟人交互技术”呈现的那样:

更快,更流畅,更准确。







请到「今天看啥」查看全文