主要观点总结
本文介绍了科大讯飞与华为之间因新技术引发的热议和合作深化,重点介绍了科大讯飞推出的极速超拟人交互技术,以及其对智能语音市场可能产生的影响。
关键观点总结
关键观点1: 科大讯飞与华为高管互访引发外界关注。
两公司高管互访,传言双方合作终止引发股市波动,实际上双方保持良好合作关系并深化战略协议。
关键观点2: 极速超拟人交互技术成为关注焦点。
新技术演示引发业内关注,采用端到端技术实现语音到语音的建模,带来更快的响应速度和更丰富的声音感知表达能力。
关键观点3: 端到端技术方案的优势。
端到端技术方案简化了传统技术中的处理步骤,实现了更快的响应和更准确的感知表达,使人机对话更加自然流畅。
关键观点4: 智能语音市场的潜力。
移动物联网终端用户的增长和全球物联网设备数量的预期增长,以及智能语音服务市场规模的预测增长,显示了智能语音市场的巨大潜力。
关键观点5: 极速超拟人交互技术的市场影响与未来可能性。
新技术将激发智能语音市场的迭代发展,提升用户体验,并在多个领域如智能汽车行业、养老和育儿领域、智能终端等带来广泛的应用和新的交互产品可能性。
正文
以ChatGPT为代表的大模型浪潮到来之前,人工智能领域落地最为成功的产品毫无疑问是小爱同学、天猫精灵、Siri……这些名字遍布在手机电脑、汽车座舱、家居家电等各种智能终端之上,成为消费者打开智能体验的魔法咒语。
“咒语”在科技时代的同义词,正是智能语音。传统智能语音技术分为语音识别和语音合成两个模块,声音信号经过语音识别转换为代码,经后台处理后再由语音合成技术输出位文字或声音,各种语音助手、智能音箱采用的正是这项技术。传统语音技术国外代表企业是Nuance,苹果的Siri、三星的语音助手S-Voice背后都是Nuance的技术,国内的代表则是科大讯飞,从普通话考试、语音输入法到带有各种语音互动功能的智能终端,科大讯飞在中文语音技术领域一枝独秀。大模型浪潮到来后技术路径变成了语音转文字、大模型生成回复文本、语音合成三步走,大模型替代了原有的技术后台,包括OpenAI旗下的语音大模型Whisper在内,整体技术路径未有太大变化。
而科大讯飞本次“极速超拟人交互”的推送中提到,该技术“采用统一神经网络直接实现语音到语音端到端建模”,随并未提及具体技术路径的细节,但“端到端”已经说明一切。从特斯拉采用端到端技术方案的FSD捷报频传,到OpenAI 跨文本、视觉和音频端到端地训练了一个新模型GPT-4o,“端到端”已经成为目前人工智能前沿被证实能力更强的技术方案。
“端到端”是将输入直接映射到输出,省略了传统技术中的手工特征提取和复杂的中间处理步骤,应用于智能语音带来的效果就是“超拟人交互技术”呈现的那样:
更快,更流畅,更准确。