正文
这是一个有点冒险的尝试。
“趟过不少坑”
显然,对于市场份额更大的厂商来说,冒险的成本更大。
一是基于手机的多轮语音交互,识别准确率是个大问题,从硬件方面的麦克风阵列,到手机运算资源消耗的考量,技术挑战不小。
二是用户体验要求高,一旦上线多轮语音交互,内在要求必定是又快又准,一旦识别有误,或交互“弱智”,用户体验就会大打折扣,除了让人骂娘,可能还会客观上助攻竞争对手。
所以把多轮语音交互带入手机地图,多少算是“激进”之举。但对搜狗地图来说,包袱要小得多,转身和尝试可以快得多,即便技术上的坑不少。
搜狗地图总经理孔祥来也承认,在产品立项的半年内,“在技术上趟过不少坑”。
首先是语音识别问题。车载环境,手机终端,应用环境接近远场识别,需要面临降噪、回声、纠错等语音识别方面的技术挑战,而且导航地图需求中,只要一个字、一个词识别不准,都会造成意图错误,用户体验差。
其次是语义理解。车载环境需要尽可能降低眼和手的使用,全靠人机语音对话理解意图,而多轮交互还会对对话模型和引导模型提出高要求。
最后是数据重构,文字输入客观上要求极尽准确,但语音交互却可能语焉不详,单如“首都机场”,就可能面临“航站楼T1、T2、T3”和“出发/到达”等数据的结构关系构建,换而言之是要让机器模型建立起“知识体系”。
而这次新产品的发布,就是搜狗对上述技术挑战交出的答卷。孔祥来告诉量子位,主要有三方面:
一围绕语音识别,针对性做了4000小时车载语音训练,并专门针对POI(兴趣点,包括商家商铺和标志性建筑物等)数据的优化提升语音识别准确率,还要建立语音、语义、地图概率模型,在多个识别结果中做反向挑选,以此作为准确率辅助手段。
二是在最后产品中准备了10万个对话路径,用启发式对话模型,不断细分搜索结果类型,通过对话引导,让机器理解人类的真正意图。
最后则是POI数据的重构,按照现实世界的隶属关系,组成父子、容器、区域从属关系,为语音对话提供相应精准的领域知识,保障播报和上下文理解能力。