正文
“我们不得不跳出英语思维的框架之外去思考。 我们要训练Alexa了解泰米尔语,印地语,泰卢固语,旁遮普语,马拉雅拉姆语中的专有名词。”Kumar说,他现在在加罗尔工作。
这些问题对印度来说是独一无二的,即使别的国家也有多种方言。
例如,坐落在卡纳塔克邦边上的城市贝尔高姆,它从孔卡尼语、马拉地语和卡纳达语的混合中发展出了自己的语言。距离贝尔高姆386公里的乌杜皮,也是在卡纳塔克邦,那里的人们讲的语言是图鲁语,马拉雅拉姆语和卡纳达语的混合。
硅谷研究公司Constellation Research的首席分析师兼董事长Ray Wang表示:“鉴于印度人口众多,在这个国家分不同洲推出产品可能更好。” “亚马逊在能力上仍然落后于谷歌,但正在快速赶上。(成功)所需要的正是很多用户去测试和学习。”
Puneesh Kumar, Alexa体验与设备在印度的区域经理。
Alexa建立在人工智能和机器学习框架之上,可以在云端不断学习。亚马逊结合了云计算和人工智能的两项开创性技术,并以简单易用的语音作为用户界面入口。
Kumar说:“正是因为它机器学习的背景,因此每一句话都在帮助它学习。
Alexa基于自然语言理解(NLU),意味着基本上它能理解句子和上下文,并将其从文本转换为语音。这些情况因国家而异。在美国和英国,当人们谈论marks时,他们是指划痕。但在印度,marks通常是指成绩和分数。
Alexa也理解印度遵循着以十万和千万为单位的数字系统,而不是百万和十亿。 Alexa必须意识到这一点,Kumar说。它能识别UP(北方邦),MP(中央邦)和CM(首席部长)等缩写词。它也可以识别不同的PIN码。它还囊括了北印度词汇,如haldi,jeera和dhania,这些词不是英语单词,但是是常见的印度语单词。
为印度进行专项训练
准确的说,Echo设备的用户体验(Echo能即时连接到Alexa播放音乐,获取新闻和天气等信息,并使用语音控制智能家居)仍尚在发展中。FactorDaily加罗尔办公室对Echo询问“谁是Anand Murali”,得到了一个不正确的答案,而理想情况下它应该查询上下文,确定我们想问的是谁。 Google语音查询会在搜索结果的顶部显示Anand的LinkedIn(领英)个人资料。
Shonali Muthalaly在《印度教徒报》中写道,“这远非完美。”“Alexa仍在了解印度的过程中,所以当我要求她推荐餐馆、提供交通预测和路线推荐时,她回答的一团糟。”据推测,随着越来越多的印度人使用这个平台,结果会变得更好。
培训Alexa不容易,Kumar承认。亚马逊最初的语料集有限——大约有一万个。这被称为训练数据。Kumar不记得确切的数字了。然后有一种叫做测试数据的,它是无限的,是人类互动和万维网的混合体。
Kumar认为,Alexa尚不完美,所以只邀请了少数人使用。(此前亚马逊在印度当地挑选了一批公司高管和商务人士作为天使用户,将一部分 Echo 音箱赠送给他们试用。)随着越来越多的人进入Echo设备,Alexa将学习更多。“那时机器学习就大显身手了,并且开始识别训练数据中不存在的新东西......随着越来越多的人与设备交谈,语言会扩展。事情现在还不是应该有的样子,随着时间的推移会变得更好。”他说。