正文
OpenSearch 是阿里云推出的一款云搜索服务,调用 OpenSearch 的用户能够让自己的网站、应用拥有搜索功能。使用这项服务的用户涵盖母婴、诗词、菜谱等五花八门的领域,给司罗团队提供了很好的练兵场,也是试金石。
对于 OpenSearch 上的分词技术,团队提供一套基础算法,并在算法上构建了自适应的模型体系,如金融、社交、新闻等。团队会根据用户网站不同的组织层次需求,为用户挑选最合适的模型,并同时提供产品可视化的配置,用户可以在上面独立配置自己的词表。
除 OpenSearch 外,团队在专有云方面也已经对外服务客户,如通过新闻、用户评价等帮助茅台酒厂进行舆情分析,帮助公安、法院等部门更快地查找备案资料等。
阿里云上 NLP 技术的输出将采用类似 OpenSearch 的模式,但服务类别将有所增加。在「上云」后的第一个阶段,阿里 NLP 提供的服务将包含电商实体识别、情感分析、反垃圾、地址解析四个底层技能点。
服务分几个层次提供,对于已经拥有某些模块的技术,且需要其他模块技术的公司(例如有分词技术但缺乏依存关系技术的互联网公司),阿里云 NLP 将提供技能点级的支持;对于缺乏 NLP 应用级技术的公司,例如反垃圾、情感分析等,阿里云 NLP 提供应用层面的支持;对于需要系统级解决方案,例如搜索、推荐系统的客户,阿里云 NLP 也有对应的服务模式。
值得一提的是,iDST NLP 的团队刚刚获得了 IJCNLP(国际联合 NLP 大会)语法纠错评测第一名的成绩。司罗认为这是对阿里 NLP 技术的一次有力证明。因为语法纠错任务涉及到很多自然语言的基础技术,如分词、句法分析、词法分析、依存关系以及语义分析等,对团队的综合技术实力是一次考验。
司罗
司罗认为,自然语言处理是实现强人工智能的非常重要的一环,而且重要性会越来越显现。「感知层面的事情越来越成熟了,认知层面也得跟上了。」他说。
但在他看来,认知层面的事情依然路漫漫其修远兮。他很爱举的一个例子是,你问一个聊天机器人「喜欢吃辣吗?」它可能会说「辣的那么恶心,我才不喜欢。」你接着问它「你喜欢吃四川菜吗?」它可能又回答你「四川菜是我的最爱!」
目前聊天机器人绝大部分是数据驱动,司罗认为要实现真正的语义理解还需要 5-10 年的跨越。「语义理解这回事儿现在学界都还不 OK 呢。」他说。另外现在的 NLP 技术鲁棒性不够,对于新闻语料来说效果不错,但对于日常对话,效果就很差。