专栏名称: 创新工场
搭建创新工场和创业者的沟通交流平台,在这里,您可以学习创业相关的法务、市场、财务、HR等各个业务领域所需的知识干货,还有机会参与到工场举办的创业者培训、沙龙和其他各类活动中。
目录
51好读  ›  专栏  ›  创新工场

李开复:从1983到2017,我的幸运与遗憾

创新工场  · 公众号  · 科技创业  · 2017-08-16 08:00

正文

请到「今天看啥」查看全文



而每个大公司都有自己的 商业需求 ,比如说在语音识别方面,当年做打字机的IBM想做语音打字机,垄断美国电信的AT&T要求贝尔实验室识别电话号码,所以 大公司并没有动力来帮助小公司或学校 。而小公司和学校,往往只有资源做些较小的数据集,结果通常也不如大公司的好。


不仅如此, 数据不标准对AI研究而言是致命的 ,最后导致很多问题,包括:

1、因为测试语料库不同,最后识别结果,大家 无法复制,也无法验证 。彼此不认可,而且因为数据没有打通,算法就更不可能打通了。

2、因为每家做的领域不同,最后的 结果都不可比 。有些领域词汇量小,比较容易,但是做出结果也可能不能通用。有些领域词汇量大,但是约束很多,所以能说的内容不多,导致比较容易识别,也不能通用。

3、因为每家训练集不一样大,而训练集越大,一般结果越好。所以,有可能结果做的好,被认为并 不是靠算法,而是靠数据量大

4、对于学术单位来说,最大的问题来自于 没有足够的资源 (也没有兴趣)收集、清洗、标注大量的语料。对于小公司来说,语料和计算力都是问题。


最后,瑞迪教授计划采用“ 专家系统 ”来完成项目,因为这个方法需要的数据有限。


专家系统是早期人工智能的一个重要分支,你可以把它看作是一类具有专门知识和经验的计算机智能程序系统,一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家才能解决的复杂问题。


但我不认同。


(2)


之前参加过的奥赛罗的人机博弈,让我对 统计概念 有了充分的理解,我对瑞迪教授的研究方法产生动摇。


我相信建立 大型的数据库 ,然后对大的语音数据库进行分类,有可能解决专家系统不能解决的问题。


另外,在1985年,美国标准局 (NationalInstitute of Standards and Technology)也意识到数据不标准会影响科研进步。所以在语音识别问题上,标准局设定了 标准的语音和语言的训练集、测试集 。要求每个学校的每个团队都用同样的训练集来训练模型,可以自己调好系统参数,比赛最后一天大家拿到数据,有一天时间跑出结果,大家评比。


我从这个标准数据集和测试看到机会。


再三思考后,我决定鼓足勇气,向瑞迪教授直接表达我的想法。我对瑞迪说:“我希望转投统计学, 统计学来解决 这个‘不特定语者、大词汇、连续性语音识别’。”



我以为瑞迪会有些失望,没想到他一点都没有生气,他轻轻地问:“那统计方法如何解决这三大问题呢?”


瑞迪教授耐心地听完我激情的回答后,用他那永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信 科学没有绝对的对错 ,我们都是平等的。而且,我更相信 一个有激情的人是可能找到更好的解决方案的 。”







请到「今天看啥」查看全文