专栏名称: 鲸媒体

“入深海谈教育，放眼界做文章”。鲸媒体是一家面向教育产业的专业媒体，由行业、资本、媒体等各领域资深人士创办。面向教育产业的商业化领域，提供基于资本、产品、趋势、动态、模式、思想等方面的深度观察、分析、解读等高质量的原创内容。

考拉阅读赵梓淳：离开华尔街，用AI“掘金”中文分级阅读大蓝海

鲸媒体 · 公众号 · 教育 · 2017-09-06 08:20

正文

请到「今天看啥」查看全文

“当孩子完成每一篇阅读内容之后，系统就会推送一些阅读理解的小测试，孩子可以检测自己对文章的理解程度与阅读水平。”

为了获得更多学生的阅读情况，考拉阅读方面还定义了一套面向中国学生阅读能力的测量表，覆盖一线城市至四线城市，其中有一些比较有意思的数据。“当一个学生的阅读水平达到5.7分时，相当于该学生达到了中国学生五年级第七个月的平均阅读水平。”他继续补充，“如果是一个六年级的学生阅读水平达到5.7分，则说明该学生的阅读水平低于正常发展水平。”

5.7分与上文提到的ER值有何关系？赵梓淳向鲸媒体解释到，“例如学生测出来的阅读能力是780ER，但是很多家长可能很难直观的理解780ER究竟意味着什么。” 他表示，“得益于我们对全国范围内学生进行的阅读能力数据采集，可以得出780ER的阅读能力相当于GE分5.7，也就是五年级第七个月的中国学生的平均阅读能力。这样对于家长和老师来说就比较直观了。” [注：GE（Grade Equivalent）分表示该学生阅读能力相当于某个特定年级学习几个月时的阅读能力，如5.5分表示相当于5年级学习5个月时的阅读能力。]

在走访了很多美国公立学校之后，赵梓淳发现美国的分级阅读体系在学校的应用有一套标准的底层逻辑，它可以测试学生的阅读能力，对阅读情况进行可视化的量化，进而匹配相应的自适应学习方案与内容分发；此外，还可以对学生的阅读情况进行干预与纠正。

而国内的分级阅读还并未在校园里形成气候，他感到十分惊讶，“分级阅读在学校的应用基本上是没有的。” 分级阅读最早来源于出版社，主要以年龄为划分给学生推送相应的书单。一端是未形成气候的国内分级阅读市场，另一端是如火如荼的国外分级阅读市场。

目前，基于英文文本的分级阅读在国外已经形成成熟的体系，分级阅读已覆盖了美国90%的学校。 例如以Lexile分级（蓝思分级）和GE分级为代表的英文分级阅读标准已推行40年，也催生了很多分级阅读教育产品公司，例如Newsela、Renaissance、LightSail等。

看清局面之后，赵梓淳想做一个中国版的Lexile，但国内压根就没有底层的分级标准。“因为美国的新课标规定学生进行大量的阅读，但是中国方面就是要求学生多读经典，多读传统的国学教育。而美国方面就是想让学生建立审辩式的思维，学会怎么去分析内容等。”截然不同的教学目标与要求，分级市场也变得非常微妙。他暗下决心， “分级阅读要进行中国化，才能真正在中国学校里应用起来。”

要做中文版的“Lexile”，从底层算法开始

赵梓淳回忆当时创业的场景，他用“难于上青天”一词向鲸媒体描述了做分级阅读的困难。美国制定分级阅读的质量标准大概花了十年的时间，“相比而言，中文的分级阅读其实要比英语难得多。”他介绍，首先英语的基本组成是二十六个字母，中文最常用的汉字是3600个汉字，中华辞海收入汉字大概8万多个，复杂构成的稀缺性会让中文分析面临一个很大的难题，需要更海量的语料库。 “如果用英文那套传统的方式去处理会很难。”

“分析过程中还会遇到处理分词的技术性难题，”他提到，“英文单词是天然的界限，一个单词接着一个单词排列，但是中文没有一个很明确的界限。”他以享阅教育为例给鲸媒体提了一个疑问，“以‘享阅’为一个词去理解，还是以‘教育’为一个词去理解？” 他认为，人与人之间对分词的认同率只能达到70%。

处理分词为其次，如何进行表征文本难度解析又是一大难题。他提到，英文文本解析主要取决于两个特征：一个是句子词频，词出现频率越高，词的难度就会越低，越常见就越简单；另一个是句子长度，句子越长，相应的句法结构越复杂，其对应的理解难度会越高。