正文
一个月整理了5000多万字的古籍时,
他震惊了:
“我一年能整理几十万字就很了不起了。”
“识典古籍”整合了国内顶尖AI研发团队的开发能力和北京大学深厚的学术积淀。
古籍整理被拆分成许多环节,主要包括文字识别、文字校对、结构整理、标点校对等。
这些环节借助AI,大大节省了人力。
打开“识典古籍”平台,上传一张古籍图片后,光学字符识别(OCR)技术将对图片中的人名、地名、书名、时间和职官,平台可以自动标记。对于OCR不确定的字,会用不同颜色标记出来,便于定位这些文字,然后参照底本修改。在文字精校环节,可以匹配两套不同的文本,在文字校勘环节,可以比较差异、撰写数字校勘记……
“识典古籍”阅读平台网页截图。
北京大学数字人文中心副主任杨浩做过测试,
AI自动标点准确率超90%,翻译古文也达到专家水平。
“古籍标点是一大难点。”刘帅说,如今他遇到疑问,就会去对照“识典古籍”的自动标点——有点像围棋爱好者向AlphaGo学棋。
杨浩说,传统的古籍整理以出版为目的,正确率要求极高,相应门槛也高,即便古籍专业的学生也经常出错,难以独立承担项目。
大部分项目都是一个专家负责一种书,从头做到尾,因此效率很低。
现在有了机器学习,AI在阅读大量人类成果后,对古文具备了相当的“语感”。在“我是‘校书官’”项目中,AI先初步整理古籍,逐字校对,再由大众志愿者来校对,最后把难点提交给专家。
“AI改变了工作流程,分包制度降低了门槛,传统的手工作坊变成流水线工厂了。”
刘帅说。
AI的应用让对古籍感兴趣的人都可以参与进来。“我是‘校书官’”项目依托“识典古籍”平台,由全国22所高校承办,现已有数以万计的学生报名,许多人的专业可能与古籍无关。在去年的“我是‘校书官’”项目中,志愿者按水平被分为大众组和进阶组,前者负责粗校,后者负责精校。
大众组已粗校整理了1643部古籍,进阶组精校整理了共计2451万字。
2024年9月,刘帅也参加了“我是‘校书官’”项目,头一个月初步整理出200万字的古籍,这是过去速度的20倍。
接下来他每天抽出两三个小时,一个月就整理完一部49万字难度颇大的古籍,而且整理质量很高。整个项目3个月,刘帅校点、标注、排版、审阅的书一共191种,总字数达500万以上。