专栏名称: 瞭望智库
2015年底,新华社获批为党中央、国务院、中央军委直属的首批10家国家高端智库试点之一。瞭望作为新华社国家高端智库的公共政策研究中心,是国家高端智库建设的重要组成部分。公共政策研究中心与先期成立的瞭望智库一体化运作。
目录
相关文章推荐
瞭望智库  ·  俄乌再次回到谈判桌,飞出数只“黑天鹅” ·  14 小时前  
学习大国  ·  放权基层不是甩手基层 ·  4 天前  
半月谈  ·  樊振东加盟德甲联赛,本人发声 ·  2 天前  
51好读  ›  专栏  ›  瞭望智库

300年才能完成的事,它出手了!

瞭望智库  · 公众号  · 政治  · 2025-05-14 12:10

正文

请到「今天看啥」查看全文


一个月整理了5000多万字的古籍时, 他震惊了: “我一年能整理几十万字就很了不起了。”


“识典古籍”整合了国内顶尖AI研发团队的开发能力和北京大学深厚的学术积淀。 古籍整理被拆分成许多环节,主要包括文字识别、文字校对、结构整理、标点校对等。 这些环节借助AI,大大节省了人力。

打开“识典古籍”平台,上传一张古籍图片后,光学字符识别(OCR)技术将对图片中的人名、地名、书名、时间和职官,平台可以自动标记。对于OCR不确定的字,会用不同颜色标记出来,便于定位这些文字,然后参照底本修改。在文字精校环节,可以匹配两套不同的文本,在文字校勘环节,可以比较差异、撰写数字校勘记……

GetAttachment.png “识典古籍”阅读平台网页截图。

北京大学数字人文中心副主任杨浩做过测试, AI自动标点准确率超90%,翻译古文也达到专家水平。 “古籍标点是一大难点。”刘帅说,如今他遇到疑问,就会去对照“识典古籍”的自动标点——有点像围棋爱好者向AlphaGo学棋。

杨浩说,传统的古籍整理以出版为目的,正确率要求极高,相应门槛也高,即便古籍专业的学生也经常出错,难以独立承担项目。 大部分项目都是一个专家负责一种书,从头做到尾,因此效率很低。

现在有了机器学习,AI在阅读大量人类成果后,对古文具备了相当的“语感”。在“我是‘校书官’”项目中,AI先初步整理古籍,逐字校对,再由大众志愿者来校对,最后把难点提交给专家。 “AI改变了工作流程,分包制度降低了门槛,传统的手工作坊变成流水线工厂了。” 刘帅说。

AI的应用让对古籍感兴趣的人都可以参与进来。“我是‘校书官’”项目依托“识典古籍”平台,由全国22所高校承办,现已有数以万计的学生报名,许多人的专业可能与古籍无关。在去年的“我是‘校书官’”项目中,志愿者按水平被分为大众组和进阶组,前者负责粗校,后者负责精校。 大众组已粗校整理了1643部古籍,进阶组精校整理了共计2451万字。

2024年9月,刘帅也参加了“我是‘校书官’”项目,头一个月初步整理出200万字的古籍,这是过去速度的20倍。 接下来他每天抽出两三个小时,一个月就整理完一部49万字难度颇大的古籍,而且整理质量很高。整个项目3个月,刘帅校点、标注、排版、审阅的书一共191种,总字数达500万以上。

2
辨识“庐山真面目”,正确率节节攀升







请到「今天看啥」查看全文