专栏名称: 人工智能与大数据技术
分享大数据、云计算、人工智能等高科技先进技术
目录
相关文章推荐
数据派THU  ·  【ICML2025】通过多智能体反思强化大语 ... ·  昨天  
数据派THU  ·  【斯坦福大学Xiang Lisa ... ·  2 天前  
InfoTech  ·  为什么大家都不去KTV和SPA了? ·  昨天  
人工智能与大数据技术  ·  互联网女皇340页AI报告猛料刷屏 ·  昨天  
51好读  ›  专栏  ›  人工智能与大数据技术

龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译

人工智能与大数据技术  · 公众号  · 大数据  · 2021-03-10 09:36

正文

请到「今天看啥」查看全文



流传至今有数十个版本,少的有五千多字,多的有一亿两千万字。


《乾隆版大藏经》的修订参与官员、学者、高僧等 60 余人,

刻字、刷印和装帧等工匠 860 余人,历时六年完成

(图为《乾隆版大藏经》雕版)


2012 年,龙泉寺就着手整理《大藏经》, 计划用整整十年的时间完成。因为传统方法对古籍的整理主要有版本校对、校勘、标点 ,这些步骤能够保证当代读者,也可以尽可能理解晦涩、生僻的经文。


三年后,龙泉寺整理出版了《南山八大部》;再次年,龙泉寺的藏经办公室成立,旨在探索利用人工智能技术,研发出基于深度学习的单字识别引擎;


2017年,龙泉寺成立人工智能与信息技术中心,研发出能识别各种不同大藏经版本的整列识别引擎,并成功的将《六十华严》的大藏经版本进行电子化。


贤超法师目前担任藏经办公室主任,负责《大藏经》的整理工作。


自动标点:OCR +深度学习


为了降低人们阅读古文典籍的门槛,提高学者的工作效率,在近年来贤超法师团队, 运用了包括深度学习、OCR 在内的技术改变传统《大藏经》的解读方式,目前已经取得了颇为惊艳的效果。


现代汉语中,句号、引号、书名号等常用标点近十种,

古汉语中仅有的句号、顿号,经文中也很少出现,难以阅读


贤超法师介绍道, 所谓自动标点,是指在没有人工干预的前提下,根据算法给古籍文本自动标注现代中文标点的技术, 这主要是为了方便现代读者阅读。


此前,已有人工智能为古文加标点的相关研究,不过贤超法师表示,之前基本只是为古文加句号,他认为这个做法「比较保守,比较学术性」。


而他的团队将深度学习运用到了自动标点上, 可以以更高的准确性,给古文添加句号、逗号、问号、感叹号、冒号、分号和顿号其中标点符号。 经过验证,他们所研发的 Transformer 标注结果,和人类的标注结果「几乎已经无法区分」。


RNN+LSTM+ResNet 效果全面提升


自动标点,在 NLP 领域来说,就是一个简单的序列标注问题。解决这类问题的标准方法,就是使用循环神经网络(RNN)。


为了增强 RNN 的性能,在此基础上又发展出来了双向 RNN,也就是每一时刻的输出不仅仅取决于之前时刻的所有输入,而是同时取决于之前和之后的输入。之后,贤超法师团队又将 LSTM 方法引入。







请到「今天看啥」查看全文