中古史荐读｜苏祺、位通：数字人文研究的多模态转向

北京大学中国古代史研究中心 · 公众号 · 历史 · 2025-04-23 10:32

正文

请到「今天看啥」查看全文

语言是人类传递信息最重要的媒介，也是表达文化和认知的核心手段。书面语言的载体形式从早期的甲骨、器铭、简牍等逐步演进到纸张和电子介质，每种载体都承载着不同的文化功能并记录着技术进步。文本模态既包括书面语言，也包括经语音识别转换后的文本等。在数字化项目的推动下，研究者如今可以通过谷歌图书、社交网络和新闻媒体平台获取海量数字文本资源，也可以通过OCR技术将古籍等非电子文本进行数字化。无论是历史、文学还是文化研究，文本已成为人文领域最重要的研究对象。从“细读”一本纸质书籍到“远读”大量数字化文本，数字人文逐渐兴起。在数字人文的框架下，各类数字化项目汇聚的海量文本数据催生了文化组学等基于大数据的文本研究新领域。鉴于人类能够自然地将观察和理解周围环境的能力与自然语言表达能力联系起来，文本模态常被作为连接其他模态的桥梁。知识的交流本质上是多模态的，“所有模态都有潜力平等的贡献意义”，因此多模态研究方法超越了通过语言审视知识的方法，转而关注在知识传递中各模态之间的复杂关联。

作为人类最广泛使用的信息载体之一，图像通过摄影和绘画等形式，以二维的视觉呈现方式承载了丰富的信息与情感。在前文字时代，图像扮演着“以图言说”的重要角色，成为人类记录所见所闻、所知所行、所想所信的基本手段。从史前岩画的质朴描绘到当代社会纷繁复杂的图像资料，图像语言不仅是艺术创作的结晶，也是人类历史与文化的直观见证。在东西方学术研究中，对图像作为历史与文学证据的重视一脉相承。我国自古就有“图像证史”的传统治学理论，如郑樵在《通志·图谱略》中所言：“图，经也；书，纬也；一经一纬，相错而成文”；“古之学者为学有要，置图于左，置书于右，索象于图，索理于书”。在西方，彼得·伯克（Peter Burke）等学者也在其著作中深入阐释了图像作为历史证据的应用与价值。而人文学科中“图像转向”理论的提出，则进一步推动了文化研究从语言学分析向视觉图像领域发展。随着研究的深入，图像文献已成为历史、文学、文化遗产等多个学科领域备受关注的研究对象。图像志研究也逐渐走出美术史的传统边界，发展成为一种跨学科的历史研究方法。同时，文学研究中图像与文本间的复杂关系也引起了学界的广泛关注。正如龙迪勇所言，“语词是一种时间性媒介，图像则是一种空间性媒介”，二者相互交织、相互影响，拓宽了人文材料的时空维度与物态容量。这种以图言说、语图互仿、语图互文的现象，不仅丰富了叙事表现手法，也为理解人类文化提供了更为多元的视角。

在视觉模态的范畴内，除了静态的2D图像，还包括立体的3D图形和动态的视频图像等形式。视频作为一种生动且多维度的多模态信息载体，不仅融合了丰富的视觉元素，还集成了听觉信息，使研究者能够捕捉和分析文化现象的动态过程。在影视研究中，视频数据作为核心资料，为分析叙事结构、影像符号及其社会意义提供了丰富的素材。此外，视频数据在探究社会运动和公众行为方面也具有不可替代的价值。通过对视频内容的编码与分析，可以揭示出文本分析无法捕捉的情感表达和行为细节。20世纪80年代以来，数字3D建模和可视化技术已广泛应用于人文研究，尤其是艺术、建筑史、考古学和文化遗产等领域。基于计算机的数字3D技术作为知识载体、研究工具、学习材料和表现手段，对于维持文化遗产的保护、研究和广泛可及性变得越来越重要。3D建模将文化遗产对象转化为空间、时间和语义的虚拟模型，其创建和可视化基于复杂的社会技术交互过程。在考古与文博领域，3D数据不仅能用于保留物体属性、监测文化遗产状况，还能通过虚拟现实（Virtual Reality, VR）和增强现实（Augmented Reality, AR）技术实现对古代环境的沉浸式体验，在真实性、源保真度以及连接物理和数字空间等方面开辟了新的维度。在艺术史领域，3D建模技术可用于分析雕塑和建筑的空间关系及其历史背景，提供了对物质文化深层次的理解。随着技术的发展，视频和3D等视觉模态数据的利用与分析将在文化场馆（Galleries, Archives, Libraries, and Museums，GLAM）、数字电影等领域发挥重要作用。

声音作为一种重要的文化载体，不仅是人类言语的信息媒介，还涵盖了音乐、环境音等非言语表达形式。录音技术、广播和流媒体的发展使声音的传播和记录成为可能，并由此深刻改变了文化传播与历史记录的方式。查尔斯·伯恩斯坦（Charles Bernstein）主张声音并非随意或次要的元素，而是构成意义的核心组成部分；声音的音调、节奏和音质等因素都能影响信息的传达方式及接收者的理解。即使是文学场域中的声音机能，也能够通过与语言的交织，使我们能够在层叠的含义中捕捉到真实的“在场”体验。乔纳森·斯特恩（Jonathan Sterne）将“声音研究”定义为利用声音探讨当代文化现象、危机和问题的方法。全球各地的档案馆保存着从19世纪至今数百万小时的声音档案，涵盖了从音乐、广播节目到口述历史，从自然环境的现场采集到政治领袖的演讲实录，以及土著社区长者讲述的古老故事等丰富内容。每份档案都是极其宝贵的文化遗产，亟须更多数字工具来支持对其的深入研究与便捷访问。在声音生产、再现和表达技术的背景下，将声音研究与文化研究相结合，可以为数字人文领域开辟新的研究方向。然而，在当前的数字人文学科生态中，研究资源、基础设施及工具的开发主要集中在文本与视觉材料上，对声音研究的相对忽视不仅反映了数学人文学科内部的结构性问题，而且反映了版权限制以及音频资源获取、归档与共享的困难。

二、数字人文与多模态研究

多模态理论为理解数字时代复杂的信息交流形态提供了一个框架。通过剖析不同模态及其相互作用，研究者得以揭示在单一语言视角分析中常被忽视的意义维度。一个对象的研究意义不仅在于单一模态的运用，更在于不同符号模式下多种模态的整合与互动，这正是当前数字人文研究中亟待填补的内容。当我们孤立地看待文本或图像等模态时，与模态组合后所揭示的意义常有显著不同。这表明多模态信息蕴含的知识不仅比单模态更为丰富，而且能衍生出隐性知识。在此背景下，多模态数字人文研究的必要性日益凸显。通过整合多模态数据，研究者能够从更为全面和多维的视角分析复杂的文化现象与社会动态。相比之下，尽管数字人文中常用的单模态研究技术手段如计算机视觉和自然语言处理等已较为成熟，但在处理复杂的跨模态数据时显得力不从心。多模态分析的核心，并非简单地将不同类型的数据组合在一起，而是强调不同模态之间的动态交互及其在意义构建中的协同作用。因此，多模态数字人文的引入促使研究者开发新的算法和技术，在拓宽研究边界的同时，进一步增强其解释力和预测力，以推动数字人文研究的深度发展。

数字人文研究领域的多模态转向反映了学者对传统单模态研究局限性的深刻认识。在数字人文的研究呈现上，多模态数据带来了多维度的呈现方式，使研究者和受众可以从多个角度阐释和理解研究对象。例如，国家图书馆出版社委托北京大学数字人文研究中心设计研发的“《永乐大典》高清影像数据库系统”融合了文本、图像、动画等多种模态，向公众立体呈现了《永乐大典》，生动传递了其蕴含的深厚古籍文化知识；上海博物馆的“董其昌数字人文项目”和“宋徽宗与他的时代数字人文专题”、敦煌博物馆的“数字敦煌”等项目也积极探索多模态档案资源的知识聚合模式，展现了数字人文在文化遗产保护与传承中的独特价值。国际上，“Google Arts & Culture”是一个将全球博物馆和艺术作品数字化的平台，利用多模态展示技术，结合高分辨率图像、文本描述、音频讲解以及视频内容，为用户提供了沉浸式的艺术体验。在对庞贝古城的历史重现中，研究者利用多模态技术，结合3D建模、虚拟现实、文本叙述、音频解说和考古发掘数据，将庞贝古城的历史面貌生动地展示给观众，使观众仿佛穿越时空，亲身漫步于庞贝古城的街道，感受古代罗马的建筑魅力、壁画艺术和日常生活场景。这些成功的项目案例不仅展示了多模态数据在文化遗产数字化呈现中的巨大潜力，也彰显了数字人文研究在促进文化交流、增强公众认知方面的积极作用。