正文
(二)词语关系与话语结构
如何测量话语?目前主流的话语研究方法主要是对实际文本进行定性分析:基于少量话语,依赖研究者的主观介入,采用自上而下的方法,在全文及语境下进行细致、深入的分析(Biber et al., 1998)。但传统话语分析模式存在一定的局限,包括分析范围小、主观解释存在偏见、微观分析难以支持宏观社会视角、研究结果不可重复等问题(Biber et al., 1998;辛志英,2020)。换言之,基于质性研究的话语分析方法固然有其优势,但并不擅长利用文本大数据客观地从宏观层面把握整体社会结构及其变迁趋势。
除了定性话语分析之外,近年来语料库话语分析迅速发展(Kennedy,2014)。语料库话语分析将词汇作为研究的中心,通过基于词汇的量化统计找到术语之间的统计相关性,常用的方法包括语义编码、词频分析、词语共现和搭配模式分析等。通过大批量、标准化的数据分析模式,语料库话语分析能够帮助揭示直觉难以察觉的模式和规律,减少研究者的主观偏见(McEnery & Hardie,2012)。但限于时代和技术发展,这样来测量话语结构依然存在局限:词频、词语共现和搭配的统计只能揭示语言使用的表面模式,难以捕捉深层次的语义关系;通过人工语义标注的方法(如标注词语意义、近反义词关系、上下位词关系)只能覆盖有限的词汇和短语,难以面向随时间变化的词语意义和话语结构。
计算社会科学的发展为量化分析话语提供了新的可能性。根据语言学的理论,一个词的含义由它所处的上下文语境来决定;两个词的使用语境越相似,也就越倾向于表达相同的含义(Harris,1954)。因此,词汇的意义和功能可以通过它们在语言中的分布模式来推算,如果两个词在类似的上下文中频繁出现,它们很可能有相似的意义和功能。这一分布式语义假设成为目前自然语言处理的基础理论之一,即机器学习可以通过分析大量文本数据学习每个词在各种上下文中出现的模式,然后使用这些模式来表示词的语义。分布式语义分析能够基于海量数据并根据词语之间的分布关系来“自下而上”地自动学习词汇的含义,处理随着时间变化而新出现的词汇和话语结构,反映语言的变化。
(三)测量社会结构的方法框架
在以上两个前提的基础上,测量社会结构的基本思路是:基于文本大数据,通过词语之间的关系和词表设定发现关于特定对象或话题的普遍表述模式,进而通过对话语结构的测量反映社会结构。这具体可以细分为以下五大步骤。
一是收集文本大数据。文本大数据是反映社会结构的一手资料,大数据的选择关系到测量何种形式的话语以及社会结构。需要注意不同类型的文本反映了不同对象或者场域的话语结构,比如政府文件反映官方话语,新闻报道反映媒体话语,书籍小说反映大众话语,消费广告反映商业话语等。研究者可以收集不同类型的大数据进行互相验证,也可以比较不同叙事主体的话语差异。另外,收集不同时期的大数据能够分析社会结构的历时性变迁;收集不同地域的资料如地方志、跨国书籍等,能够对不同区域的社会结构进行横向比较。
二是训练自然语言模型。借助机器学习算法,研究者可以依据文本中词和词之间的关系,自下而上地将词语转化为能够表征词汇意义的向量和指标。这些向量和指标反映了语料中最普遍的用语模式,即话语结构。研究者可以根据分析目标选择不同的模型:如果侧重于进行多语料类型、跨时期、多空间的比较分析,则推荐直接基于不同属性的子语料分别训练模型;如果分析侧重于描述人类最普遍的话语结构,则推荐使用生成式大语言模型等已经基于超大规模语料预训练好的模型,以提供“整体事实”的视角来反映人类的普遍观念(梁玉成,2024)。
三是制定社会结构的测量策略。社会结构表现为方方面面,研究者需要针对具体的研究议题制定具体的指标测量策略。首先,研究者应该明确分析的对象,如职业、性别、国家、组织、亚群体、概念等,构建分析对象词表。其次研究者应该明确分析的维度,构建分析维度词表,也即需要对研究对象的哪些方面进行测量。最后,研究者需要确定社会结构指标的计算方式。指标的操作化过程比较灵活,一般来说,可以先计算分析对象词汇与不同分析维度词汇之间的空间距离,将分析对象投射在对应的分析维度上,再根据需要进行更灵活和细致的计算分析。
研究者如何构建分析对象和分析维度的词表?一方面可以查阅词典,或使用既有研究编撰的特定领域词表。另一方面也可以采用数据驱动的方法,根据训练好的词向量寻找同义词,或者通过人工排查所有词表的方式来完成。需要注意的是,如果要对基于不同语料训练的多个模型开展比较性分析,应尽量先在同一个模型内部生成指标的标准化值,再进行跨模型比较。
四是验证分析有效性。为保证对社会结构指标测量的效度,研究者需要验证分析的有效性。在理想情况下,如果有社会调查数据,可以直接对调查数据和基于文本大数据测量的社会结构指标进行比照;但使用文本方法测量社会结构的情况大多是因为社会调查数据缺失,这时可以采用局部验证整体的思路,对能够与问卷数据相匹配的部分年份、部分维度指标进行比照,进而推定整体模型。当完全缺乏社会调查数据时,可以选择多来源的文本大数据,进行多重交叉验证。
五是描述社会结构。研究者使用验证过的分析策略生成社会结构的具体操作化指标,对社会结构进行描述,呈现研究对象在不同维度下的现状、在不同时期的变迁趋势以及在不同区域下的结构性差异。同时,研究者可以将该指标与其他社会宏观指标进行链接,以便进一步探讨社会结构的影响机制。使用文本大数据测量社会结构的方法框架见图1。
事实上,已有一批研究运用类似方法对多个议题进行了测量。例如,科兹洛夫斯基(Austin C. Kozlowski)等人提出文化几何学,量化了阶级与财富、就业、教育、修养等维度的关系和历史变化趋势,以此来理解阶级在不同历史阶段的含义(Kozlowski et al., 2019);加格(Nikhil Garg)等运用类似的方法对100年来英语文化中的性别和种族观念进行了量化(Garg et al., 2018)。在此基础上,本文聚焦于这些研究通用的方法论价值,探讨使用文本大数据和语义分析测量社会结构的可能性、优势和局限。
三、职业地位的文本大数据测量:中国案例
社会结构含义宽泛,可以细化为地位结构、人口结构、家庭结构、组织结构、城乡结构、消费结构等(陆学艺,2010;李培林,2011;刘欣、田丰,2018)。由于职业地位常常被社会学家用来测量社会结构分化的程度和形态分布,同时20世纪80年代涌现了一大批关于中国职业地位的调查研究,这为验证方法有效性提供了参照标准,因此本文将以“职业地位”为例详细演示如何使用上述方法框架对大历史跨度下的职业地位及其结构变迁进行测量。
(一)职业地位的传统测量方法
职业声望是人们对各种职业做出的主观评价,是最早和最广泛使用的测量职业地位的指标之一。测量职业声望一般采用主观评价法,即借助社会调查获取访问者对一些职业的评分,对职业进行打分、分级或者排序(高顺文,2005)。在中国,关于职业地位测量的研究绝大多数采用主观评价法(Lin & Xie,1988;李强,2000;许欣欣,2000,2005;李强、刘海洋,2009)。主观评价法的测量方式简单直接,且能够捕获更广泛的社会文化因素和价值观念。但由于数据收集方式的限制,这种方法只能测量少部分职业,因而也难以描述和分析整个职业地位的分层体系(李春玲,2005a)。不止于此,职业声望也并不总是与收入、教育等职业属性相关(Hauser & Warren,1997)。
另一种常用的测量方法是以社会经济地位指数为代表的客观测量方法,其基本思路是依据教育、收入等客观指标,通过拟合模型和权重分配等方法,建立职业地位分数的方程模型。典型的研究是邓肯(Otis Dudley Duncan)基于职业收入和教育程度来计算社会经济地位指数(Duncan,1961);在中国,边燕杰、李春玲等学者也基于收入、教育等因素构建了职业地位评价得分(Bian,1996;李春玲,2005a)。相比于主观测量法,客观测量法能依赖少量职业对大量甚至全部职业的地位指数进行计算和推测,且同时考虑职业相关的多个维度;但其缺点在于十分依赖权重和测量维度的科学设定,同时容易忽略文化价值观念等难以量化的非经济因素。
不论是主观还是客观测量,测量职业地位事实上都绕不开一个关键问题,即职业地位包含哪些维度。社会学先驱韦伯最先提出社会地位三分法:由财产占有不同产生的经济地位差别,由权力占有而产生的政治地位差别,以及由社会评价和荣誉占有不同而产生的社会地位差别(韦伯,2010)。布迪厄的文化资本理论认为经济资本、文化资本和社会资本共同决定了一个人的社会地位,并将文化资本进一步纳入社会地位的分析维度(Bourdieu,2018)。同时,赖特(2006)特别强调了专业技术与劳动过程的关系,认为专业技能不仅影响个体的职业地位,也决定了劳动者在生产体系中的阶级属性。这些研究表明,职业地位的测量并非仅仅包含一个单一指标,而是包含着内涵丰富的子维度。