正文
之所以SocioVerse算是能模拟这个社会的项目,是因为它确实建构了一个能“以人类社会的方式运行”的社会模型——一个具备时间性、个体性、情境性、互动性与变迁性的系统。这使它不仅能模拟社会行为,还能模拟社会变迁。
在大多数社会学入门课程中,教师总会画一张简单的图:一些点(个体)和连接这些点的线(关系)。但这张图从来没有告诉我们,一个人为什么转发了某条微博、为什么开始焦虑地关注房价,或者,为什么在看到“AI裁员”的新闻时,忽然改变了对技术的态度。
这是人的行为不是在真空中产生的,它总是在事件的时间线上、身份的社会结构中、语境的交互场中发酵。社会,不是一堆人,而是一种信息的共振结构。
这正是SocioVerse的起点:如果我们要模拟社会,就不能只模拟人,还要模拟信息,及其如何穿透人群,塑造情绪,汇聚成共识或撕裂。
于是,他们设计了四个协作的引擎:社会环境引擎、用户引擎、场景引擎、行为引擎。这四者的协作,恰好对应了社会结构中最核心的四个逻辑维度:时间性(事件如何演化)、个体性(谁在被影响)、情境性(在哪种互动中)和互动性(如何相互作用)。
第一步,个体维度:从标签到人格的进化
SocioVerse的用户引擎可能是它最具人类学雄心的部分。他们从Twitter(X)与小红书上采集了超过1000万个真实用户数据,超过7100万条社交发言。然后,用三个最强LLM(GPT-4o、Claude 3.5、Gemini 1.5)给每一个人打标签。
这些标签不光包括我们熟知的人口学标签,比如年龄、性别、种族、地区;在这一层,基本就是传统推荐引擎的极限了。
而LLM的语义理解使得这一系统还可以对用户的政治倾向、消费偏好、价值观打标签。除此之外,他们甚至能对你的人格本身做标记,在实验中,他们应用了Big Five人格模型(开放性、责任心、外向性、宜人性、神经质)对智能体做了分类,甚至连他们做表达的语义风格也可以分类模拟,比如它是偏情绪表达,还是喜欢逻辑分析。这使得这一系统中的模拟人Agent具有了过往系统所完全没有的细腻度和真实性。
完成这一系列打标后,系统会将标签交由人工评审,再训练成分类器,让整个用户库真正变成一个活的社会人群图谱。这些图谱包含:
这使得研究者能精准调用特定人群画像,如“技术乐观的95后程序员”或“对AI持怀疑态度的中年主妇”。
第二步,时空维度:动态演进的社会剧场
如果说社会是一个系统,那它首先是一个时间系统。人们的行为不是在“状态”中生成,而是在“进程”中变化。
为了实现社会的时间性变化,在建立完个人后,SocioVerse还建立了一套
“社会环境引擎”
。
它通过实时抓取新闻事件、政策变动、经济指标等数据,构建持续演化的社会背景。以美国大选模拟为例,系统不仅输入候选人政见,还整合了各州失业率等经济数据、社交媒体话题热度、突发公共事件影响,形成了一部24小时更新的“社会纪录片”。
第三步,场景维度:情境敏感的行为模拟
首先是场景引擎。我们对一个问题的回应,并不是脱离上下文的“意见表达”,而是被放置在某种语境中——餐桌上的谈话和问卷调查、微博发帖和面对面的访谈,是完全不同的体验。
SocioVerse就通过场景引擎,去模拟不同行为发生的“结构性环境”。
比如当它模拟“选举投票行为”时,就会选择匿名系统反馈。当它模拟“社交平台发言”时,要加入“会被谁看到”“评论如何反馈”的社交反馈机制。而当它模拟“用户接受经济调查”时,需要把问题置于是否信任问卷、是否担心隐私等背景因素中。
在“国家经济调查”这一模拟中,系统重建了一个与统计局高度一致的问卷环境——涵盖食品、住房、医疗、交通、教育等八大项,并设置了不同的发放方式和媒介渠道。