2025年11月22日,由中国社会科学院“登峰战略”古代文学优势学科、中国社会科学院文学研究所数字信息室、数字人文与计算批评实验室联合主办的“文学计算批评的未来:数字人文青年实干家论坛”在文学研究所第一会议室成功举办。来自海内外四十多家高校、科研机构的青年学者与资深专家汇聚一堂,围绕文学计算批评的实践路径展开深度研讨,共同探索人工智能时代文学研究的新范式与新未来。此次会议以其前沿的议题、别开生面的形式吸引了130余位院外学者、学生到会学习,可谓盛况空前,从中也足见数字人文的盎然生机与广阔前景。
论坛开幕式由中国社会科学院文学研究所数字信息室、数字人文与计算批评实验室负责人赵薇副研究员主持。


中国社会科学院文学研究所纪委书记、副所长饶望京在致辞中表示,此次盛会既是文学领域数字人文学者的重要集结,更是贯彻落实党的二十届四中全会精神的具体行动。数字人文作为哲学社会科学创新体系的核心构成要素,已成为驱动学科交叉融合、引领青年学者学术成长的关键引擎。他回顾了文学所对数字人文研究的开拓性贡献,从20世纪80年代钱锺书先生推动《全唐诗》计算机检索系统研发,到如今数字信息室向数字人文研究室的转型,文学所始终走在技术前沿。他同时强调,人工智能时代人文学者探索计算方法的根本目的,在于构建能够参与深度思考的学术框架,而非仅仅追求技术能力。文学研究所将积极推进人工智能和文学研究的深度融合,推进学术创新。

会议召集人、中国社会科学院“登峰战略”古代文学优势学科负责人、文学研究所刘宁研究员在引言中指出,数字人文正在深入推动文学研究创新发展,以钱锺书先生为代表的文学所前辈学者,在数字人文领域做出开拓性贡献。古代文学优势学科追求“传承学脉,探索前沿”,一直在以研讨会等形式,努力推进前沿探索所需要的跨学科、跨专业交流。本次会议与数字信息室、数字人文与计算批评实验室联合召开,参会的所内外老师来自不同专业,议题贯穿古今中外,将是一次精彩纷呈的跨专业深度交流。当下的数字人文需要“实践出真知”,期望能在试错与对话中打破壁垒,推动数字人文和计算批评实践向纵深发展。

会议召集人赵薇副研究员在引言中提到,数字人文与计算批评实验室以转型中的数字信息室为依托,在将深度学习技术引入平台建设的同时,也正着力探索一条融文学建模、数据分析与文本细读为一体的计算批评的新路径。在《新青年》创刊110周年之际,我们与真正的青年精神相遇合或许并非偶然,近年来,许多青年数字人文学者在缺乏资源与认可的环境中默默耕耘,扎实推进基础工作,他们在背负压力的同时,更需要将一种压力下的风度展现出来。希望此次会议呈现的是精湛的技艺的过程,是把实操,实践,建模放到历史脉络里去与理论、现实、文本对话的能力,是批评意识灵光一闪的时刻,这恰是共同体存在的意义。

为了更好的展现计算批评领域的丰富样貌,把实践真正向前推进,此次论坛打破学科界限,召集切实投身这一领域的青年学者分享最新的量化成果,同时邀请数字人文的资深学者、活跃的青年理论家、批评家与之对话。论坛共设四场专题报告及圆桌讨论,与会学者围绕文本、影像与情感计算、现当代文学中的计算批评、风格与韵律计量、数字文献与资源建设等前沿议题展开了深入研讨。
第一场:文本、影像与情感计算
论坛第一场由中国社会科学院文学研究所郑永晓研究员主持。发言者不约而同将主题集中于情感计算。

来自香港岭南大学中文系的助理教授马杰(Maciej Kurzynski)做了题为《在心旁边:论中国小说中的共情经济》的报告。他利用词嵌入的向量计算模型追踪明清至当代小说中“内在世界”隐喻的变迁,提出了“心空间”概念,探讨叙事是如何通过语义邻近关系引导读者共情的。重庆大学中文系副教授刘洋分享了《叙事视角与情感投射——基于中国当代科幻小说的情感计算研究》,尝试运用文本标记与情感计算分析261篇中国科幻小说,发现了叙事视角选择中的性别差异,即男性作家更倾向于使用男性角色视角进行叙事,而女性作家则几乎平等地使用男性角色视角和女性角色视角。当作者(无论是男性还是女性)使用与自身性别一致的视角进行叙事时,文本表现出更高的“情感丰富度”和更负面的“情感极性”。中国人民大学文学院副院长陈涛教授在《“数”造崇高:计量电影学视角下红色经典电影中的“英雄牺牲”》报告中,通过分析镜头时长、景别与运镜数据,揭示了红色经典电影是如何通过“化动为静”和人景蒙太奇来构建崇高美学的。华中科技大学外语学院副院长惠海峰教授在《数字人文视阈下英国小说中的情绪识别和文本表征》中,报告了“英国文学情绪分析研究平台”在十八至十九世纪英国小说情绪研究中的可能应用,分析了数百年间英国小说中的情绪流变,展示了针对《鲁滨逊漂流记》的情绪密度的可视化分析。

在评议环节,《数字人文》编委、栏目主持人姜文涛认为马杰的研究尝试在分布式文学、认知科学与叙事学之间建立对话,是一项雄心勃勃的跨学科研究。建议进一步考虑中国文学传统对概念连续性的影响。上海社会科学院朱恬骅助理研究员对刘洋研究设计的思路之明晰表示肯定,建议在性别之外,增加职业、教育背景等维度,建立科幻角色数据库,可将探索引入更深层次。中国社会科学院文学研究所霍艳助理研究员表示,陈涛的量化方法让曾经模糊的审美感觉变得明确,研究中每个步骤和推导过程,显示了可解释性、可操作性,为发掘美学与政治的纠缠互动提供了范例。此外,她还就镜头切分标准等问题展开探讨。在电子科技大学外语学院李泉副教授看来,建立交互式网页,丰富了传统的人文研究只是“从文本到文本,从语言到语言”的论文形式;而全面立体多维度的情感关键词及句子分析,充分体现了数字和人文的融合,他建议惠海峰进一步关注文本中“无情感词汇”但具情感色彩的段落及中西表达差异。

第二场:现当代文学中的计算批评实践
第二场由中国社会科学院文学研究所马克思主义文学理论与文学批评研究室主任刘方喜研究员主持。长期以来,中国现当代文学中的数字人文研究一直尤为稀缺,呈现出理论和口号大于实绩的局面。本次论坛中青年学者的探索打破了僵局。

新加坡国立大学助理教授杜琳的报告《从信息到隐喻:通过数字历史取证方法追踪中国抗战画报的摄影编辑》,揭示了战时宣传体系是如何通过图像再编辑来塑造群众动员叙事的。她利用计算机视觉技术对比《晋察冀画报》的底片与发表版本,揭示了图像裁剪、修饰背后的政治修辞与传播智慧。复旦大学中文系副教授战玉冰在《数字人文研究中的“主观性”与“主体性”》中,反思了自身关于网络文学地名统计的研究误区,并结合民国侦探小说空间分析的成功案例,强调应善于将研究中不可避免的“主观性”转化为批评者的“主体性”。中国社会科学院文学研究所赵薇副研究员分享了《现代汉诗的节奏韵律如何可能?——对两种“新文体”关系的计算批评研究》的工作,她结合实验室建设情况,展示了如何将可解释的模型算法用于区分“新诗”与“散文诗”,再通过对极值文本和误判文本的特征分析,揭示了现代汉诗在散文化和新诗化的张力中寻求平衡的节奏机制。

在评议环节,华东师范大学中文系晨曦学者王今认为“数字历史取证”的新方法,将编辑过程进行了法证化和可计算的分析,对于战时文艺研究极富开创价值。她建议杜琳对比苏联卫国战争的摄影编辑策略,并关注战时与战后语境差异。清华大学人文学院写作中心讲师耿弘明对战玉冰的报告表示认同,并进一步补充,数学模型不仅是辅助,更应与传统考证、细读结合,实现主观解释与客观数据融会贯通。《数字人文》副主编桑海认为赵薇的研究“从反面入手”解决了新诗格律难以正面定义的问题,实现了算法与个体经验、与诗学理论和学术史的深度对话。

第三场:风格、韵律与意象溯源
近年来的古代文学数字人文研究中,对文体风格和声律的计量分析已成热点。由中国社会科学院文学研究所数字信息室助理研究员程宁主持的第三场论坛上,多项研究刷新了过往认知。

新南威尔士大学硕士研究生王子尧开发了基于RAG架构的文本再生检测系统,在这篇题为《计算风格学与文本再生:以〈海藏楼诗〉与〈梦苕庵诗存〉为例》的研究中,他依托该大模型对诗词作者在创作中化用前人诗句的现象进行通盘溯源,不仅揭示了钱仲联诗作化用前人诗句的动机,还述及南社成员受“同光闽派”影响的隐性事实,纠正了文学史对南社“宗唐”与同光体“宗宋”对立的认知偏差。同样是基于相似度计算,北京师范大学文学院副教授诸雨辰的报告《基于文本相似度计算的元明清诗歌的风格传承研究》,利用古汉语语料预训练模型将诗文本转化为语义向量,宏观呈现了元明清诗歌在“唐风”与“宋调”之间的风格演变轨迹。清华大学人文学院博士研究生陆泉宇的《〈全宋词〉“上去通押”计量研究》通过对全宋词押韵情况的周遍考察,分析了宋词上去声独用情况与韵段长度及词调的关联,并对”上去通押”与”浊上变去”语音现象的关系进行了阐释。南开大学文学院讲师郝若辰分享了《古典诗歌风格计量的层级化猜想》,提出了风格计量的三个层级框架,探讨了五七言诗非常规节奏与句法的关系,介绍了与王子尧合作的“击壤AI”平台的相关功能。最后,清华大学人文学院博士研究生宋佳霏做了题为《〈红楼梦〉“芙蓉女儿诔”核心意象群溯源探析》的报告。她利用BERT相似度计算,梳理了“芙蓉”意象与类书知识系统的关联,构建了诔文意象群的知识图谱,认为芙蓉意象与宋代以降诗歌传统一脉相承。

在评议环节,中国社会科学院文学研究所潘静如副研究员肯定了王子尧研究中的主体性,认为不仅问题意识好,算法科学,还在文学史范畴内做出了深切的思考,将既往学者阅读中的朦胧想法进行了细化。《文学评论》编辑部主任刘京臣编审对诸雨辰研究所涉及方法路径的普适性做出肯定,继而认为本次论坛成果可落地、可推广,与“实干家”相匹配,这一称呼当之无愧。中央党校文史部孙羽津副教授认为陆泉宇通过设置基础概率增强了结论说服力,不仅正确推论出“上去通押”问题的结论,还分析了它的背景、原因以及实现的路径,他进一步建议可以结合风格学进行个案研究。北京师范大学文学院古代文学研究所副所长颜子楠副教授对郝若辰的报告提出反思,呼吁关注“言外之意”并回归语言学本体。中国社会科学院文学研究所刘玲华副研究员肯定了宋佳霏的计算批评方法,指出其文中太虚幻境与芙蓉城的闭环设计颇具新意,但将创作灵感单一归因于类书是否妥当,还应结合文本细读做更深层阐释。

第四场:数字文献与资源建设
近年来,数字人文在古典文献研究和资源建设中结出的硕果有目共睹,以此为主题的最后一场发表由中国社会科学院文学研究所文艺理论研究室助理研究员高登科主持。

清华大学计算机系博士后研究员韩玉凤运用模型分析了北宋交往诗主题的群体分布特征,并通过“诗人-交往人-主题”的三元关系映射考证了北宋“新变派”的新成员。北京大学中文系助理教授李林芳分享了《异文的计算方法及其文本研究意义》。团队利用图神经网络(GNN)分析《老子》异文,生成的层级聚类图直观展示了各版本的亲疏关系,为版本源流研究提供了新证据。清华大学人文学院唐宸副教授带来了《AI赋能全球汉籍资源聚合利用的应用实践》,展示了“全球汉籍影像开放集成系统”的建设情况。该系统能够自动监测全球古籍数据,实现了多源异构数据与《中国古籍总目》的智能对齐。中国社会科学院文学研究所助理研究员程宁做了《多源异构网络下的唐诗用典知识库的构建与分析》报告。他构建了包含5.9万节点的唐诗用典知识图谱,以诗人代群的无监督聚类与网络分析,发现了初盛唐与中晚唐用典的显著差异,揭示了中唐部分诗人与盛唐的紧密联系。

在最后一场的评议中,《文学遗产》副主编高晓成副研究员认同韩玉凤关于刘敞的结论,赞许数字手段确实可以发现和解决很多在传统的研究中不能发现、解决的问题,但也需审慎对待技术参数与文学特质的关系。《文学遗产》临时负责人崔瑞萍副研究员肯定了李林芳团队对异文计算的创新,从编辑角度建议明确版本细节、挖掘数据背后的思想史意义。她还指出古汉语复杂现象对算法的挑战,呼吁技术与文学研究深度结合。中国社会科学院文学研究所刘明研究馆员认为唐宸的工作延续了古代文献学“组织和管理知识”的本质,并提出了具体功能建议。以数字人文为基础的数字文献学,与传统文献学产生碰撞,其间的矛盾也将随着数字人文学科的发展得以消解甚至转化为前进的动力。中国社会科学院文学研究所李桃副研究员高度评价程宁的知识库为“宇宙飞船”级别的工具,期待其在不同题材用典偏好上的进一步挖掘。

圆桌讨论与会议总结
论坛最后,实践者和评论家还围绕深度学习带来的解释黑箱问题、数字人文的“能与不能”等问题展开多轮跨学科讨论。刘宁研究员总结了此次论坛的三大特征:新概念密集;启发与困惑并存;发言人思维敏捷,冲击力十足。她感到数字人文的“实践品格”与“行动力量”恰是学科活力的体现。数字人文的先行者、中国社会科学院文学研究所郑永晓研究员认为本次论坛领域跨度极大,覆盖了从先秦至现当代文学、新媒体全时段文学史,且几乎全是文理交叉。不仅如此,本次论坛还富有学术深度,个案研究兼具数据支撑与理论和文本分析,充分体现了“实干家”精神。他对青年学者寄予希望,希冀数字人文研究持续强化自身核心优势,不仅要精准呈现学术结论,更要系统展现逻辑推演与分析论证的完整过程,做到从传统中来并超越传统。


在思想与脑力的激荡中,论坛圆满落幕。一整天精彩纷呈的汇报与交锋,让与会者切实感受到实干精神之可贵。这次盛会不仅清晰呈现了青年学者将文学建模融入传统文学研究的实践成果和深切反思,更为文学计算批评的未来发展明确了方向,对纠偏人工智能时代数字人文的工具主义倾向具有重要的里程碑意义。

供稿人:陈纬宇 刘若楠 王鹭
摄影:许佳璐