论坛现场(一)
3月15日,“数字人文博士论坛”在中国社会科学院文学研究所第一会议室举行。此次论坛由中国社科院文学所数字信息研究室和中国社科院哲学社会科学重点实验室孵化专项“面向文学大数据的数字人文与计算批评”项目组联合主办。来自北京大学、清华大学、浙江大学、武汉大学、中南民族大学、爱尔兰科克大学、美国伊利诺伊大学香槟分校7所国内外高校的在校博士生、博士后共12人参加论坛并发表了各自的论文,文学研究所纪委书记、副所长饶望京致辞,数字信息研究室、马克思主义文学理论与文学批评研究室、民间文学研究室部分学者参与了评议和交流。
文学所副所长饶望京致辞
饶望京在致辞中说,我们召开“数字人文博士论坛”,旨在加强所内学者和各高校的优秀青年学者在这个领域的学术交流,同时也想通过这次活动更好地了解和掌握数字人文领域的研究在青年学者中的新动向,发现优秀的科研人才并争取吸收到我们的科研队伍中来。“数字人文”研究是随着计算机、互联网、人工智能技术的快速发展产生的跨学科方向,习近平总书记去年9月首次提出“新质生产力”的概念,这个新名词也成了刚刚结束的全国两会中的热门词汇,“数字人文”研究正是其中一个很好的范例。它总体上代表了一种先进的研究方法,敏锐发现、充分利用了科学技术的发展,找到了一条与传统研究不同的新路径,把它运用在社会科学和人文研究上,可以实现许多以前靠人力难以完成的新任务,对推动学术研究一定会发挥巨大作用。参会的同学都是这个领域未来的骨干力量,希望大家能把最好的研究成果、最好的研究方法和思路展示出来和大家一起分享,并长期与所内学者保持交流与合作。
论坛分为上下午两个半场举行,分别有6位博士发表了他们的研究论文。
论坛现场(二)
清华大学博士生程宁结合自身研究经历介绍了数字人文应用在古诗文中的诸多案例。涵盖了模型工具的开发使用,人文数据库、知识库的构建以及人文问题的回应与发现三个方面。数字化工具如词法分析系统不仅提高了古籍处理效率,且通过词向量等技术,实现语义相似聚合,为古文处理与分析提供了技术保障。通过构建检索型和分析型数据库,如《红楼梦》标记语料库和唐宋诗歌知识图谱,展现了结合研究需求的人文数据库构建方法。通过数据分析,给出钗黛形象对比、唐诗与《文选》的互文关系以及唐诗虚字使用趋势的三种研究案例,展示了该路径如何为传统文学研究提供新的解读维度、发现未被关注的问题。
爱尔兰科克大学博士候选人肖爽认为近年来深度学习在人文研究中已有不少尝试,也出现了许多令人担忧的问题。深度学习的技术壁垒使得很多人文学者望而却步,她认为,人文学者在这类研究中的主要角色并不是成为出色的程序工程师,更重要的是理解、使用和反思技术的能力。AI伦理问题层出不穷,这并不是计算机科学的研究对象,因此需要人文学者的重点关注,并制定相应的制度和规则。目前机器学习有很多局限性,不仅需要大量数据的支持,且其有效性仅在于发现相似性,而非因果性,这与人类学习有很大区别。为了缓解目前紧张的人机关系,提出一种人机结合的数字人文研究方法,使得人文学科和计算机科学能够独立平等有效地对话与合作,这是数字人文研究的特点,也是数字人文的魅力所在。
伊利诺伊大学香槟分校吴佩臻博士在线参会
美国伊利诺伊大学香槟分校博士候选人吴佩臻结合自己的数字人文项目,分享了她的核心理念:一、关心数字方法在文学领域的可解释性,以及数字方法如何为文学研究提供新的问题和视角;二、聚焦电子化的流行文本(例如同人文和网络文学),探究流行文化对大众的影响;三、关注文本的跨文化影响力,着重探讨数字文本在不同国家传播过程中的文化适应问题。她的代表项目包括通过“远读”方法和描述性词汇分析,探究电影《黑豹》同人小说中的黑人形象塑造;借助计量文体学方法,研究《指环王》的修改历史;以中美网络书评为对象,分析文化作品的跨文化影响等。作为在海外英语系深造的中国学生,吴佩臻以国际化视角讲述了推广中国文化的新路径,为讲好中国故事,推动新文科建设分享了自己独特的解决方案。
北京大学博士生唐雪梅重点介绍了北京大学数字人文研究中心研发的“吾与点智能标注平台”和自己的研究。该平台集成了自动句读、分词、命名实体识别、关系抽取等先进功能,为文学文本的深度分析提供了有力工具。利用该平台的命名实体识别功能,她对《水浒传》和《红楼梦》的文本进行实体标注,然后对文本人工校对。基于这些高质量的标注文本,深入展开了对“奇书文体”的空间叙事计量研究。通过可视化和统计分析方法,探讨了空间在“奇书文体”中的叙事功能,并揭示了空间维度如何体现叙事节奏。评议人赵薇对该研究提出了未来的研究方向建议,未来研究可以通过与非奇书文体的小说进行比较分析,以凸显奇书文体的空间特征;同时,可以进一步探索奇书文体小说在结构方面的特点,以及空间和时间在表现停顿特点时是否有比值上的差异。
武汉大学博士后张亚静的发言针对目前古典戏曲数字人文研究和活化利用缺乏可用数据的现状,介绍了正在建设中的武汉大学文化遗产智能计算实验室的“古典戏曲文本分析与智能再造平台”是如何以戏曲为中心聚合相关技术、数据的。基于平台建设经验,可发现数字人文项目秉承“工程师”分解、实现、量化的思维,因而文学的数字人文研究需转化文本中可被量化要素,借助相关理论、模型,以“艺术家”思维阐释结果。数字人文研究融合两种思维,可取“精读”“远读”之长,在中观角度重审研究对象。
清华大学博士生韩玉凤介绍了构建《全宋诗》社会网络的工作,主要包括作者数据挖掘和诗题人物挖掘两部分。前者涉及数据清理、合并、匹配和消歧等工作,其中,数据消歧又分为数据的内部消歧和外部消歧。内部消歧主要是利用内部元数据来唯一标识诗人,外部消歧主要利用CBDB的现有信息,如宋代进士信息、官职信息、别名信息、籍贯信息等。诗题人物挖掘工作分为两个阶段,首先是从25万多首《全宋诗》中筛选出含有人名的诗题,经过检验,随机抽查的500条剩余数据100%不包括人名,证明该方法有效。最终使用规则如下:一、交往诗歌题目可能出现的115个关键动词,如酬、赠等后至少包含2个字符;二、出现在百家姓姓氏后至少包含1个字符;三、CBDB中全部宋代人物的姓名和别名数据。第二阶段,把上一步筛选后的标题进行提取,采用了有监督和无监督结合的方法。有监督的方法主要是使用CBDB宋代人名和别名词典以及正则表达式,无监督主要以500条人工标引的数据作为训练集训练BERT模型自动提取人名。
论坛现场(三)
北京大学博士后高树伟注意到,近些年,古典文献数字化工作加速,古典文本的数据量正指数型增长,处理大规模文本数据的工具也在迭代更新,这些为重审以往文史研究中颇具争议的重要问题提供了新的环境和视角。他的报告分别以《史记》三家注、《永乐大典》正本下落、《红楼梦》靖藏本辨伪三个研究案例,展示了提出问题、自建数据库、寻找证据、精细论证的研究过程,以说明版本校勘、文献辨伪、人物考据正在经历的变化。他认为文史研究者应充分拥抱新技术,积极投身古籍数字化事业,充分感受资料环境的变化,提出重要问题、规划研究路径、充分调用各类工具解决问题,以重塑文史研究的范式。
清华大学博士后郝若辰
清华大学博士后郝若辰从古典诗学研究的量化转向、预训练诗歌模型的研究应用以及诗歌智能分析系统建设等几个方面介绍了数字人文手段在传统诗学研究领域的探索实践。目前,大数据量化分析在诗歌声律研究中已有较好的表现,完成了一批从永明律到近体诗律再到清人古诗声调理论的验证与澄清,然而在技术逻辑上仍停留于计算人文的基础层面;而诗歌句法方面,基于转换生成理论的句法分析工具应用于古汉语(尤其是诗歌语料)表现尚不理想,如何将现有的基于大语言模型的古汉语分词工具应用于句法分析的优化与提升仍有较大的探索空间。除分词句读之外,诗歌预训练模型能够完成诗风判定与特定风格作品生成等任务。诗风判定有助于裁断诗学史尚无定谳的问题,且有助于新风格的发现。特定风格作品生成近来狂飙突进,基于LLM模型强化学习技术已能精准模拟苏轼、陈三立等顶级诗人的创作风格。
来自中南民族大学的齐晓玉博士发言的重点在如何用数据来描述宋代文学史的图景和历程。依托导师王兆鹏教授国家社会科学基金重大项目《唐宋文学编年系地信息平台建设》,团队研制了宋代诗文词数据库,宋代有诗、词、文作品传世的作者共16775人。从作品量上来看,诗文词中九成左右的作品量,仅由占比一成多的中、高产作者创作得出。其中大量作家还未进入当下研究的视野,有待拓展的空间还很大。从地域分布上来看,全国的诗词文作者分布不均衡,南方占绝对优势,其中浙、闽、赣三省作者占天下之半,这与教育发达的程度密切相关。从时间维度上看,到仁宗庆历年间,文学中心已完全移到北方,同时数据也印证了元祐文学的辉煌和南宋中兴时期文学的“中兴”,从而细化了宋代文学发展进程的认识。
北京大学博士后钱礼翔的论文借助数字人文研究方法,对明代文集数据进行数字化研究。研究集中围绕六个方面:(一)从书籍史角度出发,谁是明代的畅销作家?谁又是被遗忘的大多数?(二)从经济史视角看,明代文集单卷刻印总成本是2.28两银。(三)明代作家与明代诗人地域分布既有区别又有联系。(四)基于量化出版史,文集出版高峰与低谷的特征与原因。(五)文集商业出版大量出现及其畅销书。(六)明代书船分布与文集商业出版分布聚集在太湖流域,形成紧密的关系网络。
浙江大学博士生伏虹晓通过 CHGIS和 QGIS等地理信息系统和定量分析方法,对《全清词》“顺康”“雍乾”两卷中可考籍贯词人进行了数据分析及可视化呈现。发现清代前期为词人“南方性”特征明显,南北词人比例差距悬殊,以江浙为最,然而随着政局稳定,长江中下游地区、环太湖流域、福建、广东的珠江流域等地词坛百花齐放,边远地区词人所占比重有一定上升。文章借助地理分布可视化呈现,考察经济、文教、政治对诗人地域分布的作用,为清词研究提供了一种全局、全知、全貌的研究视角。
中南民族大学郑腾尧博士
中南民族大学博士生郑腾尧的研究运用编年系地理念和时空定位的研究方法,探考苏轼南迁路线的路程、路况,对相关作品做更深入的解读,并对作者创作心态进行微观考察。同时从路线的角度对苏轼其人其作进行关照,综合地理总志、地方志、史书和现代卫星地图定位南行途中作品的创作时地、场景,解决用传统考据方法未能解决的文学问题,对现有认识的偏颇之处进行修正。如苏轼《南康望湖亭》一诗的具体创作地点问题,南下过赣县后是否经过上犹的问题,以及在广州番禺“舣舟泊头镇”的具体时间等。她认为在数字人文视域下,从地理路线的角度切入,为传统文学研究提供了新的思路,并为曾经过此路段的其他作家和诗路提供参照。通过对个案的研究,期望在未来能对宋代驿路有整体的把握,进而在宋代的文学交通方面有所突破。
论坛现场(四)
数字信息研究室高晓成副研究员、刘玲华副研究员、李桃副研究员、马克思主义文学理论与文学批评研究室赵薇助理研究员担任评议与主持。发表结束后,与会者又相互就自己感兴趣的话题作了交流,最后,数字信息研究室负责人高晓成做了会议总结,他指出今天参加论坛的同学来自国内外7所具备学科特长的高校,可以说代表了当下这个研究领域较前沿的水平。12篇论文涵盖了古今中外的诗、词、曲、文、小说、影视、视觉艺术等领域,方法也不尽相同,囊括从基础的检索统计到深度学习、智能分析等越来越强大的功能,全视角、多途径地展示了技术手段在人文科学研究领域所能发挥的作用,通过一整天的深入交流,相信所有与会者都有很大的收获。他同时认为,虽然当下的“数字人文”研究已经展示了对传统研究方法巨大的优势,但也存在一些局限性,例如在通过技术手段对人文领域的材料进行处理的时候,精准性既是它最大的优点,同时带来的绝对化、排他性也会对结论产生限制,所以越是在技术进步的同时,对专业知识的积累也提出了更高要求,因为专业知识会贯穿整个选题、思路、建模、分析等全部研究过程,而且直接决定研究对象的方法与意义。
(数字信息室供稿)