首页 > 科学研究 > 学术成果 > 古代文学
数字人文视域下《文选》与唐诗的互文空间
内容提要:古人云:“唐人佳句,多本六朝。”其中,尤以《文选》对唐诗创作的影响最为广泛。语言痕迹是考察这种影响的最直接线索,但因缺乏大规模相似诗例和史料支撑,前人在讨论唐人诗句与《文选》的关系时往往局限于某几位诗人作品零散的举证。今以《文选》和《全唐诗》为研究对象,使用基于语义特征的相似度算法分析它们之间的互文关系,构建互文知识库,探讨以李杜为代表的唐代诗人在诗歌创作过程中引用前人诗句的具体表现。从两个文本集的互文网络中挖掘和分析中国古典诗歌经典话题的组织结构和流动脉络,发现《文选》中美颂君王、状物写景、悲泪伤怀等诸多话题在唐诗中得到充分延续和发展。

 

词:《文选》/唐诗/相似度/互文网络


 

   由南朝梁萧统所编的《文选》与唐代诗歌之间存在大量的文本互涉现象。以杜诗为例,近代学者李审言的《杜诗证选》,①以笺注形式梳理来自《文选》的诗句,发现《文选》对杜甫的诗歌创作有多方面影响。学术界也有诸多考察杜诗与专书之关系的著作,其中金启华的《广〈杜诗证选〉》《杜诗证经》《杜诗证史》《杜诗证子》一系列文章②胪列了大量杜诗对前代典籍的化用诗例。基于阅读经验或人工方式分析文本相似性,极易疏漏且受主观因素影响。近年来,自然语言处理技术发展迅猛,尤其是文本的向量化语义表示③层面取得了突破性的进展,利用新技术来挖掘这种文本关联现象并构建起互文知识库,不仅可以为作家作品的重出、语典注释、接受史、文化史等研究提供大量的、客观的数据支撑,还能从更宏观的视角去探究庞杂互文现象背后的文学审美传统。

   一、《文选》对唐人诗歌创作的影响

   《文选》在有唐一代地位重要,影响巨大,主要体现在两个方面,一是围绕《文选》本身所展开的学术研究蓬勃发展,二是《文选》被唐人普遍地学习和借鉴。穆克宏在其论著④中对这两个方面有简要的阐述。本文所讨论的主要是《文选》影响的第二个层面。傅刚注意到《文选》的流传对唐代其他总集、别集造成的冲击,唐代类书如《艺文类聚》在援引文句时直接称“文选曰”,而不再称引其他别集。⑤相对其他别集,唐代文人更将《文选》作为学习的第一范本。这也可以在唐代诗人所创作的具体诗文中找到明证,如杜甫《水阁朝霁奉简严云安》“呼婢取酒壶,续儿诵文选”,又《宗武生日》“熟精文选理,休觅彩衣轻”,再如白居易《偶以拙诗数首寄呈裴少尹侍郎》“毛诗三百篇后得,文选六十卷中无”等诗例,均体现出《文选》在指引唐人学习和创作上的重要地位。另外要说明的是,“文选学”所产出并流行的各种注释版本,如《文选》李善注、五臣注等,为《文选》的大规模普及和唐人的广泛学习提供了有利条件,再加上唐代“诗赋取士”多以《文选》诗句入题,极大加剧了唐人学习《文选》的热情。

   唐人学习《文选》,最直接的表现便是引用,包括对《文选》辞章的蹈袭、摹拟、仿效和化用等。诗句承袭是中国古典诗话的重要论题,唐代皎然在《诗式》中针对诗歌间的相似关系提出“偷语、偷意、偷势”三偷说,⑥宋代黄庭坚等人主张“点铁成金”“夺胎换骨”“无一字无来处”等。从西方文本理论出发,诗句之间的引用可归置为互文性的表现。互文性是中国古典诗歌最突出的文本特征,也是古典诗歌作品最普遍的现象。⑦在中国古典诗话、笔记尤其是宋明时期的很多著述中,经常可以见到将具有相似关系的诗作整合一处进行评鉴的做法,只是举证相对零散而不成体系。如宋代吴曾在其笔记中专列沿袭之门类,收录唐宋诗沿袭之作百余例,该门类下首条列了韩愈学习李白的具体诗例,“韩退之鸿沟诗云:真成一掷赌乾坤。盖用李太白诗:天地赌一掷,未能忘战争”,⑧其后诸例皆是此种模式,只是更换了不同的诗人和诗句。宋代还产生了诸如《选诗句图》这样的著作,其基本体例是取《文选》诗某联,下列与该联相似诗例,以说明其“宋袭晋,齐沿宋,凡此诸人,互相宪述”⑨的观点。

   前人很早就注意到了唐人诗歌创作多引用《文选》的现象。王士禛《带经堂诗话》“唐人佳句,多本六朝,昔人拈出甚多”。⑩代表着唐代诗歌最高成就的李白和杜甫,他们的知识结构同样蕴含着诸多《文选》元素,甚至有“唐人诗皆自选出,改一二字便为己作,即李杜亦然”(11)这样的说法。古今诗论家关于李杜学习《文选》的评述不一而足。《酉阳杂俎》记载“白前后三拟《文选》不如意,悉焚之,唯留《恨》《别赋》”,(12)周勋初从《酉阳杂俎》这段记载出发,深入考察了李白在赋、乐府与古诗领域仿拟《文选》的诸多迹象,用实例说明其在诗歌创作上与前人的继承与发展关系。(13)《升庵诗话》“古乐府云:春风复多情,吹我罗裳开。李反其意云:春风复无情,吹我梦魂散。古人谓李诗出自乐府古选,信矣”。(14)古乐府和李白的这两句诗均被宋代郭茂倩所辑的《乐府诗集》收录,尽管乐府句并未收入《文选》,不过从杨慎所举具体诗例确可管中窥豹,“非学可至”(15)的太白在诗歌创作上实则离不开前代诗歌丰富的材料供给。无独有偶,“转益多师”的杜甫情况更是如此,《岁寒堂诗话》有“《文选》中求议论而无,求奇丽之文则多矣。子美不独教子,其作诗乃自《文选》中来,大抵宏丽语也”。(16)《升庵诗话》卷十三《学选诗》条目下列一则,“李太白终始学选诗。杜子美好者亦是效选诗,后渐放手,初年甚精细,晚年横逸不可当”。(17)不仅仅局限于《文选》原文的学习和借鉴,今有学者注意到杜甫对《文选》的注解同样多有吸收,杜甫读书期间李善注和五臣注本均已通行于世,谢思炜通过分析杜诗出自《文选》注的若干用词,说明了杜甫与李善注和五臣注的关系。(18)

   诗话中唐人引用文选的相关论述多局限于零散的例举与泛评,李审言的《杜诗证选》及后来金启华的《广〈杜诗证选〉》将研究聚焦到了专人专书,将零散例举变为集中发掘,扩大了考察规模,尽管有些例证现在看来似不合理,但这种近于量化研究的草创之功很值得肯定。随着文献数字化与信息检索技术的介入,当今很多研究者继续沿该路径进行了更宽领域的开拓。林英德以初唐四杰、李白、杜甫和韩愈为代表来说明《文选》对唐人诗歌创作的影响,并补充了李审言所未涉及的“李诗证选”的内容。(19)刘鹏从历时的角度以文本细读和关键词检索比对的方式考察了初盛唐一众诗人对《文选》的具体借鉴情况。(20)同样是考察初盛唐诗人对《文选》的接受,叶黛莹纳入了前代别集进行受容比较,选取《文选》中的十位诗人与初盛唐十四位诗人的现存诗作进行相似句比对,论证了《文选》在初盛唐诗人受容前代各诗人的过程中所起到的不同程度的影响。(21)这些研究逐渐从唐人借鉴《文选》诗句的分析分化出了唐人对特定前代诗人接受的探讨。

   诗论家常以“学”来概括唐人与《文选》的关系,通过观察前人研究的诸多例证可以发现,这里的“学”字多作“模仿”来解,对此,也有学者提出了不同看法。近代诗人钱振锽指出,“朱子谓太白、少陵皆学《选》,所以好。于何见之?《选》亦有汉魏、齐梁之不同,不知李杜所学何《选》也……舍良知良能不道,而强以一‘学’字概古人,古人笑而不受矣”。(22)钱所强调的是,字句间的相仿并非为“学”,“学”实乃博文多见之谓,李杜通过博览群书来启发才力心思方为学之首要。

   这里引发了本文所关注的问题,即唐人在诗歌创作中引用《文选》的现象不仅普遍存在,而且引用行为所构成的相似关系非常复杂。它在一些情况下可以解释特定诗人之间的借鉴与模仿,而在另一些情况下则表现为更大范围内集体创作上的相似。相似诗例通常可作为唐人受容某位或某几位前代诗人的前置线索,这种接受史的取证方法在前人研究中得到诸多运用。需注意的是,分析点对点的单人单例或可使用“某人学某人”的形式来加以刻画,但是如果从更宏观的视角看,很多诗句间的相似现象其内在的生成机制与其说是对特定某人的学习,不如说是对某一审美传统的继承和发展。

   《文选》典句不断被引用、摹仿与点化,便会织筑起极丰富的互文空间,相互指涉的文本之间建构起互文关系,使得不同时代、不同作家的诗歌作品产生大量的文本聚类,并共同编织成群簇大小不一的互文网络,这一互文网络所呈现出的不同群簇,引出了唐诗继承自前代诗歌的审美趣味和热点话题。下文将结合所构建的互文库以及网络分析与可视化的方法进行阐述。

   二、文本挖掘与互文发现

   为了充分考察唐人对《文选》的引用情况,本文利用计算机文本处理技术构建起了《文选》与唐诗整体的互文数据库。互文库的构建过程主要包括四个部分,一是搜集整理电子化的《文选》(23)和唐诗(24)的基础数据。为便于后续分析,笔者对原始文本进行了数据清洗和预处理,删除了无关信息,统一了编码格式。二是对数据进行结构化解析与自动分句。《文选》沿袭分体编纂的传统,按体裁分为赋、诗等三十八大类,赋、诗两类比重最大,赋按题材分为“京都”“效祀”等十五小类,诗分“补亡”“述德”等二十三小类。各门类之下列作者名字,作者之下是题目与诗文。通过编写程序将这些不同层次的分类信息自动化解析,在具体诗文下面采用正则表达式切分出分句,将每一个分句系联到相对应的分类中去。通过这一步骤,将《文选》文本数据转化为包含独立诗句的结构化数据集,处理结果示例如表1所示。唐诗数据同样采用这种方式进行处理,最终得到文选分句5万,唐诗分句52万。

  

   三是《文选》和唐诗的互文计算与挖掘。文本之间的互文性,可以粗略归纳为广义互文和狭义互文,广义互文范围较宽,依靠文本之外多方面的联想和阐发,狭义互文则更关注语言形式等修辞层面的有迹可循。热拉尔·热奈特(Gérard Genette)从狭义的视角出发重新解读了朱莉娅·克里斯特娃(Julia Kristeva)所提出的“文本间性”也就是互文性的概念。他指出两个或若干个文本之间的互见关系,从本相上最经常地表现为一个文本在另一个文本中的实际出现,互文性最明显并且最忠实的表现形式,为传统的“引用”实践,其次为秘而不宣的借鉴。(25)

   焦亚东指出,互文性源自文本之间细微的语言叠合痕迹,精细的语言分析是互文性得以建构的根本原因。(26)从自然语言处理技术的角度出发,语言符号层面的互文现象完全可以借助文本相似度计算的方法进行挖掘。除了以往使用全文检索、关键词匹配的方式来人工筛查相似句之外,目前业界发布了很多文本复用检测工具用来辅助互文性研究,如CText(中国哲学书电子化计划)发布的文本复用检测工具、(27)Michael Radich等人开发的TACL、(28)以及近年康森杰等人发布的TextPAIR查看器(29)等。通过总结前人开发的工具,发现主要技术选型为N-gram(30)字串匹配,这种方式可以用来挖掘不同文章或者段落用字相同的局部字串,也就是能够挖掘出热奈特所说的传统的直接引用,而不能胜任那些改变字面语词却表达相同意思的“秘而不宣的借鉴”。

   “技术的发展正让基于语义特征的文本比对成为可能”。(31)为了同时能够挖掘字面不同而语义相关的互文现象,笔者采用了基于深度学习技术的预训练语言模型来进行处理,Devlin等人于2018年提出并开源了Bert语言模型,(32)该模型采用双向Transformer(33)编码器来捕获当前字的上下文语境信息。清华大学人工智能研究院自然语言处理与社会人文计算研究中心基于Bert语言模型在90余万首中国古典诗词数据上进行微调实验,训练并开放了为中国古典诗词“量身定做”的预训练模型BERT-CCPoem。(34)利用该模型能够得到每个诗句512维的向量表示,(35)接着可以采用夹角余弦公式进一步计算出向量之间的距离,距离的大小便可以代表语义是否相关。笔者通过具体实验验证了这种处理方式的有效性,并将其作为古典诗歌互文计算的标准方法,通过编写计算机程序将《文选》5万句与唐诗52万句进行一一比照,最终计算出每个句对的相似度值。现列举几处李白诗和《文选》的计算结果(表2)来说明该模型相对于字串匹配的优势。

  

   对比以上所举各例可以发现字串匹配方法所得到的相似度值极低,低值通常在后续的处理中会被筛除,而Bert语言模型下的相似度值均在0.9以上(相似度取值范围缩放到0到1的区间)。通过观察这些诗例,发现李白句和对应的《文选》句确实有着较强的相似关系,需要强调的是,相似性并不等同于溯源论,不能说李白的“矫翼思凌空”(《赠任城卢主簿》)一定出自《文选》所收郭景纯的“逸翮思拂霄”(《游仙诗七首》),尽管这可以通过搜集其他材料加以佐证,但笔者研究重点并不是考证性的诗句溯源,而是以《文选》作为介质,考察诗句相似群体的表现。与“逸翮思拂霄”产生语义系联的唐人诗句还有很多,且多发生在酬赠、赠别等场合,如常建的“逸翮望绝霄”(《赠三侍御》)、高适的“举翮凌青冥”(《奉酬北海李太守丈人夏日平阴亭》)、“逸翰怀青霄”(《睢阳酬别畅大判官》)、岑参的“逸翮凌云霓”(《虢州郡斋南池幽兴因与阎二侍御道别》)等等。

   互文库构建的最后一部分是对计算结果进行筛查和存储。经检视计算结果,分句在五言及以上且余弦相似度阈值大于0.9的关系对在语义关联上具有较高的置信度,笔者将这部分数据作为进一步的考察对象,最后筛选出的相似关系总条目数为1万,涉及《文选》408个诗文题(存在一题多篇)共3655句,《全唐诗》6547首作品共8211句。需要说明的是,将相似度阈值设定在0.9是比较严格的,实际上一些阈值处于0.9以下的诗例在阅读经验上也具备相似关系,比如,杜甫的“落霞沉绿绮”(《大历三年春白帝城放船出瞿塘峡久居夔府将适江陵漂泊有诗凡四十韵》)与谢玄晖的“余霞散成绮”(《晚登三山还望京邑一首》)相似度值为0.88,仇兆鳌《杜诗详注》便是用谢朓的这一句来注解杜诗。(37)之所以取0.9以上的数据,一是提取的结果相对严谨和客观,二是对于从整体上讨论唐人创作与《文选》的关系已经足够说明问题。

   前文已经提到,李白和杜甫两位诗人都对《文选》有着丰富的借鉴,互文库中杜甫诗借鉴文选的有325句,涉及其233首作品,李白诗有474句,涉及其319首作品,根据二人现存的诗作数量进行推断,可以发现李白比杜甫更喜引用前人佳句。李白诗歌往往给人一种天分超然的感觉,而在这里则体现出了其深耕学力的一面。

   李白和杜甫在引用前人诗句的创作实践中有着不同的处理方式和态度。南宋朱熹指出“李、杜、韩、柳初亦皆学《选》诗者,然杜、韩变多,柳、李变少”,(38)从所提取的互文数据来看,朱熹的这种说法是比较客观的。将互文库的相似度值由高到低排序并计算不同区间范围内的分布情况可以发现,李白个性豪放不羁,在引用时变化相对较少,引用痕迹较为明显,与前人诗句整体上相似度较高,相似度值在0.95以上的存在50处,而杜甫讲求融会贯通,引用较为隐秘,整体上与前人诗句相似度较低,相似度值在0.95以上的存在18处。另外,李白的作品存在很多不修边幅直引他人成句的诗例,在互文库中这些关系对的相似度值均为1,比如“相思无终极”(《博平郑太守自庐山千里相寻入江夏北市门见访却之武陵立马赠别》),此句同时在《文选》所收曹子建的《赠白马王彪一首》中出现。这种直引成句的现象在李白作品中多达11处,而在杜甫作品中仅存在2处,分别是“而无车马喧”(《赠蜀僧闾丘师兄》),同现于《文选》所收陶渊明的《杂诗二首》;“各在天一涯”(《送高三十五书记》),同现于《文选》所收的《古诗十九首》。

   从《文选》的分类体系来看,李杜引用《文选》的主要涉猎范围集中在诗、赋两个门类,同时也涵盖了少量的表、书、论等文体的内容。图1展示了二人引用次数大于1的文类分布情况。

  

   1 李杜引用《文选》的文类分布情况

   《文选》赋下有15子类,诗下有23子类,观察图1可以发现,李杜所引涉及赋体的有哀伤、纪行、京都、鸟兽、畋猎、音乐6项,涉及诗体的有哀伤、行旅、游仙、赠答等16项。从整体上来看二人所引诗句在不同文体中的分布是比较趋同的,这种趋同性从《文选》所收作家的角度来考察同样存在,图2展示了李杜二人所引频次大于5的《文选》作家(39)的分布情况,为了更清晰地进行比较,此处引入了《文选》所收作家的文句数量作为辅助参照,并将三组数据标准化(40)处理到固定取值范围以降低量纲不同所带来的影响。

  

   2 李杜引《文选》所收作家的分布情况

   可以发现李杜二人对不同作家的引用具有趋同性。李白所引最多的前五位分别是:陆士衡、曹子建、谢灵运、古诗十九首、江文通,杜甫所引最多的前五位分别是:陆士衡、曹子建、古诗十九首、谢灵运、鲍明远,《文选》所收作家的文句最多的前五位分别是:陆士衡、潘安仁、张平子、曹子建、左太冲。李杜所引前人的这种趋同性一方面是受到了《文选》所收作家的文句数量多少的影响,比如陆机文句最多(5字以上的文句超2000句),李杜对其引用也最多。另一方面则是李杜二人在整体上对前人作品有着相似的审美趣味与接受取向,这一方面与《文选》所收前人的作品总量关系不大,比如,观察图2三组数据值的高低分布可以发现,《古诗十九首》在《文选》中篇幅并不占优势,而李杜二人均对其有着极高的引用(实际数据中,李白有27处,杜甫有22处),再如,阮籍作品在《文选》中仅有200多句,而李杜二人对其引用均超过了10处,诸如此类的作家还有鲍照、谢灵运、谢朓,这些在《文选》所收数量不多而在李杜诗歌中引用较多的诗人往往更能体现其对李杜的深厚影响。

   关于李白、杜甫与这几位诗人的承继关系,前人研究多有涉及,这些诗人的凸显体现出李杜诗学与六朝诗歌关系之紧密性。裴斐剖析了李白与魏晋六朝诗歌的渊源,指出李白的天然与清真,不是源出《诗经》、汉诗,而是渊出魏晋六朝诗,李白从魏晋六朝受到的影响比任何其他唐代诗人都多。(41)吴怀东探讨了杜甫与六朝诗歌的关系,并在其论著中分专题阐述了杜甫对谢灵运、鲍照、谢朓等诗人在思想、艺术、语言等多个方面的集成与超越。(42)由于《文选》并未涵盖所有前人别集,故上述图表不能展现所有李杜借鉴前人的情况,如,陶渊明对李杜影响较大,而《文选》收录陶诗数量太少,这种影响在图中未能很好地体现。若扩大语料规模,将前人存世诗作全部囊括在内,或可窥探李杜对具体诗人的继承情况,不过这样就导向了特定诗人的影响与接受研究,而本文更加关注的是唐诗与以《文选》为代表的唐前诗歌整体的互动场域,接下来笔者将对这部分内容展开论述。

   三、网络结构下的群体记忆

   采用网络分析方法,将互文库中唐诗诗句作为始发节点,选诗诗句作为目标节点,相似关系作为节点之间的边,构建起《文选》与唐诗之间的互文网络,这一网络结构包括11866个节点和10451条边,在总体上不连通且高度离散化。这里所构建的互文网络是以诗句为单位而不是以整首诗为单位,正如宇文所安所说的“有必要从‘诗歌材料’(poetic material)入手,把任何一个特定的文本都视为共享的材料库存之一小部分的具体实现,而不是独立的‘创作’”。“这个共享的诗歌材料库由可以被用不同方式实现的联系松散的话题和程序句组成”。(43)从零散的诗句出发进行重新组织网络结构,在一定程度上弱化了其所属诗人和作品的独立性,而更加关注从诗句互联中所体现出的某种话题流动。

   通过观察该网络结构中节点的连线情况不难发现,根据始发节点和目标节点的类型不同,节点与节点之间的关系构成基本可以区分为四种形态:第一种是一对一的关系,即唐诗某句仅与《文选》中的某一个诗句相似,如李白的“寸心于此足”(《春滞沅湘有怀山中》)与《文选》所收沈休文的“寸心于此足”(《钟山诗应西阳王教一首》)构成点对点单线连接,除此别无他例;第二种是一对多的关系,即唐诗某句与《文选》多句相似,如李白的“怅然若有失”(《闻丹丘子于城北山营石门幽居中有高凤遗迹仆离群远怀亦有栖遁之志因叙旧以寄之》)与《文选》所收江文通的“恍然若有失”(《杂体诗三十首》)、谢灵运的“怅焉若有失”(《拟魏太子邺中集诗八首》)具有相似关系;第三种是多对一的关系,即唐诗多句与《文选》中的某一个诗句相似,如李白的“池草暗生春”(《宫中行乐词八首其五》)、“梦得池塘生春草”(《赠从弟南平太守之遥二首》)、“应得池塘生春草”(《送舍弟》)都与《文选》所收谢灵运的“池塘生春草”(《登池上楼一首》)具有相似关系;第四种为多对多的关系,即唐诗多句与《文选》多句相似,如李白的“连峰郁嵯峨”(《五松山送殷淑》)、“边烽列嵯峨”(《乐府三十八首·发白马》)与文选所收陆士衡的“崇山郁嵯峨”(《乐府十七首·从军行》)、潘安仁的“崇芒郁嵯峨”(《河阳县作二首》)都存在着相似关系。

   上述四种模式组合构成了网络中大小不一的连通分量,(44)由于互文网络中诗句与诗句之间是一种语言上的相似关系,因此每一个分量都可以近似看作是一个独立的话题。经统计,连通分量总数有2720处,其中一对一的关系构成了网络中的孤立点对,总计有1521处,占总分量数的56%,因为孤立点对没有其他的支线相连,彼此连接关系就变得更为紧密,这对于进一步明确具体的仿拟对象是有利的。图3以李白诗和杜甫诗为例展示了孤立点对在该网络结构中的表现形态。

  

   3 孤立点对在互文网络中的表现形态

   除了孤立点对,其余的分量均表现为多句系联的结构组合,复杂的系联结构并不适用于考察某诗句受容于具体某位诗人,而更适用于从整体上把握相似群体所组成的话题网络。网络中相似的诗句可看作是对某一话题的不同实现方式,这里的话题是在相对精细的范围内来谈的,一首完整的诗歌作品尽管在总体上可以归类为某一主要题材,但在其内部可以同时存在多个话题,话题与话题的组合可以构成一首诗歌中更大的主题。图谱中较大的连通分量在网络中意味着有较多的节点和较复杂的系联关系,在内容上则意味着某一话题被众人不断地重复而表现出某种文学创作的“群体记忆”。

   为了进一步探索唐诗延续了以《文选》为代表的前代诗歌中的哪些热点话题,本研究提取了网络中最大的前十位连通分量进行分析。图4展示了包含这十个分量的概览图,该图利用Gephi网络分析工具(45)进行呈现,图中共包含有1602个节点和2409条边,节点标签和字体的大小表示节点入度(46)的大小,通过社区发现算法区分出这十个话题网络并采用不同的颜色进行标示。

  

   4 前十位连通分量概览图

   观察图4,可以发现网络中最大的巨型分量是以“美颂君王”为代表话题的语义系联结构,这一结果显著昭示了中国古典诗歌在政治教化上的重要向度。为了更清晰的展示这一部分数据,笔者将该分量单独拎出,保留其核心节点重新进行可视化如图5所示。

  

   5 “美颂君王”话题的核心网络

   中国古典诗歌有着历史悠久的美颂传统,尤其是歌颂帝王的话题,其表现上并不局限于固定的文体和题材,而是成为浮动的诗歌材料普遍渗透到文人各式的创作实践中。图5中“皇圣昭天德”(颜延年《和谢监灵运一首》)、“今主上圣德钦明”(钟士季《檄蜀文一首》)、“昭圣德之符”(刘效标《辩命论一首并序》)等诗句集中体现了这一话题模式。《文选》所收文类称为“颂”的一共有五篇,“颂”本《诗经》诗体之一,特点是“美盛德之形容,以其成功告于神明者也”,(47)此五篇内容不乏歌功颂德之辞,但图中《文选》所收诗例的数量明显超出了这一范围,经统计,该话题模式在《文选》中存在130余处,在诗、赋、表、书、论、檄等各个文体分类下均有涉及。葛晓音曾指出,西晋时期诗教说在统治阶级文艺观中占主导地位,其内涵发生了由汉代美刺并重转为以颂美为主的突变。(48)从“美颂君王”的话题以及其延展的方向可以看出萧统在编选《文选》时,其思想很多承袭了传统的儒家准则,这也可在《文选》序中窥见端倪:“若夫姬公之籍,孔父之书,与日月俱悬,鬼神争奥,孝敬之准式,人伦之师友”,(49)萧统较为重视诗文的政治教化及其社会功用,其所选之赋如京都、畋猎等很多题材都直接反映了帝王活动,其内容也大多反映歌颂君王的丰功伟业或者讽喻规劝其仁政爱民。

   另一方面,“美颂君王”话题的凸显是《文选》与唐诗两个历史文本交互作用所产生的结果。该话题在《文选》中是热点,在有唐一代诗歌文本中仍然得到了延续,这其中也包括了李白和杜甫的部分诗作,比如杜甫的“皇天德泽降”(《雨》)、李白的“先君怀圣德”(《谒老君庙》)等。尽管唐诗在创作内容与题材上相对前代诗歌更加开放和自由,但尊卑有序的社会秩序和王权崇拜的思想在唐代文人创作实践中仍多有反映。

   需要指出的是,该话题在唐代诗歌中并不是稳定存在的,而是处于动态消长的变化之中。唐诗有初盛中晚之分,依《全唐诗》的编纂体例,三十卷之前为歌辞,其中所收的郊庙歌辞等多有歌功颂德之语,这部分不在下面的讨论范围之内,从卷三〇开始到高力士之前的卷七三一,《全唐诗》大致遵循时间次序编排唐初至唐末三百年间的诗人作品,这部分诗歌作品可以相对明确地进行分期划分。通过统计出这一范围内的初盛中晚各自的诗歌数量,然后计算出“美颂君王”的话题在不同分期阶段下平均每千首的出现次数,可以得到该话题随时间的动态演变过程。图6展示了这一结果。

  

   6 “美颂君王”话题数量的分布

   从这一结果可以看出,这类话题在初唐时期大量出现,并随着历史变迁呈现出逐渐消退的趋势,到了晚唐时期这类话题已经消失殆尽了。造成这种现象的原因很值得思考,从历史变迁的影响出发,初唐政局初稳,君王需要充分发挥诗歌的政治教化之作用,晚唐王朝颓势尽显,文人对政局信心溃散,笔下的帝王意象即使出现也不再是歌颂伟绩之言辞。从诗人群体与创作转向来看,唐始文人群体多在宫廷,诗文多有恭维君王之作,之后群体发生变化,非士大夫阶层的文人开始涌现,文人在整体创作上更加强调个性解放和追求真实心理写照,在审美观念上并受儒、释、道多种思想熏染,在歌咏题材上不断开拓与创新,这些都不同程度地削弱了“美颂君王”话题的文本表现。

   除了“美颂君王”的巨型分量,图4中其他群簇按照分量大小依次可以概括出如下话题:萋萋之草、沾衣之泪、通玄之理、皎皎之月、翱翔之翼、萧萧之木、朔寒之风、凄怆之悲、泠泠之水、巍巍之山。关于“通玄之理”,两晋时期,玄学逐渐盛行,言理的玄言诗在诗坛长期占据主流,很多文人即使不主言理文章,也不免受其影响,从“通神悟灵”的角度来观察各种事物,反映在具体的诗文创作过程中常伴有玄理之言,如《文选》所收成公子安的《啸赋》,在描述啸歌的吹奏特点及奇妙作用时便出现了“玄妙足以通神悟灵”“研道德之玄奥”等句。这种精理通神的话题不断发展延续,并衍生出各种说事明理的诗文创作,在有唐一代诗歌中展现了绵延不绝的生命力。

   “通玄之理”之外的其他话题总体上可以归纳为两类,第一类为自然景物的描绘,第二类为悲痛情绪的表达。与强调文学的政治教化与社会功用不同,这些话题体现了文学史中写景与抒情的一面,这也是中国古典诗歌最具张力而历久弥新的一面。话题所涉及的《文选》中的作者多来自魏晋南北朝时期,鲁迅先生曾指出“曹丕的一个时代可说是‘文学的自觉时代’”,(50)整个魏晋南北朝时期涌现了大量的文学理论与文学批评的相关著作,如曹丕的《典论·论文》、陆机的《文赋》、刘勰的《文心雕龙》、钟嵘的《诗品》,这促成了文学逐渐摆脱经学附庸而趋向独立,新思潮影响下的文学创作由重视政治教化转向关注个人生活的情感体验。孙康宜在分析六朝诗歌特点时提到“诗人对其自我在外部世界中的定位或再定位,引发了诗歌创作的一个新拓展:在视觉残像的一端,站着一个个性化了的对于感情的‘抒发’,而在另一端,站着一个触目可见的对于自然现象的‘描写’”,(51)萧统一方面继承了儒家所提倡的文之教化的传统,在编选《文选》时收录了不少“正统”之篇章,另一方面又积极关注自身所处时代在文学上的新变,收录了众多描绘自然风光、富含生活趣味与个人情感的优秀作品。以“萋萋之草”为例,保留核心节点可视化如图7所示。

  

   7 “萋萋之草”话题的核心网络

   唐诗与《文选》互动最多的景物描绘便是“萋萋之草”,这一话题网络中,唐人诗句指向最多的是谢灵运的“萋萋春草繁”(《石门新营所住四面高山回溪石濑修竹茂林诗一首》),“萋萋春草繁”从字面上看显示了草木繁盛之气象,内在则象征了事物旺盛的生命力。李善注此句祖述于《楚辞·招隐士》的“春草生兮萋萋”,(52)该句同时也被《文选》收录。从《楚辞·招隐士》的“春草生兮萋萋”到谢灵运的“萋萋春草繁”再到李白的“春色偏萋萋”(《晓晴》)等唐代诗人群体的大量引用,显示了这一话题是如何从产生并逐渐建构起古典诗歌传统的连续过程。值得一提的是,在这一话题网中,有《古诗十九首》的“秋草萋已绿”句,关于此句的解读历来存在不少争议,且逐渐走上了两个极端,多数笺注家从“萋”通“凄”(53)的角度来说明此句是在表达摇落肃杀之景,也有个别学者提出此句是在表达初秋草木未衰之意。(54)尽管“萋萋”“凄凄”确有互通的用法,用“凄凄”之意来渲染秋草之景象似乎更符合传统审美,但从整个话题网络来看,绝大多数的“萋”都是在表达草木之繁盛,并且话题网络中同样存在用“繁盛”之意来形容秋草景象的其他诗例,比如杜甫的“秋草萋更碧”(《遣兴五首其一》)。无论杜甫此句是否祖述《古诗十九首》,在杜甫的第一视角下,秋天的草本可以是碧绿而茂盛的,这也从侧面说明《古诗十九首》“秋草萋已绿”的“萋”未必一定作“凄”解。

   中国古典诗歌一个重要的向度便是“缘情”,其所缘之情,在《文选》与唐诗的互文网络中更多的表现为悲伤之情。图4中表达悲伤情绪的话题有两处,分别是“沾衣之泪”和“凄怆之悲”,抽取核心节点可视化如图8所示。

  

   8 “沾衣之泪”和“凄怆之悲”话题的核心网络

   8中的话题来自《文选》的诗例有50余处,来自唐诗的诗例多达130余处。在早期诗歌中,忧伤和泪水的话题不断被引用并逐渐演变为“程序句”固定出现在一首诗的尾联,以《古诗十九首》的“泪下沾裳衣”和阮籍的“凄怆伤我心”(《咏怀诗十七首》)为代表的情感抒发手法,在唐代诗人群体中得到充分地复用与发展。

   每首诗均有其所伤之物,或是哀民生多艰,或是叹岁月流逝,亦或是感相思之苦等,不同场景所引发的悲伤情感反映在语言符号上会有相同的呈现,“泪沾衣”和“伤我心”便是抒发悲伤情感所通用的两种形态模式。以李白和杜甫为例,李白诗句存在多处“伤我心”的表达模式,如“凄然伤我情”(《对酒忆贺监二首其二》)、“恻然为我悲”(《天马歌》)、“使我心魂凄”(《登黄山凌歊台送族弟溧阳尉济充泛舟赴华阴》)等;而杜甫诗句则存在多处“泪沾衣”的表达模式,如“涕泪溅我裳”(《贻华阳柳少府》)、“忍泪已沾衣”(《九日诸人集于林》)、“初闻涕泪满衣裳”(《闻官军收河南河北》)等。同样是悲情描述,李杜二人撷取前人不同的诗歌材料,体现出他们在创作意图和风格上的差异。相对于“泪沾衣”的含蓄表达,李白倾向于使用第一人称来更为直接地表现内心的感受,其奔放、率真、质朴的风格,在白话式的诗语中得到充分展现。李白崇尚旧体,多作古诗、乐府及歌行,上述诸例所属整诗均系古体,而杜甫则兼收并蓄,既用早期诗歌材料作古体诗,又积极将其融入到新体律绝的诗歌创作中。

   哀伤与泪水的悲情书写在中国古典诗歌中具有独特的艺术审美价值,古诗中率真、朴实的抒情方式往往会引起人们的情感共鸣,而当它作为诗歌材料库中的话题句被不断引用时,便会逐渐树立起经典地位。这种经典地位的形成,不仅是因为这类诗句具有较高的艺术价值和审美意蕴,更是因为它能够准确地捕捉到人类内心深处共通的情感体验,使得诗歌跨越时空的界限,成为一种普遍的心灵寄托。另一方面,随着某一话题经典地位的确立,后世创作再对其进行引用时容易陷入形式化抒情的窠臼,这也反过来促使唐代诗人在继承经典的基础上积极谋求新变,从而继续扩充和丰富了整个中国古典诗歌抒情传统的内涵和外延。

   四、余论

   《文选》集萃了先秦至南北朝时期的文学精华,为唐代诗人提供了丰富的创作灵感和借鉴资源。它对唐代诗歌的影响深远且显著,我们研究唐诗不仅需要关注诗人的个性特点和风格,更要探究这一重要源泉在唐诗中的具体体现与延续。应用于《文选》与《全唐诗》的互文关系自动发现的方法是自然语言处理技术介入古典文学研究的一次积极尝试。从量化的视角来分析诗歌的互文现象,在一定程度上避免了以往通过零散举例所得出结论的片面性,并进一步拓宽了研究视野,从更宏观的视角把握唐人在创作过程中如何借鉴并发扬古典诗歌的文学传统。

   本文通过网络分析及可视化的方法提取并讨论了唐诗与《文选》主要的互动关系,《文选》中有关诗教、说理、描写、抒情的诸多话题在唐诗中得到充分的继承和延续。这种互动关系组成一个丰富多样的互文空间,诗人们通过话题引用来传递共同的审美价值和情感共鸣。从这种跨时代的互文网络中,我们可以看到中国古典诗歌在历史发展过程中的连续性和变革性,以及不同时期诗人在创作中对历史、文化和审美价值的重新思考。

   除了《文选》本身,唐人同样有诗出自《文选》注的,如李白《月夜江行寄崔员外宗之》“徒悲蕙草歇”和《秋思》“空悲蕙草摧”,与李善注“空令蕙草残”(55)有着较强的呼应关系。实际上,除了《文选》及《文选》注之外,唐代诗歌与其他经史子集各部,同样有着较为密切的关联。未来研究可以继续扩大文献考察的范围,从文学史的角度出发,将更大规模的古籍文本纳入起来,在更大数据的意义上揭示唐诗与前代作品之间的相互影响和互文关系,从而更为系统地了解文学传统在历史长河中的传承与创新。不过这不仅需要大量结构化数据的支撑,还需要文本处理技术的迭代更新,目前所采用的文本比对技术尽管已经优于字符串匹配的方法,不过同样存在其局限性,一是模型的整体性能、处理效率以及对未登录字的识别需要进一步优化,二是模型尚不能捕捉诸如唐代皎然所提出的“偷势”这种边界不太明晰而颇具主观性的相似关系,未来可针对文本表示技术做进一步的调整和改进,使其更好地助力于古典诗学领域的探索与研究。

   注释:

   ①李详:《杜诗证选》,见《李审言文集》,江苏:江苏古籍出版社,1989年,第69页。

   ②金启华:《杜甫诗论丛》,上海:上海古籍出版社,1985年,第254、245、249页。

   ③文本向量化又称为“词向量模型”“向量空间模型”,将文本表示成计算机可识别的实数向量,根据颗粒度不同,可将文本特征表示分为字、词、句子等层次。文本向量化经历了从离散表示方法到分布式表示方法的过程,分布式表示方法可以表示词句间语义的相关程度或类比关系。

   ④穆克宏:《〈昭明文选〉研究》,北京:人民文学出版社,1998年,第154页。

   ⑤傅刚:《〈文选〉的流传及影响》,见氏著:《汉魏六朝文学与文献论稿》,北京:商务印书馆,2016年,第371页。

   ⑥何文焕辑:《历代诗话》,北京:中华书局,2004年,第34页。

   ⑦蒋寅:《拟与避:古典诗歌文本的互文性问题》,《文史哲》2012年第1期。

   ⑧吴曾:《能改斋漫录》卷八,北京:中华书局,1960年,第206页。

   ⑨高似孙集:《选诗句图》,北京:中华书局,1985年,第1页。

   ⑩王士禛:《带经堂诗话》卷一五,北京:人民文学出版社,2006年,第400页。

   (11)骆鸿凯:《文选学》源流第三,北京:知识产权出版社,2012年,第93页。

   (12)段成式撰,许逸民注评:《酉阳杂俎》前集卷一二,北京:学苑出版社,2001年,第172页。

   (13)周勋初:《李白“三拟〈文选〉”说阐微》,《郑州大学学报》2006年第1期。

   (14)杨慎:《升庵诗话》卷二,见丁福保辑:《历代诗话续编》,北京:中华书局,1983年,第660页。

   (15)胡应麟:《诗薮》,上海:上海古籍出版社,1979年,第190页。

   (16)张戒:《岁寒堂诗话》卷上,见丁福保辑:《历代诗话续编》,第456页。

   (17)杨慎:《升庵诗话》卷一三,见丁福保辑:《历代诗话续编》,第899页。

   (18)谢思炜:《杜诗与〈文选〉注》,《文学遗产》2013年第4期。

   (19)林英德:《〈文选〉与唐人诗歌创作》,北京:知识产权出版社,2013年,第291页。

   (20)刘鹏:《〈昭明文选〉与初盛唐诗歌》,中国社会科学院研究生院博士论文,2010年,第328页。

   (21)叶黛莹:《从阅读到创作的诗学历程——论初盛唐诗人对〈文选〉的接受》,武汉大学博士论文,2011年,第36页。

   (22)钱振锽:《谪星说诗》卷一,见张寅彭主编:《民国诗话丛编》二,上海:上海书店出版社,2002年,第577页。

   (23)《文选》的基础研究数据源自中华书局三全本电子版《文选》(全六册),张启成等译注,2019年。

   (24)唐诗的基础研究数据源自北京大学数据分析研究中心发布的《全唐诗分析系统》,收录了包括《全唐诗》《全唐诗补逸》等在内的50000余首唐人作品,具体可参见中国国家图书馆官网所开放的外购资源库。

   (25)热拉尔·热奈特:《隐迹稿本》,见《热奈特论文集》,史忠义译,天津:百花文艺出版社,2001年,第69页。

   (26)焦亚东:《中国古典诗歌的互文性研究》,上海:上海三联书店,2018年,第34页。

   (27)Donald Sturgeon,Digital Approaches to Text Reuse in the Early Chinese Corpus,Journal of Chinese Literature and Culture,Volume 5,Issue 2,2018.

   (28)TACL专为CBETA(中华电子佛典协会)的文本而设计,经过修改后,也可用于其他文本。相关说明见https://dazangthings.nz/tacl-guide/。

   (29)康森杰、克洛维斯·格莱斯顿:《TextPAIR查看器(TPV):用于探索文本对齐和文本复用网络的交互式可视化工具包》,《数字人文》2022年第1期。

   (30)N-gram指由n个连续的词或字符组成的序列。

   (31)诸雨辰:《自然语言处理与古代文学研究》,《文学遗产》2022年第6期。

   (32)Devlin,Jacob,et al.Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding,arXiv preprint,arXiv:1810.04805,2018.

   (33)Vaswani,Ashish,et al.Attention Is all You Need,Advances in Neural Information Processing Systems,No.30,2017.

   (34)GitHub开源地址:https://github.com/THUNLP-AIPoet/BERT-CCPoem。

   (35)在自然语言处理领域,词向量(word vectors)或词嵌入(word embeddings)是一种常见的向量表示方法,它将词汇映射到高维向量空间中,使得相似或相关的词在空间中的距离较近。这种表示方法有助于捕捉词汇之间的语义关系,并在各种自然语言处理任务中取得了显著的效果。

   (36)编辑距离也称为Levenshtein距离,是一种用于比较两个序列(通常是两个字符串)之间的相似性的指标,具体是指将一个字符串通过插入、删除、替换转换成另一个字符串所需的最少操作次数,它被广泛地应用于计算机科学、自然语言处理、生物信息学等领域。

   (37)仇兆鳌注:《杜诗详注》卷二一,北京:中华书局,1979年,第1869页。

   (38)朱熹:《晦庵先生朱文公文集》卷八四,见朱杰人、严佐之、刘永翔主编:《朱子全书》,上海:上海古籍出版社、合肥:安徽教育出版社,2002年,第3968页。

   (39)《古诗十九首》最早见于《文选》,由于作者姓名失考,萧统将其编为一组,以“古诗十九首”命名,这里遵循《文选》的结构,将其视作一类作家进行处理。

   (40)标准化又称归一化,是一种数学方法,常用于将具有不同量纲(数值范围不同)的指标,按照一定的比例,将其转化为无量纲的数值,以便于不同单位或量级的指标能够进行比较和加权。标准化可以消除指标之间的量纲和数量级差异,减少指标权重的偏差,提高指标数据的可比性和可靠性。在数据分析、统计学、机器学习等领域中广泛应用。此处采用的标准化方法为min-max标准化,将原始数据减去最小值,再除以最大值与最小值之差,使得数据值保持在0到1之间。

   (41)裴斐:《李白与魏晋六朝诗人》,见马鞍山市李白研究会编:《中日李白研究论文集》,北京:中国展望出版社,1986年,第191页。

   (42)吴怀东:《杜甫与六朝诗歌关系研究》,合肥:安徽教育出版社,2002年,第112-194页。

   (43)宇文所安:《中国早期古典诗歌的生成》,胡秋蕾等译,田晓菲校,北京:三联书店,2014年,第16、83页。

   (44)连通分量(Connected Components)是一个网络分析的概念,它是指网络中的一组节点,这些节点之间都有一条或多条路径相连。也即从任意一个节点出发,都可以通过网络中的路径到达同一组内的其他节点。由于所创建的网络是有向图,笔者在计算连通分量时忽略了边的方向。

   (45)Gephi是一款开源免费跨平台基于JVM的复杂网络分析与可视化软件,它支持多种可视化效果,例如节点大小、颜色、标签、边的宽度、颜色等,可以帮助用户更好地展示网络数据。

   (46)入度是图论算法中重要的概念之一,它指的是有向图中某点作为图中边的终点的次数之和。

   (47)卜商:《毛诗序》,见萧统编,李善注:《文选》卷四五,上海:上海古籍出版社,1986年,第2030页。

   (48)葛晓音:《汉唐文学的嬗变》,北京:北京大学出版社,1990年,第23页。

   (49)萧统:《文选序》,见萧统编,李善注:《文选》,第2页。

   (50)鲁迅:《魏晋风度及文章与药及酒之关系》,见《鲁迅全集》第3卷《而已集》,北京:人民文学出版社,1973年,第491页。

   (51)孙康宜:《抒情与描写:六朝诗歌概论》,钟振振译,上海:上海三联书店,2006年,英文版绪论第2页。

   (52)萧统编,李善注:《文选》卷三〇,第1399页。

   (53)马茂元:《古诗十九首探索》,北京:作家出版社,1957年,第102页;隋树森:《古诗十九首集释》,香港:中华书局股份有限公司,1958年,第18页。

   (54)余冠英选注:《汉魏六朝诗选》,北京:人民文学出版社,1978年,第65页。

   (55)萧统编,李善注:《文选》卷三一,第1453页。