《大数据里的唐宋诗词世界.docx》由会员分享,可在线阅读,更多相关《大数据里的唐宋诗词世界.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据里的唐宋诗词世界人们习惯用史料来描述文学史的高峰状态,而在当今大数据 时代,我们或可尝试用大数据来显示和验证,并透视数据背后的 文学史意义,进而反思数据存在的问题和展望未来努力的方向。 唐宋诗词世界华茂繁荣,大数据可带我们领略其中新的风采。唐宋诗词的多个“第一”唐诗是中国诗歌史上第一座高峰。据统计,东汉到隋末近六 百年,诗歌总共才五千余首,而到唐代,诗歌第一次超过万首并 直接跨越到五万多首,到达前所未有的高峰。唐诗比之前的八代 诗增加了七倍多,诗人由六百余位增加到三千余位,诗人和诗作 都到达前所未有的量级。唐诗历经三百余年,其顶峰在盛唐。其 时诗人五百余位、诗作近八千首。依据诗歌在历代选
2、本中的入选 频次、被历代诗论家品评的频次、被后人追和的频次和当代学者 研究的频次、被网页著录及评论的频次等数据加权计算,一定程 度上可评估一首诗的影响力。通过这种可量化的计算,我们可将 影响力位居前列的视为名篇。在唐诗百首名篇中,盛唐占59首。 而唐诗的十大名篇,盛唐更独占8首。按名篇数量排列出的唐代 十大诗人,盛唐占6位:杜甫、李白、王维、王昌龄、孟浩然和 岑参。宋词是中国词史上第一座高峰。词人近一千五百位,词作超 两万一千阕。较之唐五代,宋词用调增加了七百余种,词人词作 都增加了十多倍,表现出词体的丰富、整体面貌的繁荣。唐五代 词人中,唯温庭筠、冯延巳、李璟、李煜四家有词集传世,而宋 代有
3、三百多家有词集流传。词人有词集传世,意味着作品多、知 名度高、社会需求量大。数据显示,宋词在唐五代之后已到达高 潮,元祐时期更达峰值。其时词人近二百位、词作约四千阕,比 宋初和庆历两个时期的词人词作总数还多出一倍有余。在百首宋 词名篇中,元祐时期占27阕,名列宋词六个阶段的首席。人们习惯以宋词作为宋代文学成就的代表,其实,宋诗也是 重要的一局部。数据显示,宋代诗人诗作的数量超越唐诗而到达 新高度,诗人九千多位,诗作二十五万余首,是唐诗作品量的五 倍多。值得注意的是,宋诗的顶峰也在元祐年间,其时诗人一千 六百余位,相当于前两个时期诗人数量的总和;诗作五万余首, 比前两个时期的诗作总和还多出七千多
4、首;宋诗的十大名篇,此 时独占5首;苏轼、黄庭坚、王安石等影响深远的大诗人都生活 和创作在这个时期。近人陈衍论诗,说唐宋诗史上有三个辉煌的 高峰时段,所谓“上元开元、中元元和、下元元祐”,数据印证 了他的判断。从个体诗人来看,唐诗宋词里谁的作品最多?数据显示,白 居易名列唐诗作品量的榜首,诗作近三千;杜甫和李白紧随其后, 都超过千首大关。宋词中辛弃疾的词作量位居第一,有六百余阕,其次是苏轼、刘辰翁。宋诗的篇数,那么由陆游称雄,凡九千多首, 其次是刘克庄和杨万里。作品多的诗人词家,是否影响力大、知名度高?根据综合影 响指数排名,唐代诗人影响力第一的是杜甫,其次为李白、王维, 而作品量居第一的白居
5、易,影响力排在十名之外。宋代词人作品 量和影响力第一的都是辛弃疾,苏轼和周邦彦分别居第二、第三。 高居宋诗影响力榜首的是苏轼,作品量雄居榜首的陆游紧随其 后。“第一”背后的文学史意义数据不仅标示谁第一、谁领先,还蕴含更深层的文学史意义, 可以探究其背后隐藏的历史过程和变化动因,揭示规律性认识。 比方,通过检视和分析唐诗名篇崔颖黄鹤楼的各种数据,可 以发现第一接受者李白的评价和创作比拼发挥了重要作用。可 见,除自身的艺术含量外,故事传播和意见领袖的评价也是名篇 生成的重要因素。数据能具体显示诗人词家名声的高下。提到唐诗宋词的名 家,人们习称“李杜”“苏辛”,似乎李优于杜、苏胜于辛。但 综合影响指
6、数说明,杜甫高于李白、辛弃疾强于苏轼。更令人意 外的是,最受追捧的词人不是苏辛而是周邦彦。在一百首和三百 首宋词名篇中,周邦彦各占15首和40首,占有率远高于苏、辛。 王国维说“词中老杜,非先生(周邦彦)不可”,堪称卓识。周 济宋四家词选也推周邦彦为学词的最高典范,所谓“问途碧 山,历梦窗、稼轩,以还清真之浑化”,数据印证了周济的眼力。数据可以明确展示名篇名家影响力的时代变化。宋明以来, 崔颖黄鹤楼诗和苏轼赤壁怀古词的影响长盛不衰,故分 别成为唐诗宋词的第一名篇。而陈子昂登幽州台歌、张假设虚 春江花月夜等声名卓著的名作,明清以前影响甚小,到近现 代才广受注目,故综合影响力排名靠后。岳飞满江红、
7、陆游 卜算子咏梅等也都是到现当代才被开掘出的名篇。周邦彦 的影响力,在明清时期的词坛远大于苏辛,只是到现当代由于文 学价值观念的变化才下滑落后。数据还反映出诗人影响力与作品量的关系。杜甫、李白的诗 作量名列前茅,辛弃疾、苏轼的词作量也是第一、第二。由此可 以说,影响力大的诗人,其作品量也很大,但不能说作品量大就 一定影响力大。白居易诗作量位居唐代诗人之首,综合影响力却 没进入前十名。陆游的诗篇比苏轼多出两倍,综合影响力却在苏 轼之后。由此可见,精品名作多才是成为影响力大的诗人的决定 性因素。宋人赵汝腾石屏诗序说:“诗之传,非以能多也, 以能精也。精者不可多,唐诗数百家,精者才十数人,就十数人
8、中选其精者,才数十而已。惟少陵、谪仙能多而能精,故为唐诗 人巨擘也。”苏、辛的精品名篇量也印证了赵汝腾的判断。数据的“不可为”和“可为”虽然数据能在一定程度上描述显示文学史的开展面貌和进 程,揭示隐藏在历史背后的真相与意义,但数据也有明显的局限 性。一是效度有限,只能说明文学史的局部问题,而无法有效解 决所有问题。二是信度受限,无论是人工挖掘还是机器自动提取, 受人的认识水平和技术水平的制约,数据的信度会有优劣高下的 差异。由于指标种类少,目前衡量名篇名家的数据还不充分完备, 尤其缺少内质型数据,因此需要持续不断地挖掘和充实。挖掘数 据的难度,不仅在于到哪里找数据,更在于要找哪些数据。文学 史
9、上从来没有数据意识和数据存量,什么样的数据对衡量一个时 代或一个时期的文学繁荣程度、评价作家作品的优劣高低有用有 效,这既是实践操作问题,也是理论认识问题。大数据时代的文学数据,需要分类分层建立起文学史数据的 指标体系,以确保数据的信度和效度。可以探索和讨论:一个时 代或一个时段文学的繁荣状态,除了用作家作品的数量增长来衡 量,还有哪些量化指标、特别是内质型指标可以表达?在创作主 体维度,文学群体、文学流派的数量和规模是否应该作为衡量文 学繁荣的指标?又该如何测度个体作家和文学群体或文学流派 的艺术贡献、文学史地位?在作品文本维度,如何衡定其思想情 感含量和艺术审美含量?也许应该考量以下三个层面:形式层 面,体裁体式的创新度、丰富度;内容层面,表现主体内在精神 世界和外在社会生活世界的深广度;艺术层面,表现技巧的难度 和艺术表现的完美度等。有了完整的指标体系,才有目标和途径 去寻找开掘数据,才有可能借助人工智能技术,让计算机自动分 析提取数据,不断扩大数据的种类和体量。在此基础上,通过计 算机自动提取获得海量数据,不断满足大数据时代学术研究的需 求。( 王兆鹏,系国家社科基金重大工程“唐宋文学编年 系地信息平台建设”首席专家、四川大学文学与新闻学院讲席教 授)(2022 年)
限制150内