综述 | 金雯：“大数据”分析与文学研究

2011年《纽约时报》发表了一篇暗讽“远距离阅读”(distant reading)理念的一篇文章。“远距离阅读”是由斯坦福意大利裔批评家弗朗哥·莫莱蒂（Franco Moretti）2000年首次提出的概念。他认为文学研究者只读现存书籍中极其微小的一部分是无法揭示文学史真正面貌的，必须使用大量人力来分工阅读不同文本，然后把他们的分析综合起来，得出世界文学中各类体裁发展的规律。这个理念十年后发展为使用机器来处理大量文本的实践，2010年莫莱蒂和马修·乔克思一起（Matthew Jockers）在斯坦福创立了“文学实验室”，研发用电脑算法对文学书籍进行分析的方法。《纽约时报》这篇文章的作者并不理解远距离阅读对深入理解像《哈姆莱特》这样的作品有什么意义，并嘲笑“文学实验室”不过是将剧中人物关系进行图像化分析，得出各人物之间的“距离”，从而证实“哈姆莱特”为《哈姆莱特》剧的主角。“呵呵(Duh)”，作者对这个结论发出了如是评价。

但莫莱蒂领衔倡导的文学“大数据”分析实际上并不期望对《哈姆莱特》提出胜过人脑的新解。使用电脑算法来分析文本不是让电脑复制人脑的功能或者更大规模地完成人脑擅长的任务。人脑和电脑在阅读文本的时候所用的方法和关注的重点不一样，读出来的东西也可能截然不同。不过人脑和电脑在阅读阐释文学的时候也往往可以互为体用，互补短长，文学“大数据”分析和学者个人的“小阅读”之间存在着许多交融与合作的可能。正因为如此，借助电脑进行文本分析是近年来不断升温的“数字人文”（digital humanities)的一个重要分支。不能说它已经全然被文学研究界的主流所接受，但人们原先持有的误解和怀疑正在慢慢消散。

一般来说，文学研究所说的“大数据”和商业或管理领域里采集的大数据不属于同一个数量级。斯坦福“文学实验室”建立了一个包含3500本十九世纪小说的数据库，十八世纪文献库（ECCO）目前已电子化的图书达十八多万册，Hathitrust的文献超过了一千万册，而谷歌图书截至2013年已经扫描了超过三千万册图书，虽然这些图书只有少量内容能让公众查阅。相较于商业级别的大数据，比如google的搜索数据，这些似乎小巫见大巫。但对于文学研究而言，它们代表的是革命性的数量级变化。当然，电子书库面临版权限制，而且由于电子化技术有限，扫描文本的识别也并非十全十美，但这并不影响我们认真考虑一下机器阅读的不同功用。

什么是文学研究中的“大数据”分析？

乔克思在最近出版的著作《大分析》(Macroanalysis，伊利诺伊大学出版社，2013年)一书中解释了“大数据”分析的基本含义。这是第一本概括介绍文学阐释中进行大数据分析的用途和方法的专著，系统而简明地讲述了使用电脑算法和统计工具来推动文学研究的各种可能性。这本书面向对这个领域不熟悉的传统文学学者，试图减缓他们对“计算文学与语言学”（literary and linguistic computing）的抗拒。乔克思的著作总体反响不错，不过也有统计学和计算语言学的学者对书中提到的具体算法和运算工具提出疑义，毕竟作者是研究爱尔兰文学出身，对统计学并不十分精通。但深入探究具体统计问题的堂奥并不是这本书的目的，其目的在于普及常识，使得数据统计成为文学研究普遍接受的必备手段。要进一步优化具体的统计模型和内在理路，就必须依靠各类研究者跨学科深度合作了。

《大分析》Macroanalysis

从根本上说，目前电脑对文本的分析主要基于词频的统计和词汇搭配的分析，许多文学研究者对这样的量化信息并不很感冒，也不相信统计能够改变我们对文学的认识。但即使是起初怀有拒斥心理的传统学者也常常发现计算文学研究对传统的文学阐释法提供了必要的补充。

人脑在阅读小说或诗歌的时候，不太会注意冠词、介词、代词等与“意义”并无直接联系的词，即使注意，也很少能够记住他们出现的方式或频率，更不要说理解它们在文学作品的语言结构中所起的作用了。人脑在进行文体分析（即文笔风格）的时候力量是很微弱的。因此，语言学学者早就已经运用电脑来研究这些封闭类词(closed class words）。借助计算机的研究方法在语言学中逐渐壮大，从而成为了一个独立分支，即语料库语言学。近年来，语料库语言学已经逐渐成为一种能够为其它学科服务的工具。比如我们可以利用语料库技术来进行文体分析，这就是语料库文体分析（corpus stylistic），这个领域里首屈一指的当属伯明翰大学的Michael Toolan教授。

用电脑进行文体分析让我们有可能回答一连串与文学史忧戚相关的问题，也能启发一些新型问题。比如：同样是英语文学，美国小说和英国小说在文体上最显著的差别是什么？怎样用电脑来甄别这两个国别的小说？同理，怎样快速甄别小说和诗歌？怎样快速区别男性作家和女性作家的作品？一般来说，研究者可以进行不同的实验，比如统计“the”一词在英美小说中出现的不同频率。斯坦福研究者发现，美国小说中“the”一词出现频率的平均数值接近6%，而英国则低一个百分点左右，也就是说，这个冠词可以作为区分小说文本国别的一个特征。同理也可以发现，英国小说用表示肯定的词的频率大大高于爱尔兰小说，后者更多用“可能”、“或许”之类的词。第一个例子比较容易理解，英国英语中经常会省略“the”, 而后面这个例子则比较难以解释，可能与两国文化历史有关，需要人类研究者对数据提供的信息进行进一步阐释。初步找到一类文本的形式规律之后，可以让机器按照这个特征去判别新的文本。

当然，一个特定的文本形式特征可以与许多因素有关，或许是文学体裁、出版年代，或许是作者的个人习惯、性别、其它身份特征。研究者也已经开始使用不同算法来测量这些不同因素与形式特征的相关度大小。乔克思在《大分析》中就提到了一种叫做“最近缩小中间值”(Nearest Shrunken Centroid)的算法。不过针对文学数据分析的算法都不是固定下来的成熟套路，都是具有争议性的尝试，因而具体数据需要运用具体算法来处理，没有一个算法适用于所有数据或者所有研究。

这样的机器甄别法有一些很实际的用途，比如说对大量已经电子化但尚未进行人工处理的文本进行分类。也可以运用于对疑似假托或作者身份不明的作品进行鉴定，根据其文体特征判别其真实作者。比方说，我们可以借鉴司法语言学中的方法来确定作者身份。去年，《哈利波特》的作者J.K.罗琳匿名发表了一本小说《布谷鸟的呼唤》。随后牛津大学的 Peter Millican 和Duquesne大学的 Patrick Juola 通过一系列法律语言学的分析方法对比分析了这部小说和罗琳以往的写作风格，最后推测这部小说非常可能是罗琳的最新力作。最后，罗琳承认了此书为自己亲笔所做。

《布谷鸟的呼唤》（The Cuckoo‘s Calling）

用机器分析文本的形式特征还给了我们一个更深层次的启示。文学研究的一个基本任务就是描绘和解释文学形式的变迁，而一般研究者在解释文学形式变化的时候大多无法证明自己的观点，只能按照研究者本人有限阅读量做出印象性判断，所依据的信息也多是“情节”和意象等人脑比较容易识别的信息。应用大数据分析可以给自己的假设提供系统的数据支持，也可以通过机器把注意力放在人脑难以追踪的语言元素，包括介词、冠词、标点符号等。

文学研究的另一个基本任务就是判定“影响”，即文学史上特定作品的影响力，解决这个问题也可以借助电脑操作的文本形式分析。目前的方法是判别不同文本之间的相似度，由此断定一部作品到底与后世的哪些作品具有比较显著的形式重合。加拿大麦吉尔大学学者Andrew Piper正着手统计歌德的《少年维特的烦恼》中出现的文体特征（比如说作品中出现的比较独特的辞藻），再利用现成的电子文学数据库（如Hathi Ttrust）用相关算法测量出数据库中同时代的欧洲小说和歌德作品在形式上的相似度，以此来考察精细阅读所无法勾勒的“散落”的文学影响。因为牵涉到的文体特征可能有几十个，计算同时代文本和歌德诗歌的距离就意味着想象一个几十维的空间，而这些不同的文本在这个空间中的距离也就只能通过机器来测量并转化成人脑能够理解的图像了。

用电脑来分析“影响”问题不仅是为了追求更高的精确度，更是基于一种对“影响”的非人文主义理解。一般的人文主义者，如哈罗德.布鲁姆，认为虽然影响是发生在两个文本之间的过程，作者或诗人只是这种影响过程发生的媒介，但作为媒介的作者主观上也感受到了这种影响，经常会使用防御和否定的对策遮盖自己的文学渊源。而大分析所认为的影响与作者的主观感受已经全无关系了。一个文本中大多数形式特征并不是作家有意识的选择，而是由文化无意识所决定，文学形式的传承和演变遵循着任何个体都无法控制的路径，即使是天才作家的传世经典也建筑在大量重复现成语料和语言规范的基础上。

哈罗德.布鲁姆

也就是说，虽然人脑并不是机器，但与机器有着相似的特点，两者都会很机械地模仿固有的语用习惯，而一个语言文学共同体也会在社会历史因素的影响下有规律地改变这些习惯。这些习惯也就是所谓的文化“模因”，即文化的基本单元。

由此可见，大分析这个概念所包含的不仅是一套技术手段，还有一种与传统人文精神相抵牾的文学生成理论。也可以说，大分析和小阅读代表了两种不同的文学史观，用不同的方法来证明各自的观点，构筑各自的文学史。归根结底，大分析和小阅读都是阅读体验，只不过一个是电脑的，一个是人脑的。它们得出的结论也在不同层面上触摸到了关于文学的一些“真理”，但这里的真理只能是相对的。

调和或融合这两种阐释模式的可能性是存在的，好比人可以借助仪器做许多凭人力无法做到的事情，能飞行也能制造飞机。在探讨这种可能性之前，笔者先介绍几个网上的公共大分析平台，有兴趣的读者可以去这些网站尝试一些简单的数据分析操作。

Google Ngram恐怕是目前最有名的一个平台。基于Google Books这个图书电子化项目，哈佛学者和Google科学家联手建立了这个独一无二的数据库。他们对扫描完的图书进行了字符识别（OCR），为了规避版权限制，他们将识别的结果转换成一个词频表，这些词频表内的单词长度从一到五不等（unigram至5-gram）。这些词频表按年度统计，分不同语言（英式英语，美式英语，法语，汉语等）、不同文本（英语小说）。Google Ngram不光提供了线上检索平台，还提供了原始数据下载。当然，海量的原始数据并非一般研究者能够处理。

还有不少由高校研究者借助学术资金建立的推介数字研究工具的门户网站，帮助用户整合多种线上资源。公众可以免费使用这些工具，输入自己的文本进行词频和其它分析，有时也可以下载这些工具或其源程序。最大的数据分析工具门户网要数加拿大McMaster大学与其它五大研究中心合力建成的TAPoR (Textual Analysis Portal文本分析门户)。这个网站所归整的资源里许多来自规模小一些的门户网站，如TactWeb, HyperPo和Voyant。有些网站建立并开放自己的文学数据库，如伊利诺伊大学图书馆主办的MONK网站，它的电子化书籍资源达2585册，2015年后还会增加。西北大学开发出一个叫WordHoard 的软件，内含希腊史诗、乔叟和莎士比亚作品，都已经过标注，公众可以去与软件同名的网站下载，进行多种查询，比如研究某词及其变体在各作家作品中出现频率等。另外，Bamboo DiRT由伯克利、芝加哥大学和威斯康星大学牵头开发，也同样整合了各种不同类型的数字研究工具。DARIAH是欧盟委员会支持建立的协调欧洲各国数字研究资源的网站，还在建设中。SEASR则更侧重数字研究软件开发。

TAPoR (Textual Analysis Portal文本分析门户)

虽然文学数据分析研究者已经研发出许多基于互联网的分析工具和平台，但这些平台难以导入大规模的语料库或进行复杂的分析。比较可行的解决办法是研究者将原始数据通过光盘寄给平台提供者，让平台提供者代为上传到服务器，比如英国兰卡斯特大学的WMatrix就是一个流行的语言学分析平台，如果原始数据过大，他们会要求研究者用上述方式提供数据。

从最深层次来说，小阅读中包含的思维方式和问题意识是“大数据”分析的重要导向。让机器来判别一个文本属于哪个国别不过是沿袭了一些固定的思维套路，并不拷问现有概念。所谓“体裁”或“国别”特征往往与读者固有的分类法和期望有关，机器不过是根据研究者的判断来进行分类。比如，研究者可以规定哥特小说是背景诡异，包含惊悚情节的小说，借助机器验证哥特小说这个体裁与频繁使用表地点的介词短语之间有着必然的相关性。但机器绝不可能用来考量“哥特小说”这个概念是否应该存在。假如我们把哥特小说拆成两部分，一部分融入心理小说，一部分融入奇幻小说，可以吗？对文学史有什么意义? 这都不是机器所能回答的大问题，还得回到人脑。

换句话说，用机器来进行数据处理经常需要研究者“告诉”它们如何进行分类。如前文所述，机器能够发现肉眼和人脑不关注的文体信息，但研究者也经常把电脑当作听话的工具来使用，让机器来统计人类读者本来就想要统计的指标。这种思路与“机器学习”（machine learning）中的“监督学习”（supervised learning）的基本策略相通。

举个简单的“机器学习”的例子。2006年，马里兰和伊利诺伊大学的研究者分析了转换成为XML版本的狄金森与嫂子苏珊之间300余封信件，设定的研究目标为让机器“学会”识别狄金森诗歌中的情欲表达。他们挑选出一部分片段，然后让专家把其中含有情欲内容的部分人工标识出来。接着让电脑对这些包含情欲信息的片段进行词频分析，以此发现一些与“情欲”相关的用词，同时也让专家分析“情欲”内容拥有哪些最明显的文体特征。研究者随即将以上这些文体特征综合起来并设计算法，再让电脑处理未经标识的信件，从中筛选出有“情欲”内容的那部分，并观察其可靠度。这样反复测试，就可以完善算法，并依靠机器从剩余的大量狄金森诗歌中拣选出与情欲主题相关的部分。如此不仅省却人力，也能发现普通读者意想不到的与 “情欲”相关度较高的词。机器学习的研究例子还有很多，现在的研究水平与2006年相比也已不可同日而语。机器需要研究者来“引导”，同时也给研究者带来许多新的便利和发现。这就说明在文学研究中如果能把数据分析与小阅读结合起来，可以让好的研究者如虎添翼。

在这方面走在学科最前沿的还是传奇学者莫莱蒂。他十几年前就动员各国别文学的研究者一起合作，2005年的专著《图表、地图和树形图》就呈现了这些合作的初步成果，综合采集到的国别数据，用图表勾勒出18和19世纪期间英法意西日等国小说在数量上的起伏以及题材上的变化。他承认，要分析这个图表上每个节点的原委必须深入当时的历史环境，找出具体可信的原因，比如，法国大革命导致后来几年小说出版数急剧下降。然而，他又采用布罗代尔世界体系理论的思路，认为可以用大数据分析来找出世界小说发展的总体规律，而不只是某个阶段的成因。他要发现的是文学史中“隐匿的钟摆式运动”。他也的确因此得出了一些初步的大规律，包括十八九世纪小说的题材和样式在不同国家都呈现出每隔25—30年发生变化的态势。

Franco Moretti

但若干年以后，莫莱蒂又从这个体系性思维回到了微观考察，或者说又开始尝试让数据分析皈依个人阅读，把机器分析重新变成个人阐释的工具和手段。最重要的研究是他今年出版的专著《资产阶级：在文学和历史之间》，书中对18世纪兴起的小说进行形式分析，并论证小说在用词和句式层面上包含着资产阶级文化的基本矛盾，也就是资产阶级文化的“模因”系统地交织在小说语言中。在这项研究里，数据分析为传统小说阐释提供了一种新的证据类型，把解读者的视角从情节和意象转移到文体的细节，比如，《鲁滨孙漂流记》中经常出现的“效率”“有用”这样的词以及目的性很强的句式。这样的解读借助电脑统计会更加有效，而且从根本上来说是受了机器阅读的启迪。

莫莱蒂的研究说明了宏观和微观文学史都应该结合个体研究者的思考和技术手段。所以当今许多借助技术手段从事文学研究的学者都称自己所做的是“规模化阅读”（scaler reading)，也就是在不同规模层次上下滑动的阅读方式。

中国文学研究还没有充分运用“大数据”分析的理论，不过芝加哥大学的Hoyt Long 和Richard Jean So正在进行一些开拓性研究，包括研究日本绯句如何被现代美国诗人翻版改写。芝大也有与上海图书馆合作的意向，想要把上海图书馆收藏的民国时期书刊的电子化版本进行处理，使之成为适合数据分析的数据库。据现代中国文学和图像学者吴盛青介绍，其实10年前莫莱蒂就希望能和东亚研究学者合作，对中国文学进行数据分析，但没有人搭理，不过近年来中国研究领域这方面的研究也逐渐出现。

机会还有很多。比如，为了研究感伤主义小说在近代中国的发展，可以统计某些主题和关键词在清末民初文学中出现的频次和传播路径。也可以通过数据分析手段来研究中国典籍在英美现当代写作中留下的印记。当然，这些研究的前提是提高中国文学电子化的程度，并且找到可以对1949年之前所用汉字进行精确OCR处理的办法。这两项都是很复杂艰巨的工程。要辨别早期英语的书写对机器而言就极具难度，更遑论古汉语对于机器的挑战。这其中最显而易见的挑战就是字库的容量，简体汉语字库往往不包含古汉语中的繁体字看一些异体字。

文学研究长期以来注重经典和对个别作品的解读，而从统计学角度来说，经典就是“逸事”——小概率或随机事件——的同义词。小概率事件或许是最有意义的事件，但只有在一个广阔的背景中才能看到它们的意义。正如莫莱蒂所说，即使你研究200本小说，也还不到19世纪出版的小说总数的1%，这样的研究必然受局限。

研究者在各自的书斋里进行“小阅读”是永远不会过时的。用机器进行大数据分析可以帮我们发现某一个体裁（如19世纪小说）普遍的形式特征，但被人们公认的“好”文学区别于“普通”文学的最关键因素并不在这些特征里面，也正是这些难以捕捉的小因素才是文学阐释的核心焦点。每个阐释者对“好”文学的认识都不一样，他们的判断如何决定一个文本在历史中的地位和持久力也因事而异。

好的文学为什么“好”，凭什么得以传播？取决于什么审美特点，什么样的阅读习惯、文化环境和文学评价机制？这是文学研究的一个终极问题，需要把文本数据分析，个人化的文学阐释和历史性思索结合起来，才有望发现一些有价值的研究路径。最终的答案难以企及，也许也并不重要，重要的是开辟更多带我们离开当前结论的道路。为了打造新的文学史和新的文学价值理论，职业阅读者必须学会让机器为人脑所用，学会发现人脑中本来就蕴含的机器。

作者简介/转载声明

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。