摘要
古典知识库是关于中国古代历史和文化的综合性知识总集,是实现机器学习、人工智能的基础性工具。古典知识库建设是将散布在浩如烟海的文献中的知识析出,经过整理,将无序的知识有序化、体系化、结构化,变成计算机可以处理的数据。古典知识库的建设需要重点考虑以下问题:如何表达知识,如何认识古代知识的不同形态和不同类型,知识单元如何抽取和标引,如何处理隐性知识,如何揭示知识之间的关系。一个能够完整、准确反映中国古代文化特点的古典知识库应满足以下基本条件:支持古代文献的阅读、研究,支持古代文献的全文检索和语义检索,是拥有知识且具智能性的系统,是结构化、标准化、开放的、可扩展的知识平台。类书是中国古代最重要的知识工具,类书的编纂过程就是一个从知识发现到知识标引、知识分类与组织,再到汇编成专门或综合性知识工具的过程。类书从性质、特点到具体的编纂方法,与古典知识库有着高度的一致性,可以为后者提供借鉴和素材。同时,用古代知识名称进行标注的文献如《山海经》《尔雅》《事林广记》《永乐大典》等也是建设古典知识库重要的语料资源。
1
古典知识库与数字人文研究
知识(knowledge)是一个现代概念,是“通过学习、实践或探索所获得的认识、判断或技能”,包括:①事实性知识,如术语知识、具体细节和要素的知识;②概念性知识,如分类与类别的知识、原理和通则的知识以及理论、模型和结构的知识;③程序性知识,即如何做某事的知识,包括技能、技术和方法的知识;④元认知知识,如策略知识、认知任务的知识,等等。英国学者波兰尼曾经对知识的类型进行区分,他说:
人类知识有两种:诸如书面文字、地图或者数学公式里所展示出来的,通常被人们描述为知识的东西仅是其中之一而已;另一些未被精确化的知识则是另一种形式的人类知识,比如我们正在实施某种行动之时怀有的关于行动对象之知识。假如我们将前者谓为言传知识(explicit knowledge),后者则称作意会知识(tacit knowledge)的话,那我们就可以说人类始终意会地知道自己正在支持(holding)自己的言传知识为真。
所谓“言传知识”,又译“显性知识”;“意会知识”,又译“隐性知识”或“默会知识”。简言之,显性知识即“以文字、符号、图形等方式表达的知识”,隐性知识即“未以文字、符号、图形等方式表达的知识”。中国古代虽然早有“知识”一词,但并非我们今日所说的知识。《墨子·天志》中“亲戚兄弟所知识,共相儆戒”之“知识”,指知道、认识的人。中国古代“知”同“智”,有智慧、识见的意思,也有今天“知识”的意思。《韩非子·解老》云:“故视强则目不明,听甚则耳不聪,思虑过度则智识乱。”这里所说的“智识”,指智力、识见、判断事物的能力,仍与我们今天所说的“知识”有一定的差距。虽然如此,现代意义上的“知识”从人类社会诞生之日起就已产生,并且不断积累、丰富。在中国古代虽然很少有学者像古希腊柏拉图、亚里士多德那样去思考知识的本原,但却积累了十分丰富的知识,并且通过浩如烟海的文献传承至今。中国古代的“知识”,既包括所谓“名物制度”,古代事件、人物等,也包括思想观念、情感、审美;既有个人的知识,也有社会的知识,并且个人的知识在很多情况下会向社会的知识转变①。在这些知识中,有的比较客观、比较具象、可以被描述,即波兰尼所说的“显性知识”;还有一些“只可意会、不可言传”的知识,即波兰尼所说的“默会知识”或“隐性知识”,通过一些约定俗成的方式来表达,例如成语、典故、俗语、隐语、双关语等,每个成语、典故、俗语、隐语、双关语背后就是一个历史故事、一个文学意象,于是,隐性化的、抽象化的知识就变成了大家都能理解的知识。总之,中国古代的知识,范围很广,构建中国古典知识库,需要基于中国古代文化的特点,尽可能将显性知识、隐性知识都纳入其中。
自从人类社会产生以来,人类进步的历程实质上就是知识积累的历程。将知识总结出来,世代相传,除口耳相传外,文献是最主要的载体,文献所记录的知识可以突破时空的限制,其效率远远超过前者。随着社会的发展,知识的积累、丰富,人们需要对知识进行管理,以方便学习和利用,专门的知识工具——工具书便应运而生。古代的“工具书是离散的片状知识的集合”,工具书将离散的、片状的知识从文献中提取出来,然后重新组织,使之更系统化。通过重组,原本离散的知识得以聚合,并且更加系统,原本离散的知识因为关联而显现出隐含的逻辑联系,隐性知识因而可能转变为显性知识,孤立、不完整的知识可能因此变得更系统、更丰富、更完整。
近年来,数字人文研究已经成为传统文化研究领域一个崭新的学术研究范式,作为数字人文研究的基础、也是重要内容之一的古典知识库备受学术界的重视。目前,涉及中国古代历史文化的知识库以专门性知识和专题性知识为主。具有代表性的专门性知识库有中国历史地理信息系统(CHGIS)、中国历代人物传记数据库(CBDB)等,这类知识库所涉及的知识是专门的,如地理、人物,所用的资料主要通过一些相关的原始文献和专门的工具书获得。如中国历代人物传记数据库(CBDB)收录的五十多万条人物传记,其资料来源如下:各种人物传记资料,包括正史、地方志中的列传及墓志墓表;各类文学作品,包括文集中的祭文、序、记、书信等;官方文书,等等。专题性知识库有方志物产知识库,及各种专门词表库,如人名、地名、职官名等,这类知识库大多是一些客观的事实性数据库,其内容比较具体、确定。但因专门或专题,这些知识库在应用范围、场景、深度方面都会有些局限。因此,针对中国传统文化研究,在专门性、专题性知识库之外,还需要有基础性、综合性的知识库,而综合性的古典知识库会涉及古代社会的方方面面,相较专门性、专题性知识库而言,在广度、深度、难度上都要大得多,同时也重要得多。
古典知识库的建设,仅就内容而言,涉及许多问题,其中,知识单元和知识元(即知识加工和利用的基本单元,包括知识的名称、领域、内容、来源、出处)的选定和分析、知识标引与名称标目、知识分类是一些关键性的问题,关系到如何从古代文献中抽取古代的知识,如何表达知识。同时,知识的分类、知识与知识之间相互关系的揭示等是实现语义搜索等功能的必要条件,这些都是古典知识库建设的重点与难点。具体说来,有若干问题需要重点考虑。
第一,如何表达知识。构建古典知识库,目的在于帮助计算机准确理解古代文献。古典知识库中的知识是古代的知识,我们不能简单地用现代知识去解构古代的知识和知识体系。客观地还原、再现古代的知识与知识体系,是构建古典知识库最基本的原则。所谓“诗无达诂,文无达诠”,古代诗文,特别是涉及哲学、思想、审美的概念,不同的人会有不同的理解,在不同的场合、不同的语境下同一个词往往会有不同的意思。不能用张三的观点去解释李四的观点,也不能用一千年后的概念去理解一千年前的概念。例如,朱熹的“理学”与二程的“理学”显然是有不同、有发展的,与陆九渊、陈献章、王阳明的“理学”显然也是不同的。在建设古典知识库时,虽然理论上可以由专家对相关概念进行解释,但一则工作量太大,难以操作,二则专家的解释,也只是一家之言,难以取得学术界共识,更难以符合古代思想家的原意。而使用相关的原始文献,更能客观地表达不同的思想、观念。因此,在建设古典知识库时选取文献原文,才不会“曲解”古人,也能给研究者留下思考的空间。
第二,古代的知识包括哪些内容。前面我们提到了知识的不同形态、不同类型,而所谓事实性知识、概念性知识、程序性知识、元认知知识在具体对应到中国古代的知识时,可能很难作具体的区分。其实,有一个捷径可以帮助我们达到目标,就是充分利用中国古代的知识工具——类书,以及各种专科性的知识工具,如政书、专志等,下文将就此进行详细讨论。
第三,知识单元如何抽取、标引(indexing)。中国古代的知识主要记载于文献之中,一部文献包含了众多的知识单元以及其他信息,因此,从古代文献中抽取知识单元,是一项工程量十分浩大、专业水平要求极高的工作。在实际操作中,如果直接从现有的古代文献中抽取,需要大量专业人员投入巨大的精力,事实上并不可行。因此,如何有效地建设古典知识库是一个在具体操作层面必须解决的问题。因此,利用古代的知识工具对知识进行抽取、命名以及组织,就成为了一个必然的选择。
第四,如何处理隐性知识。作为知识库,比较容易处理的是“显性知识”,如古代的名物训诂、典章制度、人名地名等内涵、范围比较确定的内容。虽然名物有各地方言、雅称俗语的不同,人物可能有字号室名的不同,职官有时代变迁而导致的职守品级乃至名称的变化,不同时代的地名有名称、四至、治所的变化,但这些都能够通过名称规范(name authorities)等传统信息处理方法来解决。但涉及“隐性知识”,特别是中国古代大量词汇,从字面上看并无特别的意义,但其背后却隐含了自然知识、社会知识、历史知识、文学知识、生活知识和具有中国特色的思想、观念、审美,很难通过名称规范来处理。例如,“东篱”直译是东边的篱笆,但在中国传统文化里,却是“采菊东篱下,悠然见南山”的恬淡;“梅妻”背后是“疏影横斜水清浅,暗香浮动月黄昏”的优雅;“古道西风”暗含“古道西风瘦马,断肠人在天涯”和“古道西风,荒丛细水,老树苍苔”的苍凉。在中国传统文化中,有大量的知识很难用语言文字准确地描述,只可意会,难以言传。因此,常常需要借助原始文献、相关的注释以及古代相关知识工具的分类、关联关系等来辅助解决,而这正是属于数字人文研究领域中所涉及的自然语言处理、人工智能的研究范围。
第五,如何揭示知识之间的关系。古典知识库的建设,不仅仅需要将古代的知识罗列出来,更重要的是对古代个别知识与整个知识体系之间的关系给予“适当”的处理。例如,在中国传统的知识体系中,“天”不仅指日月星辰风雨雷电等天文现象或气候现象,也包括元气、太易、太初、太始、太素等哲学概念;“梅”既是一种植物,包括各种品种,也包括梅的各种风姿,“岁寒四友”之一的“梅”所具有的文化象征意义更为重要,是文学作品和传统绘画的主要题材。因此,“梅”就是中国传统文化中的一个庞大的知识体系。在《永乐大典》中,与“梅”有关的知识占了整整6卷近13万字,“梅”字头下列罗了红梅、杏梅、蜡梅等99个知识单元,内容涉及梅的植物学知识、梅的名目品种、梅的制品、与梅有关的绘画、与梅有关的诗文,每一个知识单元又通过引证多种文献加以表述、诠释、引申,如“红梅”,直接的引证文献近150种,引证的单篇诗文数量更多。这些引证文献,大致可与知识元的概念相当,它们共同构成了中国传统文化中“梅”的自然属性与社会属性,因此,在古典知识库中应当对此予以特别的处理。
基于以上对中国古代知识与知识体系特点与难点的认识,一个能够完整、准确反映中国古代文化特点的古典知识库应满足以下基本条件。
第一,支持古代文献的阅读、研究。无论是普通百姓的阅读还是专家的研究,都需要古代知识的专业帮助。因此,古典知识库首先应该是一个关于中国古代文化的知识工具,这也是古典知识库最基础、应用最广泛的功能。
第二,支持古代文献的全文检索和语义检索。本来全文检索可以通过计算机字符串匹配的方式来实现,但是,古代文献版本众多,版式复杂,版面情况不一,且存在大量的异体字、一字多形、一形多义的情况,这些异体字、异形字各有其计算机编码,字符串匹配的方法并不适用,在检索时,通常需要知识库提供知识以及术语、词汇的支持,通过上下文的语义关系进行判断。
第三,知识库应该是拥有知识且具智能性的系统。一是需要支持对知识的查询、获取,二是要帮助计算机通过知识之间的关联关系等发现新的知识和隐性的知识。因此,古典知识库应当能够反映古代知识之间、个别知识与整个知识体系之间的关系。
2
中国古代的知识与知识工具
战国时代,还出现了具有知识工具性质的文献和以汇编“知识”为主要目的的文献,最具代表性的有《禹贡》《山海经》《周礼》和《吕氏春秋》。
同样,大约也是成书于战国时代的《周官》(即《周礼》),以“周公制礼”的传说为背景,设计了一套体系十分严整的政治、经济、军事、文化、社会制度,其中《冬官》一篇早佚,后来人们以齐国官书《考工记》补入。《考工记》全篇内容就是一套十分完整的先秦制造业、建筑业、农田水利等方面的技术知识大全。这说明,当时的人们已经开始注意到了对知识进行梳理、分类和总结,为后世知识工具之先声。
真正属于记载综合性知识、专门供人查阅、利用而编纂的知识工具,当属战国末年至西汉初年成书的《尔雅》。
《尔雅》共十九卷,全书按知识内容进行分类(见图2)。例如,卷四“释亲”通过亲属关系称谓阐释宗法社会的家庭与社会关系,下面再细分为“宗族”“母党”“妻党”“婚姻”四类。卷十三至十九涵盖了植物和动物两个大类,包括草、木、虫、鱼、鸟、兽、畜七大类,其中“兽”专指野生动物,与“畜”所指的家养动物相区别。“兽”之下又细分为“寓属”(寄寓木上者)、“鼠属”(地中行者)、“齸属”(反刍动物)、“须属”(人、鱼、鸟、兽气体所须之名);“畜”类之下又细分为马、牛、羊、狗、鸡五类和六畜总论③。从图2可见,在《尔雅》中,罗列了当时各种知识的名称,并且通过“互释”的方式,指出了同类知识的相互关系,通过类、属、知识名称的分级,揭示了知识的系统化结构。因此,《尔雅》实际构成了一个十分完整而系统的知识体系。1780年,德国人罗特基于狄德罗《百科全书》所蕴含的知识分类法,用“知识树”的方式勾画了狄德罗《百科全书》所蕴含的知识体系,从某种意义上说,《尔雅》在两千年前即用文字为我们勾画了一个知识树。
《尔雅》本为“五经之训故,儒者所共观察”,但由于其内容几乎涵盖了当时社会知识的各个方面,无论是知识名称、知识分类还是知识体系的完整性,都可视为一种综合性知识工具。当然,《尔雅》行文简易,主要采用“互训”的方法来表达知识的内容,与后世专门的知识工具——类书还有一定的差距,但却为后者之先声,宋代学者谢维新说:
类书之编何所昉乎?自《尔雅》载虫鱼之名,陆氏疏草木之辩(辨),沿而下之,至于《孔白六帖》出而类书备矣。
近人张舜徽也有相同的意见。
一般认为,三国时期成书的《皇览》是中国古代第一部类书:
帝(魏文帝曹丕)好文学,以著述为务,自所勒成垂百篇。又使诸儒撰集经传,随类相从,凡千余篇,号曰《皇览》。
从《皇览》书名可以测知,其编纂目的主要是让皇帝于万机之暇能够遍览群书之菁华。“撰集经传,随类相从”就说明了类书的基本特点。“撰集经传”,是指《皇览》的资料来源,所谓“经传”,乃泛指所有文献,不仅仅限于儒家经典及注释,从今天我们尚能看到的《皇览》佚文可以确认这一点;“随类相从”,是指书中内容是分类编排的。
从三国曹丕命人编纂《皇览》开始,由于类书这种工具性图书符合社会需要,类书编纂之风渐盛:
移居鸡笼山邸,集学士抄五经、百家,依《皇览》例为《四部要略》千卷。
初,简文在雍州,撰《法宝联璧》,罩与群贤并抄掇区分者数岁,……以比王象、刘邵之《皇览》焉。
梁武皇帝使阮孝绪等,于文德政御殿撰《文德政御书》四万四千五百余卷。于时帝修内法,多参佛道,又使刘杳、顾协等一十八人,于华(林)苑中纂要语七百二十卷,名之《遍略》,悉抄撮众书,以类相聚,于是文笔之士须便检用,致令悬发握锥,缘仍懈怠。又有《寿光苑》二百卷、《要录》六十卷、《类苑》一百二十卷,终是周因殷礼,损益可知。名目虽殊,还广前致,亦犹床上铺床,屋下架屋也。
后世类书抄录前代类书,“床上铺床,屋下架屋”,虽意在批评,但从另一个角度来看,也说明了类书的可扩展性,实际上是一个不断积累、完善的知识工具。北齐后主高玮也命人编纂了大型类书《修文殿御览》:
齐主如晋阳,尚书右仆射祖珽等上言:“昔魏文帝命韦诞诸人撰著《皇览》,包括群言,区分义别。陛下听览余日,眷言缃素,究兰台之籍,穷策府之文,以为观书贵博,博而贵要,省日兼功,期于易简。前者修文殿令臣等讨寻旧典,撰录斯书。谨罄庸短,登即编次,放天地之数,为五十部;象乾坤之策,成三百六十卷。”
类书从它出现的那天起,作为一种知识工具,就对社会产生了重大影响。早在北魏时期,贾思勰所纂的《齐民要术》,就曾利用过类书。唐代尚文学,方便文学创作用典需要的类书如《艺文类聚》《初学记》等受到普遍欢迎。到了宋代,编纂大型类书更是成为统治者“崇文”的重要标志,于是便有宋初编纂“四大书”之事,即一千卷的《册府元龟》、一千卷的《太平御览》、一千卷的《文苑英华》和五百卷的《太平广记》。在“四大书”中,《册府元龟》是史学类书,《太平御览》是综合性类书,《太平广记》是野史小说类的文学类书。
“类书”实际上是一个模糊的概念。在中国传统的分类法系统中,类书是一个较为特殊的类目。《四库全书总目·子部·类书类·序》云:
类事之书,兼收四部,而非经非史,非子非集。四部之内,乃无类可归。《皇览》始于魏文,晋荀勖中经部分隶何门,今无所考。《隋志》载入子部,当有所受之。历代相承,莫之或易。明胡应麟作《笔丛》,始议改入集部,然无所取义,徒事纷更,则不如仍旧贯矣。此体一兴,而操觚者易于检寻,注书者利于剽窃,转辗稗贩,实学颇荒。然古籍散亡,十不存一。遗文旧事,往往托以得存。《艺文类聚》《初学记》《太平御览》诸编,残玑断璧,至捃拾不穷,要不可谓之无补也。其专考一事如《同姓名录》之类者,别无可附,旧皆入之类书,今亦仍其例。
由于类书为抄录群书中的各类知识汇编成书,清代四库馆臣称其“无类可归”,这说明了类书尨杂无定的性质。类书在宋代以前尚未成为一种专门的类目,著名的类书如《皇览》《华林遍略》等在唐初编纂的《隋书·经籍志》中还列在“杂家”类。究其原因,一方面可能是当时“类书”影响有限,在人们的认识当中,尚不足以列为一种新的文献类型,只是把它当作杂抄之书,故隶于“杂家类”;另一方面,也可能与这类文献数量还不够多,尚不足以成为一个独立的类目有关,其情形犹如史书在魏晋之前亦未能成为一个独立的部类而被置于“春秋类”之下一样。“类书”成为一个独立的部类,大概是从唐代开始、到宋代正式形成的。五代后晋刘昫等所纂的《旧唐书·经籍志》主要根据唐玄宗时著名目录学家毋煚的《群书四部录》与《古今书录》编成,其丙部子录下有“类事”类,收录图书22种7 084卷,包括《皇览》《类苑》《修文殿御览》《长洲玉镜》《艺文类聚》等类书,只是类名为“类事”而已。在北宋中期官修目录《崇文总目》中,开始设有“类书类”,收录类书46部、4650卷。北宋中期欧阳修、宋祁所纂《新唐书·艺文志》丙部子录下设“类书类”,著录了包括《皇览》《类苑》《修文殿御览》和《艺文类聚》《北堂书钞》《初学记》等17家24部类书,共7288卷,另有“失名三家”“不著录三十二家一千三百三十八卷”,另外还著录了刘秩的《政典》35卷、杜佑的《通典》200卷等后世归入“政书类”的图书。在南宋尤袤的《遂初堂书目》中,设有“类书类”,也收录了《三国蒙求》《本朝蒙求》以及《通典》《续通典》《唐会要》《五代会要》《国朝会要》等。在南宋另外两种著名的目录学著作——晁公武的《郡斋读书志》和陈振孙的《直斋书录解题》中,情况也基本相同。元初编成的《宋史·艺文志》著录“类事类”图书307部、11393卷。直到清代的《四库全书》中,类书类的收录范围仍然十分模糊,如它收录的第一部类书为《古今同姓名录》,与我们现在理解的“类书”有很大的出入,此书在宋代陈振孙的《直斋书录解题》中则归入“小说家类”。南宋郑樵曾就此专门评论说:
岁时自一家书,如《岁时广记》百十二卷,《崇文总目》不列于岁时而列于类书,何也?类书者,谓总众类不可分也。若可分之书,当入别类。且如天文有类书,自当列天文类,职官有类书,自当列职官类,岂可以为类书而总入类书类乎!
像前面提到的宋代将后世所谓“政书”类中的典制、会要一类图书以及其他一些在今天并不符合“类书”定义的图书列入“类书”类,一方面反映了类书“非经非史,非子非集”“无类可归”的特点,另一方面也与其他后来独立成类的图书在当时尚未完全成形有关。例如“政书”类,直到明代《文渊阁书目》才开始设置,但《通典》等书仍置于“类书”类之下,“政书”类目直到清代官修《四库全书总目》才算基本定型。此外,宋代出现的金石类图书也置于“类书”类下圈④。
当代学者胡道静将类书分为广义的类书和严格意义的类书。广义的类书有七类,包括姓氏书、政书、职官书、纪事本末、书钞体书、考证性笔记、目录书。严格意义的类书从内容性质上划分,有一般性的类书和专业性的类书;按体裁划分,有征事的,有征事兼诗文的,有词藻的,有编成韵语的,有重视图表的,更有综合数种的;按编录方法划分,有分类的,有韵编的,有以数目字来编录的;按编纂主体划分,有官修的,有私纂的;按用途划分,有供一般检查的,有为诗文取材的,有资科场之用的,有供启蒙之用的,还有备家常日用的。胡道静对于类书类型的划分,是比较全面的。综合起来,类书有两个基本特点:一是按类编排;二是抄录(包括摘抄)文献原文而成。
类书的产生与流行,有其历史与文化的原因。战国以后,文献的数量和种类大增,除了经学著作之外,诗赋、史学、宗教类文献以及兵书、农书、医书、天文历法等文献大量增加,仅西汉末年刘向、刘歆父子整理出来的文献目录并经东汉班固略加增删而成的《汉书·艺文志》就著录文献38大类,626家,共13029篇卷⑤,到了西晋初年,荀勖整理中秘藏书,编成《中经新簿》,著录图书“四部合二万九千九百四十五卷”。图书种数、类型大量增加,正如唐代魏徵在《群书治要·序》中所言:“六籍纷纶,百家踳駮,穷理尽性,则劳而少功,周览泛观,则博而寡要。”一方面是知识的急剧增加,一方面是文献数量的增加,为了更方便地发现和利用知识,具有知识工具性质的类书自然便得到了快速发展。
宋代以后,类书发展很快。一方面,大型类书如篇幅达两万多卷的《永乐大典》和一万卷的《古今图书集成》即产生于这一时期;另一方面,类书的类型更为丰富,为适应商品经济和市民生活的需要,出现了大量的生活日用类书,如《事林广记》《居家必用事类全集》《万宝全书》等,此外,还有图文并茂的《三才图会》。为了让人们能够省时省力,萃取各类文献的精华,更方便地获取知识,同时也为了写诗作赋用典需要,特别是唐宋科举制度大兴以后,社会对类书的需求大增,不少书铺大量刻印类书,甚至请人自编类书售卖:
宋自神宗罢诗赋,用策论取士,以博综古今、参考典制相尚,而又苦其浩瀚,不可猝穷,于是类事之家,往往排比联贯,荟稡成书,以供场屋采掇之用。其时麻沙书坊刋本最多,大抵出自乡塾陋儒,剿袭陈因,多无足取。
不过,即使是清代四库馆臣极力贬低,但类书作为一种知识工具,在社会中所产生的重大作用,却是不能低估的。
关于类书的性质,今日不少学者将其直接称之为中国古代的百科全书。从汇集古代知识这一点来看,似有几分道理。但与近代西方出现的百科全书仔细比较,仍可发现二者的不同。1728年西方最早的英文百科全书——《钱伯斯百科全书》问世,从这部书冗长的全称就可以看出它的性质:《百科全书,或艺术与科学通用字典——包含人文艺术、手工艺术、人类科学、神圣科学领域的术语定义及其对应事物,描述一切自然物和人工物的形状、类型、属性、生产方式、制剂方式以及用途,追溯教会、平民、军事以及商业领域不同系统、派系、观念的物品的诞生、发展历程以及现状,综合哲学家、牧师、数学家、医生、古文物研究者、评论者等人的意见,综上,一本尝试概括人类古今知识的书籍》。稍后,1751—1772年,狄德罗、达朗贝尔编纂出版了法文版的《百科全书》,其全称是《百科全书,或科学、艺术和工艺详解词典》。这两部西方最具代表性的百科全书有一个共同的特点,它们是编纂者用当代的眼光对人类各方面知识的总结,是全新的著作。这种编纂传统,一直延续到今天。中国古代的类书与西方的百科全书不同,几乎全是“编”,即收集、整理既有的文献与知识,强调的是“追本溯源”,即文献与知识形成的“源”和“流”。通常,越早产生的文献越受重视,“引经据典”一词即是最好的概括。与之相比,西方近代的百科全书既要归纳、综述已有的文献与知识,但其目的在于厘清学科、知识的发展历程,最终的目的是介绍最新的研究成果、最新的知识,其著作形式主要是“撰”。中国古代类书的宗旨是“存旧”,而西方百科全书的宗旨是“开新”。不过,由于中国古代类书的这一特点,正好成为了构建古典知识库最佳的内容来源。另外,由于类书主要抄录古代文献原文,有时甚至会抄录不同文献的相同引文,“不仅可以作为了解古代知识全貌的一种工具,而且也是古代文献资料的渊薮”,换言之,它还兼具语料库的功能。例如,《永乐大典》卷3134主要部分为唐代文学家陈子昂的资料,内容包括新旧《唐书》本传全文⑥、《文苑英华》唐卢藏用撰《陈子昂别传》《唐才子传》《潼川志》(今佚)等文献,几乎囊括了明永乐以前有关陈子昂的所有传记资料,稍经结构化处理,可与CBDB相关资料形成互补。
3
中国古代的类书与古典知识库
古典知识库建设,重点和难点是将散布在浩如烟海的文献中的知识析出,经过整理,将无序的知识有序化、体系化、结构化,变成计算机可以处理的数据。类书作为中国古代主要的、专门的知识工具,它的特点与价值正在于此。
类书是中国古代最重要的知识工具,类书的编纂过程就是一个从知识发现到知识标引、知识分类与组织,最后汇编成专门或综合性知识工具的过程。类书的性质和它的编纂过程,与古典知识库的性质和建设内容高度一致。下面,本文重点就古代类书的知识标引与名称标目、知识分类与组织等问题进行分析,为古典知识库的建设提供具体的借鉴。
(1)关于类书的知识标引与标目。类书将古代文献中所蕴含的知识按知识单元抽取出来,然后确定一个名称,同时也是该知识的检索入口词。
古人编纂类书有一些基本的做法,即前引《三国典略》所谓“观书贵博,博而贵要,省日兼功,期于易简”。广览群书,然后形成一套较为完整的知识体系,亦即类书的基本框架,或者按主题分类排列,或者按韵目排列,在主题分类或者韵目之下罗列知识的名称,然后从古书中抄录相关的文献。或者这个程序反过来,先将读书、实践中得来的知识记录下来,积累到一定程度后,再进行分类编排,明代类书《山堂肆考》的作者彭大翼科场失意,于是“披汲冢之奇文,捜石室之秘典,绎抽坟史,渔猎稗官,开卷有得,辄手裂赫蹏录之,犹之摘翠于鹬羽而取白于狐腋也。攟摭十年,尚未脱稿,后贮之奚囊,宦游西粤又廿年许,而闻见益博。于是考订旧辑,附益新闻,乃得成帙,而颠毛已种种矣。先生于书无所不读,提要钩玄,至老不倦,倘亦冯贽之雅意乎。帙既成,凡若干卷,题曰《山堂肆考》”。从群书中将知识辑出,“以类相聚”,最后编纂成书。宋末进士谢维新曾编有著名类书《古今合璧事类备要》,在其《叙》中也提到了他编书的想法:
昔人有不善记事,每求一事,为之抽绎搜索,至有终日追思而莫穷其所出者。今而是编,始而天文地理,次而节序人物,以至族属、官职、姓氏之分,儒学、仕进、道释、技艺之等,与夫吉凶庆吊、冠婚丧祭之仪、草木虫鱼器用动什之末,莫不类而得其备,备而得其要。其间别以标题,配以合璧,俾阅是编者,求其一则知其二,观于此则得于彼,既无搜摘之劳而有骈俪之巧,如游元圃而取瑶宝,入武库而缮甲兵,则其有功于后之类书者多矣。
谢维新的《古今合璧事类备要》类目达155门、2586类,知识名称达43300余个。类书除一般的知识工具功能之外,“求其一则知其二,观于此则得于彼”是它更重要的作用,用今天的话来说,就是有助于新知识的发现。
类书对于知识标引的模式基本相同:在一个主题之下,将一组相同或相关的文献抄录下来,例如“梅”在中国传统文化中,是一类植物的统称,包括红梅、腊梅等(尽管在现代植物学中,红梅与腊梅并非同一物种,红梅属蔷薇科,腊梅属蜡梅科),具有观花、闻香、食用等实用功能,更重要的是,梅为“岁寒四友”之一,具有清洁、高傲、出世的文化品格。《太平御览》卷九百七十“果部七·梅”下共罗列了38组释文:
《尔雅》曰:梅,柟。(似杏,实酢。)
《尚书·说命》曰:若作和羹,尔为盐梅。
《毛诗·鹊巢·摽有梅》曰:《摽有梅》,男女及时也。“摽有梅,其实七兮。(摽,落也。盛极则堕落者,梅也。)求我庶士,迨其吉兮。”
《诗义疏》曰:梅,杏类也。树及叶,皆如杏而黑。煮而干为苏,置羹臛齑中。又可含以香口。
……
“梅”是这一大类知识的共同名称,38组释文涉及了“梅”的定义、“梅”的实用功能、“梅”的象征意义等,实际上是关于梅的38个知识,但每个知识并没有单独命名。相比较而言,《太平御览》的知识标引是比较粗略的,而《永乐大典》的知识标引就非常精细,“梅”为类名,其下又细分99个知识单元,像《太平御览》引《诗义疏》文中关于“梅”的定义与用途,在《永乐大典》中单列“梅”字韵下“总叙”条下,引用了《周礼》《礼记》《山海经》《镇江志》《悦生随抄》《瓮牖闲评》《字说》《埤雅》《事类蒙求》《事类合璧》《老学庵笔记》《齐民要术》《广志》《诗义疏》《西京杂记》等15种文献对“梅”进行的综合性注释,以下又细分为早梅、古梅、江梅等99项,每一项都有单独的知识名称,抄录的文献既有知识性介绍,也有相关诗文,总字数近11万字。
(2)关于类书的知识分类与组织。知识分类,是揭示知识的学科属性并根据类别将其组织起来。类书将知识从文献中抽取出来,然后进行分类重组,不仅仅是为了文本编排的需要,更重要的是通过分类,使众多的知识相同者聚,相异者分,揭示知识之间的从属、相同、相近、相似以及关联关系。类书的分类方法反映了古人知识体系的结构、特点,对于古典知识库建立符合中国古代文化特点的框架结构、正确处理古代知识与知识之间的相互关系、准确表达古代知识等,有着直接的参考意义,对于古典知识库发挥语义解析功能,通过逻辑推理,进而实现知识的挖掘、新知识的发现等都具有重要的意义。
中国古代类书对知识的分类与类书内容的组织、文本的编纂是一致的,类书的分类方法决定了类书的编纂形式。类书主要有以下几种分类方法或者编纂组织方法。
①主题分类法。主题分类法是将同一主题的知识集中在一起,这是大多数类书采用的分类方法和编纂组织方法。从北齐的《修文殿御览》⑧、唐代的《北堂书钞》《艺文类聚》到宋代及以后的《太平御览》《玉海》《古今事文类聚》《事林广记》《山堂肆考》《天中记》《三才图会》《渊鉴类函》等都是采用这种分类法。主题分类法将古代的知识分成若干“门”,门下设若干“类”,类下再细分,直到知识单元,每个知识单元之下,罗列相关文献。主题分类法的一个明显的优点就是能够直观地反映知识的学科属性、知识与知识之间的相互关系和类属关系。图3所示为《事林广记》的知识分类。
不同的类书,具体的分类方法、主题分类名称各有不同,如即使是同时代、并且都是由宋代中央政府主持编纂的《册府元龟》和《太平御览》的分类也不相同。如果对古代不同的主题分类名称进行类似现代图书馆学的规范控制(authority control)处理,便可建立古代知识名称对照词表,有非常重要的学术价值与应用价值。
在类书中还有一个常见的现象,即一些知识可能会对应两个或两个以上的主题,因此古人常常采用互著的方法,如《太平御览》卷387“人事部·涕泪”注:“泪事已多见在'泣’篇。”而在同书卷488“人事部·泣”中,有不少内容与“泪”有关,如引《诗》“不见复关,泣涕涟涟”。
②韵目排序法。类书的另一种编纂方法是“用韵以统字,用字以系事”。虽然采用这种方法进行分类排序的类书并不多,但其特点突出,影响很大,评价不一。从唐代颜真卿编纂《韵海镜源》开始,古人就采用按韵目排序的方式来组织知识,元代类书《韵府群玉》、明代类书《永乐大典》和清代类书《佩文韵府》堪称代表。
韵目排序法的最大问题是不能直观地反映知识体系,一组意义相同、相近、相关的知识,因为名称韵字不同,而四散在不同的地方。有时还要照顾到知识的特点以及知识之间的相关性,因此在编排时难免会出现体例不统一的问题,《四库全书总目》曾批评《永乐大典》按韵目编排的方法,谓:
此书以《洪武正韵》为纲,全如《韵府》之体。其每字之下,详列各种书体,亦用颜真卿《韵海镜源》之例。惟其书割裂庞杂,漫无条理。或以一字一句分韵,或析取一篇,以篇名分韵,或全录一书,以书名分韵,与卷首凡例多不相应,殊乖编纂之体。
《永乐大典》在体例上确有不一致的问题,但仔细分析一下,却是有原因的。
永乐皇帝命令编纂《永乐大典》,意在搜罗天下知识,而作为篇幅达22877卷三亿余字、抄成11095巨册的大型类书,究竟收录了多少知识,其中又包含多少知识元,今日已难统计。笔者根据存世800余卷中的191卷统计,其中共有知识名称4900余条,按此比例估算,《永乐大典》共有知识名称将近59万条,而在每个知识名称之下,还有不同文献的相关记载,其数实在难以估计。如果按主题分类编排,且不说编纂时的困难,即使是编纂完成后要查阅一个具体的主题,恐怕也不是一件容易的事,永乐皇帝在给解缙等人的谕旨中就说明了其中的缘由:
天下古今事物,散载诸书,篇帙浩穰,不易检阅。朕欲悉采各书所载事物类聚之,而统之以韵,庶几考察之便,如探囊取物尔。
由于内容太多、篇幅太长,“统之以韵”就成了一个必然的选择。也是同样的原因,清代类书《佩文韵府》虽然只有444卷,但实际内容远超1 000卷的宋代类书《太平御览》,全书收录韵字10 252字,知识名称达45万条,要从如此浩繁的文献中快速找到所要查阅的知识,“用韵以统字,用字以系事”便成了唯一可行的选择。韵目排序法,与今天的字典、辞典按拼音排序的原理并无二致,而西方的百科全书,也正是采用了这种排序法。
韵目排序法按韵编排,只是问题的一个方面。在采用韵目排序的同时,“类聚之”也是《永乐大典》这类知识工具的另一个分类与编纂特点。所谓“类聚之”,即根据知识的性质、特点分类编排。《永乐大典》仿元代类书《韵府群玉》“用韵以统字”,而《韵府群玉》的编纂凡例就很明白地说清楚了被统于韵的“字”是什么含义:
采摘事中紧切字为母,详系于平仄韵之下,一事或数出者,略载注云详某类。
所谓“紧切字”,即今所谓“关键字”,亦即知识名称中的关键字,这个关键字决定了知识的分类属性。汉语的一个特点就是由一个相同关键字组成的词组往往具有内容上的相关性,通过一个关键字,就可以将若干相关的知识按类聚集在一起,如《永乐大典》“九真”“神”字韵下,罗列了与“神”有关的知识名称418条,如“天神”“祷天神”“金人神”“花月之神”,也有“神将入舍”“神人入梦”“空中神语”,“神”始终是这组知识名称中的关键字,在这418个知识名称中,几乎都是古人心目中具有超自然力量的“神”的同义词、近义词或者相关词,“神”本身就是一个主题。《永乐大典》“十八阳”“乡”字下有“乡约”“乡劝”词条,特地注明:“'乡校’见'校’字下。'乡饮’见'饮’字下。'乡射’见'射’字下。”因为“乡约”“乡劝”都是以“乡”为单位的民事活动、习俗,关键字为“乡”,因此置于“乡”字之下。而“乡校”本是周代设在乡的一种学校,也是国人议政的地方,其关键字是“校”;“乡饮”是古代嘉礼之一,由乡大夫主持的一种饮酒礼,后来发展成一种地方官员设宴招待本土应举之士的礼仪,故其关键字是“饮”;“乡射”是古代“射礼”的一种,原载于《周礼·地官·乡大夫》中,其关键字是“射”。《永乐大典》“用韵以统字”,全书按韵排出大纲,大纲之下,“用字以系事”,根据关键字,列出具有相同、相近、相关的知识,仍然体现了知识工具汇聚知识、揭示知识之间关系的作用,既方便了查询利用,又兼顾了知识的系统性、关联性。
值得注意的是,在《永乐大典》中,除了根据知识名称中关键字的韵目编排外,常常还会将与该知识的其他相关知识附上,从而揭示出了知识与知识之间的关联关系(见图4),这一点也突破了《永乐大典》按韵编排的一般规则。
《永乐大典》“十八阳”“妆”字下,除“总叙”外,罗列了“佛妆”“墨妆”“闺妆”等31个与梳妆、妆容、服饰有关的物品、知识,通过分类,表明这一组词条的内容与性质都与“妆”有关。同时,又在“闺妆”一条下,再罗列“宫制蔷薇油”“香发木犀油”“洁鬓威仙油”“玉女桃花粉”等18种梳妆用品,甚至包括减轻少女缠脚痛苦的“西施脱骨汤”、治疗因缠脚引起伤痛的“金莲稳步膏”“玉屑飞云散”“削刺金刀散”,这些知识全部与“闺妆”有关,而与“妆”字韵完全无关。在“二质”“疾”字韵下,罗列了与“疾”有关的疾病、典故如“心疾”“腹疾”“目疾”等170条,其关键字全部为“疾”,而在其中“奇疾”下,又附列“妇人异疾”“呕物如舌”“孕妇腹内钟鸣”等相关疾病32个,除7个带“疾”字外,其余均无“疾”字,但都属于“奇疾”的范畴。在《永乐大典》收录的方志中,也有将地方志中所包含的相关专门知识重新按知识分类进行编排,如卷11905、11906、11907“广”字韵下,并不是按照《广州府志》重抄(从文本的体例判断),而是在“广州府”的主题下将所辖各县的相关文献按知识分类如“四至八到”“关津”“坊里”“附廓”“市”“塘”“镇”“土产”“土贡”“坑冶”等知识类别重新编排。
4
结语
①这是英国哲学家罗素对知识的一种分类。参见:罗素. 人类的知识[M]. 张金言,译. 北京:商务印书馆,1983:9-15.
②关于《禹贡》的成书年代,目前学术界主流的观点认为其成书于战国时代,主要根据是其中一些地名是战国以后才出现的。不过,也有学者指出,中国古代文献的特点是后人会对前人的著作不断修订补充,因此,今本《禹贡》最后成书于战国时代,并不意味着它所反映的只是战国时代的历史或地理知识,其中有些知识至迟在西周时期便已形成。
③许嘉璐先生认为《尔雅》的“释诂”“释言”“释训”三篇内容为释一般语词,后十六篇“无异于现代的专业语词”,并且认为“把一般词语和专业语词分开,这在当时是很了不起的眼光”。参见:许嘉璐. 《尔雅》分卷与分类的再认识——《尔雅》的文化学研究之一[J]. 中国语文,1996(5):321-329.
④参见:杨士奇. 文渊阁书目[M]. 国家图书馆藏明内府抄本. 北京:全国图书馆文献缩微中心,1985。另张溥所著《秘阁书目》主要是抄录《文渊阁书目》,其情形亦与之相同。
⑤《广弘明集》卷3引《古今书最》云:“《七略》书三十八种,六百三家,一万三千二百一十九卷,五百七十二家亡,三十一家存;《汉书·艺文志》书三十八种,五百九十六家,一万三千三百六十九卷。五百五十二家亡,四十四家存。”(民国上海商务印书馆《四部丛刊》影印明汪道昆刻本)此较今本《汉书·艺文志》多七家、一百卷(篇)。《隋书·经籍志》作三万三千九十卷。
⑥《永乐大典》所引新旧《唐书》本传几乎全同,唯《新唐书》部分稍异,特别值得注意的是,《永乐大典》引《新唐书·陈子昂列传》时,还抄录了董冲的《唐书释音》,大概《永乐大典》所据底本,与今日传世的《新唐书》不同(清乾隆四年武英殿刻本《新唐书》最后附有《唐书释音》,然非如《永乐大典》随文附录),颇具版本学意义。
⑦所谓“知识学”,来源于德国哲学家费希特的论述。费希特认为,知识学并不研究个别知识的正误问题,因为那是科学的任务。知识学探讨的是知识的一般发生的问题,是弄清楚知识是怎样发生的,知识成立需有什么先决条件,知识有哪些基本要素,它们是怎么来的,它们彼此之间有什么关联等。参见:王玖兴. 译者导言[M]//费希特. 全部知识学的基础. 上海:商务印书馆,1966:5.
⑧今敦煌文献中尚存残叶,参见:法国国家图书馆藏敦煌文献:第15册[M]. 上海:上海古籍出版社,1995:133-138。或谓为更早的《华林遍略》,详见:刘安志. 《华林遍略》乎?《修文殿御览》乎?——敦煌写本P_2526号新探[M]//刘安志. 新资料与中古文史论稿. 上海:上海古籍出版社,2020:227-266.
联系客服