全域科学图谱和叠加图

科学这么抽象的东西能像地图一样画出来么？

——亨利·斯莫尔（Henry Small）

科学图谱将改变你看世界的方式。

全景科学图谱提供的基础图谱使得交互叠加图谱分析成为可能。

——陈超美

绘制科学图谱：由引用1988年韦克菲尔德论文的706个语句组成的69个聚类

科学图谱在过去的十年中取得了显著进展。强大的技术已越来越多得被研究和分析人员使用。在此我们介绍一些最有代表性的科学图谱的生成。我们的最终目标是要确定科学学科之间是如何互相关联的，如医学和物理学存在怎样的联系，化学和地质学共享什么主题，科学基金在所有学科中是如何分配的等。绘制一个学科的边界线是具有挑战性的，绘制一个不断发展学科的边界线更是如此。我们将重点介绍一些近年来的研究进展实例。

科学学科图谱

USCD图谱是一张科学全景图谱，它描绘了期刊的554个聚类，以及这些聚类作为科学的子学科是如何相互关联的（图1）。这幅图谱首先由理查德·克拉万斯（Richard Klavans）和凯文·博雅克（Kevin Boyack）于2007年为加利福尼亚大学圣地亚哥分校（UCSD）创造。在图谱上的数据来源于汤森路透的Web of Science（2001～2004）和Elsevier的Scopus（2001～2005）二者的结合。使用18种不同的方法计算期刊间的相似性，形成期刊-期刊连接矩阵。然后根据期刊聚类，合并这些矩阵形成一个包含554个学科的网络。图谱使用Pajek中的3D Fruchterman-Reingold布局功能生成。利用墨卡托投影方法，将该球形图谱在一个平面上展开成二维图谱。根据聚类中期刊名称，对每一个聚类进行手工标识。将图谱的二维版本进一步简化成一维的圆圈图（circle map）。利用因子分析对13个标识好的区域进行排序。这个圆圈图已被Elsevier公司的SciVal Spotlight平台所使用。

图1 UCSD的科学地图。在地图中的每个节点是期刊的一个聚类。聚类是基于期刊间和关键词间的文献耦合组合所形成的。13个地区是手动标记的

UCSD图谱的目标是为研究评价提供一个基础图谱。基于该图谱中的554个聚类，它可以比Web of Science的主题类别提供更多的学科种类。虽然它最初的目标是用于研究评价，但是这个图谱也被用在其他的系统中，例如Sci2和VIVO，用作基础图，在基础图上可以添加其他的信息。UCSD图谱被创造出来后不久，克拉万斯和博雅克得到结论，相比期刊层次，基于论文层次的聚类地图用于研究评价更为合适。

图2 中国的研究领先领域。左图：学科层次的圆圈地图。右图：嵌入一个学科圆圈地图的论文层次圆圈地图。研究领先领域位于相应学科和范式的平均位置。节点密度表示领先节点的数量、相对文献份额（relative publication share，RPS）、相对参考文献份额（relative reference share，RRS）或者当前发展状况（state-of-the art，SOA）的数量。

地图布局步骤要达到两个目的：一是优化期刊布置使地图上期刊间的距离与它们的相异性成比例；而另外一个就是基于布局过程生成的距离能够将期刊聚类。利用VxOrd算法做出地图布局，该算法在布局过程中忽略了距离较远的连接关系。利用一个改进的单链接聚类算法，基于结果图布局中的节点接近度来确定聚类。在单链接中，两聚类间两个最相近元素间的距离被用来计算两个聚类的距离。最后得到的地图包含了期刊和会议文献的812个聚类（图3）。这个地图被用作多个叠加层的一个基础地图。特别地，利用这个地图，能看到一个机构的位置。清晰圆圈的聚类只包含了期刊论文。相反，阴影圆圈的聚类包含了会议论文。如地图上所示，会议论文的大多数位于计算机科学（CS）和物理学之间；而像病毒学这样的学科，期刊论文几乎占主导地位。

图3 期刊和会议记录的812个聚类的学科层次图谱。每个节点都是一个聚类。节点的大小代表聚类中论文的数量（资料来源： Kevin and Boyack， 2009）

最近，克拉万斯和博雅克基于Scopus 2010年的数据创造了一个新的科学全景图谱。新的Scopus 2010图谱是论文层次图谱，描绘了170万篇论文的116 000个聚类（图4）。Scopus 2010图谱是一个混合图谱，因为其中的聚类是基于引用关系生成的，而布局则是基于文本相似性得到的。基于每个聚类中论文标题和摘要的词语，利用Okapi BM25（一种算法）文本相似性来计算聚类间的相似性。聚类步骤没有使用同时基于文本和引用的混合相似性。对于每个聚类，只保留5～15个有最强连接关系的聚类。聚类标签则是手动添加。

图4 170万篇论文的116 000个聚类的Scopus 2010全景图谱（资料来源：Klavans and Boyack）

科学学科的全景图谱提供了一个方便的基础图谱来描绘更多的主题特征。图5展示了如何添加一个主题叠加图到Scopus 2010基础图谱。在Scopus 2010图谱上，叠加图添加了一层橙色圆点到聚类上。橙色圆点标记了那些在论文致谢中提到美国国家癌症研究所（NCI）基金资助的论文。叠加图提供了一个NCI资金覆盖的研究领域范围的直观概览。

图5 Scopus 2010全景图谱上展示了致谢NCI资助的论文的叠加图（资料来源：Kevin and Boyack）

跨学科和相互叠加

除了我们前面所介绍的成果，研究人员一直在开发另一种很有前途的方法来生成全景科学图谱，并用它们来执行一个关于学科关系和学科交叉的研究计划。

跨学科的研究涉及大量的认知差异。我们怎样衡量和传达这样的认知差异给单一学科的研究和评估人员？英国萨塞克斯大学科技政策研究所（SPRU）的研究人员伊斯梅尔·拉佛（Ismael Rafols），美国佐治亚理工学院技术政策和评估中心的艾伦·波特（Alan Porter）教授，以及荷兰阿姆斯特丹大学的阿姆斯特丹传播研究学院（ASCoR）的雷迭斯多夫教授，他们一直在从事跨学科研究，开发了他们所谓的科学覆盖地图方法来研究若干涉及跨学科研究的问题（Rafols et al.， 2010）。

图6展示了一个全球科学叠加基础图谱。每个节点代表一个Web of Science中的学科门类。雷迭斯多夫提供了一套工具，个人能用这套工具在基础图谱上生成一个叠加层。作为科学叠加图谱的一篇早期论文，2009年2月发表的这篇论文（Leydesdorff and Rafols， 2009）在2009年12月被汤森路透的《科学观察》（Thomson Rueters’ScienceWatch）誉为快速突破论文（fast breaking paper）。快速突破论文指的是以两个月作为统计时间间隔，在这两个月时间中，在其所在的领域中被引频次增长最快的文献。

图6 全景科学叠加基础图谱。节点代表Web of Science类别。灰色连线代表认知相似程度。（资料来源： Rafols et al.， 2010）

叠加图谱方法分为两个步骤：① 创建一个全景科学图谱作为基础图；② 叠加一组特定的文献，如来自于某一给定机构或主题的文献。连同这个方法，研究人员已经提出了一套可用的工具，使每个人都可以利用他们的工具生成自己的科学叠加图谱。该工具包是免费使用的。

交互科学叠加图谱被保存在一个网页上。这些交互图谱可以让我们去探索学科是如何相关联的，以及一个机构的文献是如何分布到各个区域的。图7是一个交互地图的屏幕截图。鼠标悬停显示了葛兰素史克（GSK）与临床医学学科相关的文献，表示为圆圈中的红色圆点。

图7 葛兰素史克公司2000年和2009年间文献的一个交互科学叠加图谱。红色圆圈是葛兰素史克（GSK）关于临床医学的文献（鼠标悬停在临床医学标签上）（资料来源：http://idr.gatech.edu/usermapsdetail.php?id=61）

在叠加步骤中，一幅叠加图被附加到一组给定文献的区域之上。例如，将一个机构或者团队发表的文献附加到全景科学基础图谱之上。人们可以使用从Web of Science下载的任何数据集作为叠加层。叠加层方法的优势在于人们可以很容易地识别一个机构的学术活动领域，不管该机构发表文献的参考文献如何广泛分布在各个学科领域，抑或该机构只侧重于发展某个学科。

科学叠加图谱在如下方面表现出了很好的灵活性，包括对知识领域的跨学科性随着时间变化的发展情况进行研究，对系所、大学或者大公司的研发部门进行比较，以及追踪科学研究课题的扩散。图8展示了由Leydesdorff用VOSViewer软件制作的较新的基础图谱。

图8 展示在VOSViewer上的JCR期刊的相似性地图

双图叠加

在单一图谱可视化中，许多引用图谱都被用来展示引用来源和引用目标的其中之一而不是二者同时。主要原因是，引用和被引论文的混合可能大大提高图谱的结构和动态复杂性。如果在一个单一图谱中将引用和被引论文结合在一起，似乎不会带来多大的好处。虽然一个混合结构在某些诸如激烈争论的情况是符合需要的，但是研究人员在考虑如何将引用和被引结合起来之前，更关心的是如何对不同的论点进行区分。

由乔克·迈肯尼（Jock Mackinlay）及其在施乐公司的同时设计的蝴蝶系统（Butterfly）展示了在同一视图中的两端（引用和被引），但是他们的研究集中在单篇文献层次，而不是几千本期刊的宏观层次（Mackinlay et al.，1995）。尤金·加菲尔德（Eugene Garfield）的HistCite描述了文献中的直接引用关系。然而，随着引用数量的增长，网络趋于杂乱，这对于网络的可视化来说是一个常见的问题。

我们引进了双图叠加设计在同一视图中描绘引用叠加层和被引叠加层图谱。双图覆盖图在单一的叠加图中有几个优点。第一，它完整表现了一个引用实例。我们能够一目了然地看到它的起源和它的指向。第二，它使不同作者群体所形成的引用模式的比较变得容易，如不同机构的作者，或者相同机构但是不同时间点的作者。第三，它开辟了更多的研究问题，可以用新的研究方法加以解决。例如，在来源和目标两方面研究跨学科性成为可能。根据它们在两个基础图谱的足迹使跟踪科学前沿的发展成为可能。

一个双图基础图构造的初始步骤相同，但后面的步骤不同。一旦可以获得期刊的引用和被引矩阵，就能建造一个双图叠加图谱。聚类信息不是必需的，但如果可以获得聚类信息，附加功能就成为可能。在接下来的详细描述中，我们假定至少一个聚类集合对每个矩阵可用。在这个例子中，通过应用勃朗德尔聚类算法来得到聚类。图9是双图显示的截图，包含引用期刊（左）的一个基础图和被引期刊（右）的一个基础图。

图9 在引用期刊地图（左）和被引期刊地图（右）中的勃朗德尔聚类。重叠多边形显示出空间布局和聚类仍然包含相当程度的不确定性。基于坐标计算的矩阵将不确定性考虑在内

对于在引用网络中的每个期刊，它的聚类与期刊连同坐标一起存储。坐标可以从诸如VOSViewer， Gephi或Pajek等网络可视化程序中获得。每个聚类成员都用相同颜色画在图谱上。

大量叠加层被添加到双图基础图中。每个叠加层需要包含引用信息的文献记录，例如，从Web of Science中检索到的记录。最小的集合可能包含一篇单一论文。最大集合的大小则没有限制。利用期刊叠加层图谱，每个引用实例用一个圆弧表示，圆弧发端于引用基础论文中的来源期刊，末端为被引基础地图中的目标期刊。来自于相同集合的圆弧用相同颜色表示，以便来自不同集合的引用模式可以通过它们独特的颜色进行区分。

图10展示了两所iSchool从2003到2012年发表文献的英文的双层图谱。Drexel大学的引用圆弧用蓝色表示，而雪城大学信息学院的引用圆弧则用洋红色表示。乍看之下，图谱上半部分以蓝色圆弧为主，代表了Drexel大学研究者的论文发表领域，而雪城大学在这些领域基本上没有发表过论文。双层图谱显示Drexel大学的研究人员不仅在数学与系统科学期刊相对应的领域发表论文，在其他领域发表的论文也收到系统、计算与数学期刊的影响。图谱下半部分的重叠圆弧表明，在这些核心期刊，两个机构都有论文发表。

图10 来自Drexel大学的iSchool（蓝色的弧）和雪城大学信息研究学院（洋红色弧）文献的引用圆弧揭示了他们知识基础和研究前沿的不同

还有一个例子，图11对两组数据进行了比较。一组是关于h指数的论文（绿色，大多出现在图谱的上半部分），另外一组是引用2006年JASIST的关于CiteSpace II论文的文献，这些文献的引用圆弧大多发端于引用期刊基础图谱的右下部分。这张图片表明关于h指数的研究非常广泛，尤其是在物理学期刊（金色，聚类5），引用的期刊也属于同一类别。相反，引用CiteSpace II的论文集中在少数几本期刊，但是引用了聚类中的大多数期刊。

图11 h指数论文（青色）和引用CiteSpace的论文（红色）

总之，全景科学图谱提供的基础图谱使得交互叠加图谱分析成为可能。双图叠加图谱在同一视图中展示了引用期刊和被引期刊，从而可以更加简单地根据来源期刊和目标期刊比较不同群体的引用行为。

本文摘编自[美]陈超美所著《科学前沿图谱(知识可视化的探索第2版)》一书。该书从跨学科的视角探索了知识可视化的历史进程及其最新进展。从无形学院和库恩竞争范式，到运用可视化技术绘制知识结构图谱，再到科学发展进程中的各种兴盛与衰落。通过大量色彩丰富的图片，深入浅出地将绘制科学知识图谱的原理、方法及技术娓娓道来。本书既涉及简单易学的可视化步骤和模型，也包括应用于实际的具体案例分析，是一本对于研究者和实践者都很有价值的参考书。

敬请关注科学出版社，搜索微信ID：sciencepress-cspm 或“科学出版社”公众号

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。