打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
量化城市︱耶鲁大学6000年全球城市发展史开放数据集
编辑团队

原文/ Meredith Reba, Femke Reitsma, Karen Seto 

翻译/ 相欣奕(西南大学) 文献/ 李天娇     

编辑/ 众山小     排版/ 徐颖

译者萌像与导读:我们曾经为大家呈现了耶鲁大学城市化及全球变化Seto实验室所完成的值得赞叹的工作( 参阅我号2016-06-28微文《城市星球︱耶鲁大学运用大数据与可视化地图呈现6000年城市发展史》)。而今天介绍的这篇文章是这项工作的延伸。对人口增长以及城市化的空间模型进行了改进,对城市化进程、历史学研究以及前瞻性研究都将做出重大贡献。这是福利,是福利,是福利!

 


一览众山小

可持续城市与交通


感谢各位读者对本文的关注,如果您在学术论文发表或者学术报告中引用,敬请列明对此项工作的参考引用以表谢意:


作者: Meredith Reba, Femke Reitsma, Karen C. Seto

文章来源信息:Scientific Data,文章编号:160034 (2016) doi:10.1038/sdata.2016.34

请注明中文译文来源:一览众山小-可持续城市与交通微信公众号

译者:相欣奕(西南大学)


2017/5/23

一览众山小讲述

6000年城市发展史

6000年全球城市人口变迁历程的数据,凝聚着历史学家Tertius Chandler 30年心血,政治学家George Modelski多年孜孜不断的努力,他们翻阅大量历史文献资料,从如海的故纸堆中淘沥出宝贵的线索与信息,以各自出版著作呈现。耶鲁大学Seto实验室的Karen Seto及其团队成员,充分认识到封存在纸质书籍中这些数据的伟大价值,他们投入大量时间与资源,从纸质书籍中把信息挖掘出来,对全球1000多个城市6000年来的10000余项数据逐一转录核对,并进行地理编码空间化处理,以电子数据表和地图的形式向我们呈现。


他们的种种努力得到的成果,我们轻易就可下载并引用开展分析与研究。下载地址如下:“城市化与全球变化Seto实验室”网址:www.urban.yale.edu/data。


文末索取资料下载



摘要:

 

历史上来看,城市在全球如何分布?

曾经有多少人居住在这些城市之中?

城市对当地环境和区域环境产生何种影响?

 

为了对当前时代的城市化有深刻理解,我们必须对长时期的城市化趋势及模式有所把握。但是,截至目前,我们并未有任何全球尺度上空间对应的、历史性的、各个城市层面的人口数据。在此,我们开发出从公元前3700年至公元2000年期间城市聚落的首个空间数据集。我们基于对Chandler和Modelski之前发布的以表格形式呈现的历史、人类学和统计的城市人口数据的进行数据化处理、转录以及地理编码的方式实现。数据集生成的过程也需要进行数据清理和协调,从而使得数据保持内部一致性。除此之外,我们还为每个地理编码位置创建了可靠性评级,用以对各个数据点的地理不确定性进行评价。这一数据集为6000年漫长历史中城市分布地点以及城市人口规模提供了空间展示,能够让人们对当代和历史城市化趋势有更为深入的理解。


 

精彩正文

由此开启


无论是出于对重大灾害迅速响应,为了提供灾后救援,为了评价人类对环境造成的影响,或者为了估计危险易感人群,了解人口与城市的地理分布情况都是至关重要的。除此之外,对人群规模和所处地点随时间出现的地理变迁加以掌握,有助于理解人种的演进特征,特别是人类与环境的互动。今时今日,人类已经成为了城市种群,那么,城市人群随时间如何发生变化,则成为了崭新的研究问题。过去城市分布在何处?这些城市人口规模如何,大城市与小城市的地理分布情况又是如何?很多学者质疑当今城市化的可持续性,认为当前城市化的速度和规模都导致城市化与生物圈之间形成了全新的关系。然而,为了把城市人口过程放置于历史背景之中考虑,并对其未来可能的轨迹加以理解,我们需要掌握长时期历史性城市化趋势与模式的大量数据。


截至目前,唯一可用的覆盖全球的城市人群空间数据是 United Nations World Urbanization Prospects(联合国世界城市化展望)1。这一数据库被视为是全球城市人口数据的最为权威的来源,为遍布全球的主要城市群提供城市人口信息。可供使用的数据是人口达到或超过300,000的地点的经度和纬度。然而,这是数据最早开始于1950年。所以,我们在此为大家提供全球城市聚落6000年空间分布数据库。这堪称是前所未有的一个数据库。



耶鲁大学城市6000年发展史


我们所开发的数据集,主要使用了以下两个数据来源: 《四千年城市增长: 历史人口调查》,作者为历史学家Tertius Chandler,以及《世界城市:从公元前3,000年至公元2,000年》, 作者为政治学家George Modelski。提醒大家注意的是,在此呈现的数据集是Chandler和Modelski 原数据集的空间展示。我们并未对人口估算值做任何编辑。我们为每一个聚落地点提供了经度和纬度数值,从而实现了数据集的协调以及数据的空间化。我们尚未把这些城市点的位置进行城市范围或者城市面积的估算。


我们开发这一数据集的最初动机在于,去验证一个屡屡被引用的假说,即从历史上来看,城市发源于肥沃的农业地区。尽管城市最早记录的其位置可以追溯到美索不达米亚平原的苏美尔地区,即今日的科威特和伊拉克,但是在农业区或者与农业区邻近的城市会比别处城市发展迅速的假说并未得到系统性的验证。跨度至少为数百年的城市人口及其所处位置的漫长记录,或许有助于确定城市发展以及界定或限制城市发展的地理因素之间的关系。因此,这一数据集最初开发,是为了验证城市人口增长的历史模式和速率与城市与农业生产区的邻近度之间的关系。但是,这一数据集的用途远不止于此。时间跨度为数千年的城市人口地理定位数据集,是人类聚居学发展不可或缺的第一步。尽管我们的数据集存在很多限制性,包括时间和空间的分散性,因而与“综合全面”的目标相去甚远,但研究人员却可以此为开端,探索城市聚落的地理演变过程,城市增长与资源之间的相互关系,城市人口增长的地理格局,以及城市聚落增长与衰落的长期循环周期。简而言之,这一数据集是我们迈向理解漫长历史进程中全球城市人口的地理分布的第一步。


著名的城市史研究者路易斯芒福德,在为《城市发展四千年》这部著作所撰写的前言中这样写道,“历史城市研究最为严重的一个缺陷在于,缺少关于城市面积、密度和人口的特定的统计信息”为了填补这一知识的空白,Chandler把30年学术生涯投入其中,用于测定和内插不同时代全球城市人口估计数值。Chandler孜孜以求的研究工作,产生出当前最为全面的城市层面人口数据集。


Chandler的研究中,仅仅包含了各个时代那些最大的城市:从AD 800 至AD 1850 时段内人口超过20,000 的城市(亚洲城市除外,针对这一时期的亚洲城市而言,其人口阈值为40,000),以及自AD 1850之后人口超过40,000的城市(针对所有地区适用)。他使用的方法如下所列: (1) 收集整个历史时期世界重要城市的当前人口数和人口变化信息,(2)开发出多种方法,用以在人口数据缺失的情况下对城市人口数值进行估算。


Chandler所使用的数据来源多种多样:统计数据,学术性报道,旅行者日记,百科全书,地名词典,旅游指南,图书馆员,学者,税收文件,街道密度,公共浴室计数,灾难伤亡人数记录,以及城市的宗教史。Chandler把通过这些来源收集得到的数据,与不同时段全球各个城市人口估算数值对应。首先是针对某一特定城市获得一个人口因素,比如售出的面包数量,随后使用一个相关的乘数。在尽可能的情况下,采用多项人口因子对人口估算数值进行交叉检验。有的时候,基于长期记录所得到的人口增长率或者人口下降率也用来对人口数值进行估算,比如日本东京。Chandler 还针对具有城墙的不同的城市估计了人口密度和人口密度因子。比如,保留原有城墙或者城墙历史较为古老的城市,与同一城市城墙外扩新建之后的状态相比较,认为其人口密度因子就会更高,因为城墙外扩通常被认为是城市人口密度增加导致的结果和表征。Chandler对于每个城市每个时段人口的估算,采用了不同的方法。在Chandler的文本中,对这些方法进行了讨论,请参见其参考文献来源 (比如,请参见图1的第4列)。


图 一、Chandler收集的文本示例


Chandler “古代城市数据表”章节页面示例,这是城市人口数据以及城市起源描述的主要章节。第一列列出的是人口估算对应年份;第二列—人口估算数量 (有下划线的数值是Chandler所估算的人口数值);第三列—估算数值的推导;第四列—引用信息。如果对特定的城市、时段或者人口估计数值感兴趣,那么所提供的详细信息可供作为进一步参考引用的数据来源进行深入分析的起点。


尽管Chandler的数据集是历史城市人口数据集开发的里程碑,但仍存在特定的限制性,即这一数据集在时空上是分散的。从时间上来看,测定的或内插得到的人口数值之间存在间隙,通常会有数百年甚至数千年的时间间断。空间上来看,在整个研究时间范围内,数据集中仅包含了1,599 个进行了地理定位的城市。因此,显而易见,这一数据集自身并不能够作为整个历史时期全球城市人口的综合性表达与呈现。这一数据集,仅仅列出了特定的时段内具有重要意义的城市的城市人口信息。


Modelski在Chandler的工作上进行了扩展。Modelski特别关注了从3500 BC至1000 BC时段的城市聚落,重点在于苏美尔城市、东亚城市以及欧洲-地中海城市,这些在Chandler的工作中并未有充分的代表性。Modelski 援引了Chandler所使用的城市人口最小值对城市进行定义: 


a.古代时期 (3500 BC至1000 BC):≥10,000居民

b.古典时期 (1000 BC至 AD 1000):≥100,000居民

c.现代时期 (AD 1000以后):≥1,000,000居民


Modelski 还把Chandler的数据集进行了扩展,通过考古学记录、历史工程以及统计数据等多种来源补充了数据,同时还为其提供了排序原则—又名齐普夫定律或者幂法则。齐普夫定律列明,当在某一系统中按照规模对城市加以排序时,各个城市人口与其排序成反比—也就是说,第二大城市的人口是最大城市人口的一半。参考考古学现场评价以及对人口密度因子的计算,Modelski能够把Chandler初创的工作时段拓展1,475年。他在说明性文字中展示了这一信息,列明、解释并把城市聚落中人口的变化情况进行了量化。此外,他还对导致这些变化的历史事件提供了详细说明,同时也提供了表格形式的人口估计数值 (图3)。


图二、Modelski 数据表示例


由Modelski提供的Microsoft Word格式的数据表示例。 用黑体加粗的文字列明城市,对城市按照其所处地区分组 (此处为南亚和东南亚)。人口数值的单位为千人。这些表格会被转为Excel格式,如附图1所示,以供进一步分析使用。

 

Chandler和Modelski都使用了多种变量以确定其最终城市人口数值。变量组的变化,也反映出持续至今在城市定义上存在的差异。尽管联合国提供了全球城市人口估计数值,但不同国家城市和城市人口的定义存在差异。某些国家采用行政边界或者政治边界对城市区进行界定。而另一些国家,则把城市区定义为呈现特定特征的地点,比如能源基础设施特征。或者通过城市人口特征对城市下定义,比如人口规模或者人口密度。挪威把城市定义为居民达到200人的地点。而就日本而言,所定义的城市,居民数量至少应达到50,000。即便是在同一个国家之内,城市定义也会随着时间变化而变化。比如,在20世纪之内,中国城与市的定义就出现了数次变化,较早期的定义是基于法定的城市和城镇的命名。最新的中国城市定义,则关注的是人口密度以及城市基础设施的状况。

 

因此,Chandler和Modelski在对城市估算中使用了不同的定义和标准,这也是在情理之中。尽管有人认为定义中存在的诸多差异导致无法进行直接比较,使之难以进行整合,但是我们却相信,这些多维度、多变量的城或市的定义,有助于加深我们对其特征的理解与把握。毫无疑问,城市是一个多维度的概念,因而,不同专业和研究团队对城市进行不同方式的定义。如果在整个历史进程中,城市的概念与定义存在任何共性的话,那么这一共性就是,城市区域与非城市区域相比较,可提供更高的生活品质,以城市区有更多机会和更多服务而展现出来。


在城市的相关文献之中,我们发现城市定义存在的差异并不一定会在研究中产生问题。显然,在单一的发展与人口动态模型之下对城市化过程开展研究是不准确的,因为这样就忽略了特定城市所处背景环境的显著差异。同样,在对人口进行估算时,特定的城市或者特定的时段可能会更适合于特定的人口变化因子和方法。但是,必须有适宜使用的进行比较的方法。Chandler和Modelski试图在尽可能的情况下对这些人口因子和方法进行交叉检验。毫无疑问,误差仍然存在,如果使用的系统更加严格可靠,则这些估算数值就可得到强化与提升。


Chandler和 Modelski采用了不同来源的数据和分析方法创建了他们的数据集,他们两人的成果都已经被广泛使用于研究之中。实际而言,这两个数据集是1950年之前全球尺度城市人口仅有的两个数据集。根据2016年3月15日通过Scopus 对引用作者进行搜索,发现Four Thousand Years of Urban Growth 被引用达 199次(包含在1974年和1987年此书的修订版),而 World Cities 以及所检索到的Modelski经过同行评审发表的一篇期刊论文,被引用超过47次。这两位的成果被用于多种多样的领域,包括地理学、经济学、社会学、人口学、历史学、人类学以及健康科学。


Chandler的工作,在涉及单个城市人口数据点时经常被引用。比如,在公元1800年,北京城市全球唯一人口达百万的城市 (参考文献10,11)。还从Chandler 的数据中提取出特定时段的特定地理位置,用以对AD 1700至AD 1850期间复兴的城市利物浦开展研究(参考文献12),从而比较AD 1865–AD 1900期间世界大城市和小城市生活条件(参考文献 13),或者去评测与经济发展水平相关的经济制度。这些数据还可供更多用途使用。


图3提供了我们的数据集构建的框架示意图, 在方法章节用来阐明数据集的开发过程。 


图 三、研究框架路线图



 

信息转换


Chandler的著作中,在多个图表中提供了从2250 BC到 AD 1975期间人口数据。本书共有656页,每页尺寸为 9×5.5英寸,分为若干章,包括来源与方法、各个大陆信息表与地图 (重点列明主要城市的位置,如图4所示), 古代城市数据表 (本书主要表格如图1所示),世界最大城市信息表,以及为人遗忘的城市的下落。古代城市数据表 章节 (图1) 中每一页包含15-30个数据点。这些页面被分为四列: (1) 数据年份 (2) 人口数值 (下划线数值为 Chandler的估算数值), (3) 人数估算来源的文字说明以及 (4) 每项的引用信息。 


图 4: Chandler地图示例


Chandler著作中的大陆示意图。尽管可用来确定某些城市所处位置,但即使在原文件之中这些图的质量都差异很大,仅能提供大致的位置。

 

与任何数字化的项目都相同,本项目要完成的一项重要工作就是,把印制出的文字,此处是硬质封面的书籍,转换为数字化格式。为了完成这一任务,可采用数种不同方法。Chandler的著作有656页,其规格适合使用Kirtas 图文转换仪。采用光学文字识别 (OCR)系统,把印刷的文本转换成为编码格式。OCR系统能够把文本转化为便携式文件格式(pdf),使用文字处理程序即可对其加以操作。这与扫描仪有所不同,扫描仪是把印刷的页面转换为图片,无法进行编辑和操作。


我们计划使用Kirtas 图文转换仪把印刷的文本转变为数字格式。然而,由于印刷书籍的字体问题,不易于被机器识别,又因为印刷页面质量不同,我们尝试了多种OCR软件—Microsoft One Note, Adobe Acrobat Pro, 以及 Free OCR—都不能够把这些印刷的文本进行准确转换。使用 Kirtas图文转换仪进行多次尝试之后,这种方法被弃用了,书中的信息被手动输入转为Microsoft Excel (图3)格式。一共有1,746个城市位置被转出并由研究助理核对两遍,以排除转录中出现的错误,并确保其准确性。如果发现存在不一致情况,我们就查找原文件进行评价与修补。Chandler最终的数据集中包含 1,599个城市地点,因为开始列出的某些城市后来被合并,或者无法准确对其进行准确的地理编码。


我们直接收到了作者为我们发来的Modelski数据集,是数字文本格式,如图2所示。本书一共245页,其中包含说明性的文字,对人口数据的变化及其原因都进行了说明。我们把这些Microsoft Word 表格转为了Excel表格,与 Chandler数据集的格式相同。沿着纵轴列出国家名称,沿着横轴列出时段年代,如附图1所示。 


 

地理位置


地理定位指的是为某一记录提供特定的地理坐标,或者经度与纬度数值,从而列明其在地球表面的位置。如果原始数据并未进行地理定位,则这一步骤通常会成为任何空间分析中的第一步。如果记录数据可适合于进行批处理的话,则可使用在线地理编码平台,比如 CartoDB 或者Google Places API (应用程序接口) 对大量数据进行处理。这一过程就使得所有位置 (某些地理编码服务有预设的限制,比如Google Places API每天可执行10000次查询) 可作为一批次提交,不需交互操作或者分别处理。


地理编码或者地理定位工具在医学领域相关研究中频频使用与讨论,比如公共健康或者流行病学等。在这些研究之中,地理编码通常关注的是个人地址层面。


而我们在研究中对城市人口数据进行地理编码,则使用的是单一的中心纬度和经度点,在使用的地理编码数据库中有2至8个显著的数据与之相关。城市范围数据,或者城市形态数据,对城市边界而非城市中心点进行了界定。因为缺少可用数据,所以并未包含在我们的研究之中。 对于城市范围信息的缺乏,可能会对使用本数据集开展分析的类型有所限制,但是,对于人口规模的估算,是通往对城市范围开发出更为综合全面的数据集的第一步骤。比如,使用这一数据集,研究人员可基于对人口密度和土地利用的假定来估算城市范围,然而,这样就使得不确定性加重一层。毫无疑问,最终经过地理编码的数据集的质量,取决于原始数据的质量与限制。


在两个数据集转换完成之后,针对每个城市都进行了地理编码,或者为其列明了对应的经度和纬度数值。6个不同时段全部数据集的空间分布,连同每个时段各个城市数据点出现的频率,绘制为图5中的a-f。图 g 呈现的是6个时期中每个时期的人口加权全球平均中心 (GMCs) 。GMCs 展示出给定时间点地区人口的中心,可用来追寻人类聚落分布格局以及在全球尺度上随时间变化而出现的变迁。我们计算了每个时段的GMC,用以确定各个时代全球人口中心。最终数据集中包含了Chandler以及 Modelski两人的数据,使用者可自行判断选择使用。但是,需要指出的是,GMCs的计算仅仅是这一数据集诸多可能用途中的一种。 


图五、时空呈现—数据点全球视图


(a–f) 展示出不同时期城市人口点在空间和时间上出现的频率。 (g) 展示的是相同时期的全球平均中心(GMCs) 。每一个 GMC都使用各个数据点的城市人口进行了加权处理,随后进行计算,并绘制在这一Goode Homolosine投影图之中。

 

最开始的时候,我们使用了地理编码软件平台,比如 CartoDB (图3)。 但是,因为时间跨度长,数据覆盖全球,随着时间变迁,城市名称有所变化,同时还在不同的地点有多个使用相同名称的城市。这些相似性以及名称的变化,导致城市名称与城市地点之间产生出错综复杂的关系,难以自动的把单个城市与它的地理位置一一对应。

 

接下来,我们使用了GeoNames 数据库,来对 CartoDB 的结果进行提升。这一数据库,或者地理志,其数据取自于美国地理名称委员会,维基百科,地理空间情报局以及来自70多个国家涵盖250个地区的“大使”提供的数据,他们的作用在于发现潜在的全球城市/地点位置数据源,诸如军事、政府、教育以及基于地图的数据源。不断努力改进,得到了一个已有1000多万地理名称的数据库,全部可以免费下载了。Geonames 包含居民超过1000人的城市的综合全面的列表,替代的城市/地点名称、地点类型以及相应的经度和纬度全部包含在内。可以通过下载大文本文件获取数据,或者使用其网络服务(API)进行位置匹配。我们下载了居民超过1000人的城市的文本文件,插入表格,两个表格合并为一个,使用 ArcGIS 软件把城市与其相应的经度和纬度数值加以匹配。


GeoNames 地理志的确存在巨大的挑战与明显的限制性。首先,很多城市随着时间变化更改过名称,但是GeoNames 并未对古代地点或者城市提供坐标。为了解决这一目的,使用了考古遗址的古代地点数据库以及地理名称叙词表 (Getty Thesaurus of Geographic Names)。GeoNames 仅仅包含了城市点数据,也就是说,其中并未包含城市范围数据。大部分情况下,GeoNames通过计算城市的质点确定这些点数据。但是,有些地点似乎使用的城市范围内其他一般点位置。这样的不一致性,可能是因为数据库使用者的贡献所导致。还有很多城市和地点使用相同的名称,这样也为 Geonames 和 ArcGIS 的使用带来了挑战,会导致相同的城市名称出现多个匹配项。


尽管比开始的方法更为成功,但仍然存在无法匹配的城市,或者匹配到不准确地理位置的城市。这些误差是因为Chandler 和Modelski的数据集数据质量的差异所导致。就Chandler的数据集而言,只有大约50% 的城市名称包含其相应的国家名称,在表格中列出,也可以与书开始的大陆地图进行交叉索引。但是,如图4所示,这些地图的图片质量有极大差异,原书中地图质量都不如人意。 Modelski的人口数据表中,也仅仅包含了 按照地区/大陆分组的城市名称。未列出所在国家名称,确定城市准确的地理位置就变成了具有挑战性,且耗费时间的任务。 因此,我们在Chandler和Modelski的数据集中增加了最为可能对应的国家名称。 


拼写方式不同,排版错误,地名缩写,以及随着时间变化城市名称出现变化等等因素,都让地理编码的过程变得复杂且阻滞重重。毫无疑问,采用大的综合性的数据集开展工作,需要投入大量时间和精力,用于手动和程序数据清洁。


最后,所有条目的准确性都经过人工检查。这些误差都采用对应Google Earth 和 Wikipedia’s GeoHack toolservers 的逐一查找,逐一修改,提供了地图资源以及世界大地坐标系 1984 (WGS 1984) ,可供进行基于坐标系的地理定位。GeoHack 视觉强化了特定的地点,因为利用了多种世界地图服务,诸如 GeoNames, Google Earth, Google Maps, OpenStreetMaps, MapQuest, 以及Bing Maps等。针对古代城市位置,还是用了古代地点数据库,地理名称叙词表Getty Thesaurus of Geographic Names, 以及 GeoHack 数据库。


因为名称和拼写出现了变化,导致城市地点不能匹配,因此不到10%的数据组被弃用了。最终地

理编码结果有 90% 的匹配率。对于基于地址的数据而言,确定一个数据集是否空间可靠而言所必须的标准最小匹配度为85%。


尽管逐一查找耗费人力,也会存在人工转录的错误,因为原始数据格式所带来的挑战和疏漏,导致无法使其与大型在线数据库准确自动匹配。鉴于这一数据集的规格相对较小, (1,741个城市目录,10,353个单独的城市/日期/人口数值),所以采用了人工转录的方法。因此,本数据集并不能够提供空间置信度数值。然而,创建了地理位置可靠性评定等级,基于前面所述的方法,运用于整个数据集。这一评定等级,在技术验证章节中进行说明与讨论。


 

编码可获得性


这三个数据集采用R统计软件进行合并,创建出一个大型人口数据集,时间跨度为3700 BC至2000 AD。三个数据集转换的示例脚本链接请参见参考文献部分。当然,为了完成这一任务,有多种不同方法可供使用。 


 

数据集开发存在的挑战与限制


Chandler的数据存在若干限制。尽管Chandler创建了这一数据集,这是一个极大成就,但是,人口数据在时空上是分散的,如图5和图6所示。正如直方图中最左的框条所示,1741个城市中,有600多个城市仅有一个城市人口数据。因此,在测定或者内插人口数值之中存在的时间间隙可能会有数百年或者数千年,在AD 1100之前尤为如此。南亚、南美、北美和非洲城市的数据点也极为分散。仅使用这些数据自身,并不能够对全球历史进程中所有人口数据加以准确呈现。但是,这些数据展示了在重要的历史阶段里重要的全球城市的人口数值。这一事实,就使得利用本数据集来展开分析的范围受到限制。

图 6: 时间呈现—频率直方图


直方图列出各个城市数据点出现的时间频率。最左的框条显示,在整个研究历史进程中,1741个城市中,有600多个城市仅有一个城市人口数据,显示出数据集的时间分散性。图2强调的是这一分布的尾端,重点展示的是在历史进程中人口数据点出现频率最高的城市。

 

Chandler工作存在的其他有限性,包括其对于城市的定义,以及他所采用的数据内插方法。Chandler把城市定义为“城区及其周围郊区,不含农地”,但随后他指出,1850年之前,郊区增长并不显著(参考文献5)。但是,早在1850年之前,郊区,或称城市周边区的显著增长已有记载。

 

城市及其边界和人口不断变化。Chandler在早期城市人口估算过程中,使用了城市空间范围估算人口,在整个地区和时间阶段采用的是同一个人口密度数值。然而,这些人口密度会随着家庭和城市结构出现变化。自Chandler发布其数据集之后,对城市规模估算而言大有裨益相关考古学和历史研究也有显著进展。


值得注意的是,在不同时期和不同地区,对于城市中心的定义也是有所差异的。尽管Chandler和Modelski的数据对历史进程中的人口演进提供了一般趋势,但这些模式来自于相当不同的对于发展或者废弃的叙事之中,而聚落的真实历史通常是极为复杂的。自从1987年Chandler的数据发布以来,众多学者提出方法,对这一数据集加以改进。


还有一点需要指出,城市化并非线性过程。有多种历史事件,诸如自然灾害以及人类冲突等,会对人的迁移模式产生影响,因此会对聚落人口数量以及一般性的城市化趋势产生影响。本工作的目标,并非对这些问题加以解决,而是对数据进行空间化操作,使其成为便于研究人员使用的格式,从而便于他们对人口估算进行评价,并对全球城市化趋势开展分析。


尽管Chandler和Modelski的数据存在种种挑战与不足,但是,两个数据集组合在一起呈现,对于理解城市化过程以及历史进程中的城市而言必定是一项意义非凡的进展。尽管 Chandler和Modelski的数据都可供使用, 但因为它们都采用表格的形式,因此无法被更多人获取,也不方便使用。两者提供的数据都是打印格式(Modelski的数字化数据可以通过与作者联系获取), 把数据进行空间化处理的过程,需要大量的人力和技术资源的投入,也需耗费大量时间。因此,尽管这一数据集存在限制性,但是,因为其易于获取且便于使用的格式,使得它可供更多研究团队进行测试与检验,比如地理学研究者、历史学者、考古学者或者生态学家等。对数据集进行空间化和数字化,为数据剖析和可视化提供了一个崭新的更进一步的基础。以便于获取及便于使用的格式提供数据,可鼓励人口估计的相关可研团队就此进行更为激烈的讨论与批评。如果不采用我们为其赋予的当前的格式,这些极富学术价值的工作,会仍然封存在不大实用且不大好用的格式之中。

 

数据集以.csv 格式的电子表格保存。采用这一格式,可以无障碍且简便的使用诸如R统计软件等进行进一步数据搜集或分析。生成了三个最终的文件:


1.   Chandler的地理定位数据库 (2250 BC–1975 AD)

a.   chandler.csv (Data Citation 1: FigShare http://dx.doi.org/10.6084/m9.figshare.2059494)

2.   Modelski的古代地理定位数据库 (3700 BC至1000 AD)

a.   modelskiAncient.csv (Data Citation 2: FigShare http://dx.doi.org/10.6084/m9.figshare.2059497)

3.   Modelski的现代地理定位数据库 (重要城市2000 AD 的补充信息,中国所有城市都显示的是1990年统计结果)

4.   modelskiModern.csv (Data Citation 3: FigShare http://dx.doi.org/10.6084/m9.figshare.2059500)


Chandler和Modelski的数据集都包含以下条目/ 类别。在附图1中列出这些数据的一张快照。


a.   城市

b.   其他名称

c.   所在国家

d.   纬度

e.   经度

f.    确定性度量

g.   相应人口数据对应的年份


可以从“Seto实验室: 城市化与全球变化”的下列网址下载到最终的可供下载的文件: www.urban.yale.edu/data


 

可靠性

等级评定


基于地理编码匹配的准确性,为城市进行了等级评定。可靠性是一个极为必要的因素,研究者和数据使用者可根据可靠性来了解数据及后续分析结果的准确性。


我们为整个数据集建立了准确性评定系统,用以对数据一致性进行评测。评级系统分为三级,即1, 2,和3。评定等级为1的城市,被认为数据最为准确;而评定等级为3的城市,则数据最不准确。如果某一城市的地理位置通过三个地理编码源进行了确认,则其准确性评级即为1。而对于在两个数据源中可得到匹配结果的城市,其准确性评定等级为2。而需要多次努力才能确定其可能的地理位置,且其得到的结果也可能更可疑的城市,则准确性评级为3。数据集中不到10% 的数据,因为无法确定地理位置,因而被弃用。数据集中所有城市有75%城市的准确度评级为1,13%的城市其准确度评级为2,12%的城市准确度评级为3。


采用可靠性评分的方式,对数据集进行技术验证。而创建数据集的时候,更是动用三名转录人员交叉检验。如果数据存在任何不一致,则会查找原始文本和表格确认。除了手动转录之外,还可使用 Amazon Mechanical Turk。Amazon Mechanical Turk 是一个“人类智力任务”组织,分为不同部门,当有人有工作需要完成时,可以在这个组织里找人帮助完成。采用这种方式,可以把数据集进行多次转录,然后使用统计工具对多次转录结果进行误差或者异常值检验。


 

时空分散性


尽管最终的数据集在全球尺度上仍然具有时空分散性,但是,特定的时段特定的地区,汇集了较多数量的数据点。下表列出了人口数据点数量最多的年份(表 1) 以及在整个历史时段人口数据点数量最多的城市 (表2)。 数据集还可按照不同国家或者不同的地理区域进行细分,比如欧洲、印度或者亚洲,把数据点与大陆地图进行空间化结合,数据点会在空间上显得更为密集。通过这种类型的数据子集,可进行区域尺度分析,无论从时间上来看,还是从空间上来看,人口数据点出现的频率都会更高。 


表1: 城市人口数据点记录出现频率最高的年份


表 2: 整个历史进程中,人口数据点记录频率最高的城市


本文小结与讨论


我们把这一数据集看作开创性的一步,基于此,可构建起更为丰富的历史的、全球的城市层面的人口数据库。尽管当前数据集存在时间和空间的数据缺口,然而数据集却提供了全球尺度城市人口数据的空间对应的漫长历史时期的记录。这是当前唯一的此类经过地理编码的数据集。所以,这一数据集可供作为基础,在此基础之上,可建立起整个历史进程城市人口数据的更为丰富全面的记录,可以创建其系统化的、全球人口数据,从而在长时间尺度上量度城市的发展。


但是,我们为数据集的使用者提供关于本数据集的以下所列局限性和其他详细信息,作为提醒:


1.   Chandler所使用的某些数据内插方法,包括他所使用的乘数,用士兵数量估算城市规模,以及使用当前来看过时的考古学记录与方法,在之前已经进行了批评与讨论。


2.   对于相同的地点和时段,有其他人口估算数值,需要加以考虑,特别是Paul Bairoch所进行的估算。


3.   自1950年以来空间直观的城市人口估算数据目前已经在 United Nations World Urbanization Prospects中提供。这些数据也应进行考虑。这些数据易于获取,使用了不同参数,限定了其城市面积 (因为不同数据集中关于城市定义不同,因而无法用来进行时间系列分析)。因此,这些数据在本数据集中未纳入。


4.   城市经度和纬度点的有效数字的位数存在不一致,因为提供经度和纬度数值的不同地理编码服务提供的数位有所不同。有效数字的位数从2到8不等。


5.   我们在此只按照所使用的地理编码数据库中2至8个有效数字为城市点位置提供经度和纬度。我们并没有城市地点关于城市范围的数据。这样的欠缺,导致使用本数据集可开展分析的类型受到了限制。


6.   城市点位置在不同地理编码数据库之间,甚至在同一数据库内部都可能存在差异,比如 GeoNames。尽管 GeoNames 使用了城市点水平的数据,但是有的时候这些点是几何计算得到的质心,而有的时候,这些点仅仅是在城市范围之内的普通的点。


7.   因为需要采用多个数据编码经销商/技术,从而达成满足要求的城市百分比,并降低数据不匹配城市的数量,不准确匹配的发生以及不准确的不匹配结果的出现。我们无法针对经验性误差提供统计分析,无法进行验证,也无法提供空间置信度。


8.   尽管我们建立了一个可靠性评分,但有些数据点的地理位置仍然不确定。


9.   Chandler 和Modelski关于城市的定义,与当前城市定义有所不同。Chandler认为,1962年之后,城区外部的郊区人口也属于城市人口的一部分,但Modelski并不这样认为。Modelski的现代城市人口(AD 2000) 估计使用了UN 2000 人口年报 中的数据,但并未列出城市群人口数据。Modelski的AD 2000 人口估算之中,所有中国城市都使用的是1990年统计结果。因此,Chandler最后一年数据 (AD 1975) 中,有些城市人口数值减少,而另外一些在增加。Modelski在 AD 2000的现代数据,如附表7和8所列。AD 1950之后的年份中,UN Urbanization Prospects(联合国城市化前景)的数据也应考虑在内。 


10. Modelski 在其古代数据集中,有时会为估算人口达到或超过10000人的城市加注‘E’ 这一标记。而有时候,他会在其他城市人口数目之前或之后加注‘E’ 的标记。因为这样显著的不一致,我们在最终数据集中把加注E标记的人口数据排除在外。因此,Modelski古代数据集中有 51个城市人口数字被略去。


11. Chandler和Modelski的数据集中,针对多个城市地点,都缺少所在国家的名称。我们对数据集中所有城市地点最有可能对应的国家名称进行了补充。所有数据集中,使用的现代国家名称都来自于 United Nations World Urbanization Prospects (联合国世界城市化前景)。


12.  Chandler和Modelski 还为某些城市提供了其他名称。这些名称包含在  最终数据集的“其他名称”列中。我们还补充了更多的其他名称,其他拼写方式,以及地点信息,比如美国城市所在州的名称。城市其他名称采用分隔符隔开。


13. 我们的可靠性评级,仅仅对地理编码的城市地点进行了评定。为了确定Chandler和Modelski人口估算数值的可靠性,请参见原文本。Chandler所做出的估算,在其著作中采用了下划线标出,而Modelski针对 ‘可靠性存疑数据’ 则使用 ‘x.’进行了标注。我们在这一数据集中并未对人口估算数据进行更正或者确认。我们意识到可能在人口估算数值中存在错误。比如,针对蒙得维的亚在公元2000年的人口数量估计为13,303,000,这显然太多了,但我们并未就此进行修订。我们并不希望未作计划就随意开始对人口估算数值的修订,尽管某些看起来显然有误。我们开展的研究,目的在于对这些数据加以空间化处理,从而能够让使用者对这些数据进行验证,以提升数据集的准确性和可使用性。附表8 把Modelski针对公元2000年的城市人口估算数值与UN World Urbanization Prospects 的数据进行比较,用以强调两者存在的差异和不一致情况。


14. 有的时候,针对同一个城市,在不同时段其可靠性评级有所不同。 这是有意为之。如果某一城市在特定的时段使用了存疑的其他名称,或者是原数据集的作者为其提供,或者是由我们所确定,则我们就会把可靠性评级调整一个等级(也就是,从1 调到2,或者从2调到3).


15. 城市的名称经常会随着时间发生变化,比如土耳其的君士坦丁堡改名为土耳其的伊斯坦布尔,或者日本的江户更名为东京。在这种情况下,所有数据集中都使用了最新的城市名称。


16. 在可能的情况下,对3个数据集中原城市名称的拼写进行了更新,从而与联合国数据库中的城市名称相匹配。某些古代城市以及历史考古地址并没有当前的城市与之对应。在这种情况下,Chandler和Modelski 的数据集中的原名称得以保留。


17. 我们并未完成额外的空间分析,从而把城市群中邻近的城市点进一步结合在其中。只有城市其他名称以及城市随时间更改的名称被纳入其中。使用者可基于这一数据集进一步开展邻近空间分析。


18. 在古代时期,Chandler 和Modelski的人口数据有时候对同一城市同一年份的估计也存在差异。比如,Modelski所列的伊斯坦布尔(君士坦丁堡) 在AD 500的人口为500,000,而Chandler所列其人口数值为 400,000。最终的数据集中,两个数据都保留,让使用者自行判断选择哪个数值更为准确。对于所有呈现200 BC至AD 1000期间数据的图和表而言,如果Modelski 和Chandler针对同一城市在同一时期记录的人口数据有所不同,我们使用的是Modelski的数据,因为他的工作重点在于古代时期。


19. 仅仅基于我们的数据集开展长时间尺度上的全球分析相当困难,因为数据点具有时间和空间的分散性特征,如图5图6和表1表2所示。


20. 最后,我们希望提醒这一数据集使用者的是,对人口增长和人口聚集的量度仅仅是城市化过程研究中的一个组成部分。


未来将开展的研究包括,使用更新的数据集,比如联合国人口数据集,考古数据,或者Bairoch的研究成果,填补缺失的人口数据,从而让这一数据集得到补充与提升。不准确的或者缺失的地理编码地点,也应得到改进。 

 

小确幸

微小但確切的幸福

我们为本文提供的免费下载资料有:

《科学数据之数据描述:全球城市空间聚类可视化6000年编年史(从公元前3700年到公元2000年)》


联系我们

索取资料

请联系我们微信号@SustainableCity

或电邮daizongliu@qq.com索取



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
EXCEL编码匹配名称,秘书:1分钟搞定,领导:小心数据绿帽子
“广东各城市名称由来”#广东 #地理
高一地理下人口与城市复习导图
学习下Redis这个核心数据类型
【数据分享】ArcGis Online行政区、各种保护区及生态敏感脆弱区数据
【数据】浙江省分地市七普人口&同期GDP数据对比
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服