打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
AI眼中的歷史:用人工智慧挖掘舊報紙裡的英國現代史



文:Martha Henriques


問,哪位歷史學家有時間閱讀跨越一個多世紀英國歷史的數千萬份報紙?沒人可以。所以,電腦科學家和歷史學家一起,教會了電腦做這件事——分析新聞報導中的數十億個詞,讓我們重新認識19世紀到20世紀初的英國歷史。


這項研究發表在PNAS上(http://www.pnas.org/content/early/2017/01/03/1606380114),是對“文化組學”這一新興學科的實踐。


注:文化組學culturomics,指通過數位化文本的定量分析研究人類行為和文化趨勢的計算詞彙學


電腦分析了1800年至1950年間的3500萬份英國地區新聞報導中的286億詞彙,約占該時期英國地區報刊總量的14%。


作為對比,一個成年人的平均閱讀速度為大約每分鐘300字。按照這個速度,一個人需要整整180年來完成所有的閱讀。如果算上人類的休息時間,閱讀需要的時間就更長了。而電腦演算法用大約8周完成了所有的工作,該專案研究員英國布裡斯托大學電腦科學家Nello Cristianini稱。


這項研究的第一步是人工檢查,以確保電腦可以從報紙中提取真實的歷史事件。檢查的內容為電腦是否能準確地找到諸如加冕,已知的疾病流行和戰爭等事件。


有趣的部分發生在下一步:研究電腦演算法是否可以找到歷史學家使用傳統方法不能找到的歷史事件。


“我們正在尋找一些不太明顯的歷史進程——例如,技術的興起,”Cristianini說。“我們看到1900年左右,技術發生了變化。我們還能進一步解讀更微妙的信號:我們可以看到電報,電話和廣播被公眾接受的速度有多快。這個速度在不斷加快。現在,人們接受Twitter或Facebook只需要一年。”


人工智慧分析不僅僅是簡單的字數統計(這是曾經大量數位化文學研究的做法)。這一次,研究人員使用AI技術,如自然語言處理,以獲得對上下文和文本含義的理解。你可以認為它是終極的快速閱讀。


他們發現了什麼?這是AI眼中的英國歷史:


電力什麼時候趕超了蒸汽?


1898年。這一年,電在新聞中出現的頻率開始超過蒸汽,電能逐漸取代了蒸汽。


圖:20世紀來臨時,電力取代了蒸汽(來源Nello Cristianini / PNAS)

 

火車什麼時候趕超了馬車?


僅僅四年後的1902年。火車的時代開始於19世紀40年代,那時英國開始發展國家鐵路系統。但就新聞方面而言,火車在半個多世紀後才變得比馬車更重要。


圖:“鐵馬”(來源New York Public Library / Flickr)

人們什麼時候開始 

不再討論奴隸制?


 對奴隸制的報導高峰出現於1830-1870年廢奴運動時期和1861-1865年美國南北戰爭期間。1870年後,報紙幾乎不再提及奴隸制。


圖:1830年到1870年,奴隸制出現在新聞中(來源Nello Cristianini / PNAS)

記者什麼時候開始 

報導婦女參政權運動?


1906年。一個戲劇性的報導高峰出現在1913年,在女性參政倡議者Emily Wilding Davison試圖在賽馬會上阻攔英國國王的馬之後。


圖:Emily Davison倒在英國國王的馬前,四天后她死於頭部創傷(來源Hulton Archive)


注:女權運動還有這段歷史!今天的一切來之不易啊!


對他來說,成功只是一種習慣



女性什麼時候得到了 

和男性相同數量的報導?


從來沒有過。20世紀開始,對女性的報導率有上升趨勢,且在二戰時期突然增加。但在整個分析覆蓋的時期,新聞中每提到一個女性大約會提到三個男性。在21世紀,這個數字更接近男女比2:1,但這種轉變並不大。


圖:戰爭時期,女性得到了更多的報導(來源Wikime)

 

勇氣什麼時候最重要?


毫不意外,在第一次和第二次世界大戰期間勇氣被提到最多。維多利亞時代的價值觀,例如毅力,在整個分析覆蓋時期表現出報導頻率的穩步下降。但在戰爭年代,對耐力和勇氣等價值觀的報導出現了明顯的增加。

 

 英國和英國人的概念

(Britishness)是何時出現的?


注:英國全稱為大不列顛及北愛爾蘭聯合王國United Kingdom of Great Britain and NorthernIreland。不列顛Britain/British是對英國和英國人的統稱,相較於對英國某部分的特指例如England/English是指英格蘭和英格蘭人,或Scotland/Scottish是指蘇格蘭和蘇格蘭人。


對“不列顛”的報導出現於20世紀早期,1900年左右出現第一個峰值,一戰和二戰期間出現了兩個更大的峰值。這個發現和很多歷史學家的觀點不同——很多歷史學家認為“不列顛”在更早前就已經是一個活躍的概念了。


圖:“不列顛”的概念在20世紀早期開始活躍,而傳統上,歷史學家認為“不列顛”出現得更早(來源Nello Cristianini / PNAS)

 

經濟什麼時候成為了口號?


與“經濟”相比,“政治經濟”一直是更為常用的術語,直到1900年左右,這兩個詞的用法變得更加模糊。20世紀初,這兩個術語在約十年間的使用頻率大致相似,之後,“經濟”開始成為更受歡迎的用語,在幾個劇烈的峰值後使用頻率開始穩步上升。


圖:“政治經濟”的使用被“經濟”取代(來源Nello Cristianini / PNAS)

(Martha Henriques / 大數據文摘)


注:文章源自大數據文摘。點擊本頁左下角“閱讀原文”可以流覽原文頁。



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
華五日誌 第 175 天
AI制造故事:为特斯拉和宝马生产汽车传动轴和减速齿轮的台湾无人工厂
轉來掃瞄的中國蒸汽機車老照片(一)
英國新氣候變遷評估報告突顯暖化效應
油尖多士——快樂的英國人
让我在最美丽的時候与你相遇
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服