陪審團的危機！法律界的“阿法狗”將找到犯罪真相

文：Joshua Brustein

計算機會分析梳理被捕情況、犯罪類型以及人口統計學信息，從而生成風險指數。

“給電腦輸入足夠多的數據，它就能自己算出結果”。

在回顧過去幾年來美國國內由于偏見和治安執法所引發的騷亂時，曆史學家們不大可能注意到埃裏克·盧米斯(Eric Loomis)的案子。

2013年2月，威斯康辛州拉克羅斯市的警察逮捕了盧米斯，理由是他駕駛的車子有飛車槍擊記錄。在那之前，他曾被捕過十幾次。盧米斯認罪，結果被判處6年監禁、緩刑5年。

和死在警方之手的菲爾蘭多·卡斯蒂爾(Philando Castile)以及阿爾頓·斯特林(Alton Sterling)相比，盧米斯的遭遇並不引人注意——前兩者遇害的過程都被拍了下來，並在網上廣泛傳播。

但在壹場圍繞著執法過程中的技術應用所發起的辯論中，盧米斯的故事點出了壹個關鍵的問題：在對他做出判決前，此案的法官收到了壹個自動生成的風險評分，判定盧米斯很可能會在未來實施暴力犯罪。

風險評分

美國各地的判決過程中已經頻繁使用由算法生成的風險評分。計算機會分析梳理被捕情況、犯罪類型以及人口統計學信息，然後生成風險分數。這麽做的目的，是要提供壹個指導意見，而且這個意見不太可能被偏見、法官情緒或者其他人類固有缺陷所左右。

使用類似的工具，還可以判斷警官該巡邏哪片街區、犯人該被關到監獄的哪個監區，以及應該讓誰獲得假釋。

此類工具的支持者稱，它們將有助于解決由來已久的不公正問題，對此持批評態度的人則說，通過把舊的偏見隱藏在電腦化精確操控的外衣之下，這些工具將有可能加劇司法不公。壹些人認爲，司法不公是抗議者參加“黑人的命也是命”(Black Lives Matter)集會活動背後的誘因。

盧米斯是這場爭論中壹個出人意料的支點：他是白人。當盧米斯就其風險評分提出抗訴時，他引述了許多從根本上批評此類工具的論點，比如它們的算法太神秘、不適合在法庭上使用。

近期，威斯康辛州最高法院駁回了盧米斯的抗訴，但高院的裁決也認可了他的壹些核心訴求。法律專家說，如果有人想對使用此類技術是否違憲進行探討，該案提供了壹個起點。

賓夕法尼亞大學教授理查德·伯克

要想理解這些在全美範圍內應用的算法，最好和理查德·伯克(Richard Berk)聊壹聊。幾十年來，他壹直在編寫這類算法（不過給盧米斯打分的工具並不是他寫的）。

伯克是賓夕法尼亞大學(University of Pennsylvania)教授，他個頭不高、剃著光頭、身材結實，散發出壹種“諒妳也不敢說不”的強大氣場，可能會讓人們誤以爲他曾經當過警察。事實上，他壹直以來都是個統計學家。

監獄使用他的工具確定該把哪些犯人關到高度警戒區，假釋部門用他的工具判斷該對哪類假釋人員采取更嚴格的監視手段，警官則用來預測曾因家庭暴力被捕的人是否會再次犯罪。

他編寫過壹個算法，可以告訴美國職業安全與衛生管理局(Occupational Safety and Health Administration)，哪些工作場所可能違反安全方面的規定，但他也說，該局從來沒有用它來解決過任何問題。從2016年秋天開始，賓夕法尼亞州計劃運行壹個試點項目，在做出量刑裁決時使用伯克編寫的系統。

隨著伯克的成果在全美得到應用，他的想法也顯得越來越大膽。他目前正在致力于壹種算法，據他說，這種算法將能在人出生的那壹刻便預測出他/她是否會在18歲那年犯罪。伯克認爲，只要他能取得所需數據，此類算法在應用上就毫無障礙。

“現在的政策采取的立場是，和把天行者盧克關禁閉相比，把達斯·維達放出來要危險得多”。

這類討論顯然會讓人們感到不適。5月壹個陽光明媚的周四早晨，當伯克走進賓大校園裏壹處地下室參加會議時，他很明顯地感覺到了這壹點——因爲他成爲了會場最不受歡迎的人。

那天他被安排參加第壹小組的討論，而事實上，那場討論是要針對他的成果展開批評。伯克坐在會場裏，摩拳擦掌，准備就他的學術成果和大家展開激烈辯論。

《少數派報告》(Minority Report) 電影片段

站在講台那裏主持辯論的是壹位名叫桑德拉·梅森(Sandra Mayson)的研究人員。“這場討論的主題是‘少數派報告’(Minority Report)，”她說。

少數派報告原本是湯姆·克魯斯主演的壹部電影，講的是政府雇傭了三個心理特異人士去甄別有可能實施謀殺的人，並在這些“預謀犯罪人員”采取行動之前就將其逮捕。伯克會後說：“偶爾我也會用它來打比方，因爲沒辦法避免人們聯想到它。”

*私人洽購、商業合作以及廣告推廣等事務，請致電 1333-28-77772 聯系客服

在接下來的壹個小時裏，討論組的其他成員輪番質疑了以伯克算法爲代表的預測性技術的科學誠信度、實用性和基本公正性。隨著討論深入，伯克開始顯得煩燥不安。他壹會兒癱坐著、雙手交叉擱在肚子上，壹會兒又身體前傾、十指不停地屈伸；他記了幾行筆記，接著用手撐著下巴，望向遠處。

最後，他終于受夠了這場辯論。他說：“下面是我從這場辯論中得出的結論：數據都沒什麽好，刑事司法體系爛透了，刑事司法體系中的各色人等都帶有種族和性別偏見。如果以上就是此次討論的要點，我們最好還是各回各家吧，沒什麽好討論的了。”會場上發出了壹陣讪笑。

伯克對犯罪的研究

伯克對于犯罪的研究始于1960年代末，當時他壹邊讀研究生，壹邊在巴爾的摩做社工。在馬丁·路德·金(Martin Luther King Jr.)遇刺後，巴爾的摩暴力事件大舉爆發。

伯克的研究生畢業論文研究了動亂中搶劫案的模式。他說：“妳在當時不可能馬上敏銳地感知到其中的深意，也不可能意識到刑事司法領域裏出現的問題。這很像如今美國多地發生的騷亂。”

1990年代中期，伯克開始關注機器學習，也就是讓計算機在大到人工無法篩選的數據集中尋找模式。爲了設計壹個模型，伯克得把數萬份犯人的簡曆輸進電腦。

數據包括了犯罪者首次被捕的年齡、來自哪個街區、坐了多久的牢、是否是慣犯等。電腦會找出其中的模式，而以這些模式爲基礎，就可以對哪些犯人有可能再犯做出預測。

在伯克看來，機器學習的壹大優勢就在于人們因此不必揣測犯罪者的動機和原因。他說：“我們還沒有很好的理論來解釋這些問題。”給電腦輸入足夠多的數據，它就能自己算出結果，而不必根據犯罪傾向來源這種玄之又玄的理論來做出判斷。

這是壹個很有吸引力的點子，但每當本該中立的算法産生了不中立的結果時，這種點子都會遭到批評。在壹項被廣泛引述的研究中，研究人員發現，谷歌的自動廣告服務軟件更有可能把薪水較高的工作推送給男性而非女性。

另壹項研究則發現，和在網上搜索明顯是白人名字的名字相比，在搜索明顯是黑人名字的名字時，更有可能顯示查詢逮捕記錄的廣告。

計算機科學家有壹句格言：“垃圾進，垃圾出”(Garbage in, garbage out)。套用到這個例子裏，其中的垃圾便是刑事司法體系幾十年來形成的種族和社會經濟方面的巨大差異。基于曆史犯罪統計數據預測未來的犯罪行爲，有可能把過去的執法模式和認爲特定人群（幾乎全部是窮人和非白人）有犯罪傾向的想法劃上等號。

伯克毫不遲疑地承認了這種擔心的合理性，不過很快又不把它當回事了。在他編寫的任何壹個系統裏，種族都不是輸入項，而且他說，他自己的研究表明，無論是哪個種族，他的算法都會得出類似的風險評分。

他還說，他做出來的工具並不會被用來實施懲罰，更多的時候是用來甄別出那些不會爲法官和緩刑官添亂子的人，因此可以改變判罰殊高、審判期過長的問題。

費城項目

2006年，伯克開始和費城成人緩刑與假釋處(Adult Probation and Parole Department)合作。當時，費城面臨著謀殺案多發而預算很少的難題，市裏的緩刑和假釋項目需要監控大量人口。

市政府想知道哪些人才是真正需要嚴格監管的。伯克和來自賓夕法尼亞大學的壹個小型研究團隊編寫了壹個模型，以確定哪些人最有可能在緩刑或者假釋期間企圖實施謀殺。伯克基本上是在義務工作，沒從費城領過分文報酬。

當然，人們也經常會問，風險評分的准確度有多高。伯克說，根據他自己的研究成果，在針對某人是否屬于低風險人士的預測中，錯誤概率大概在29%到38%之間。但他說，壹味關注准確度反倒沒有抓住它的精髓。

在犯罪這件事情上，有時候最好的答案並不是統計學上最精確的那個。就好像天氣預報員甯可預報有雨，因爲沒有誰想在下雨時恰好沒有帶傘壹樣，法院系統想要的也是那種會有意過度放大風險、認爲所有人都有犯罪可能的技術。

同壹個人即可以被視爲高犯罪風險，也可以視爲低風險，這都取決于政府把區分高低風險的線劃在哪兒。伯克說：“現在的政策采取的立場認爲，和把盧克天行者關禁閉相比，把達斯·維達放出來要危險得多。”

費城的計劃是向那些犯罪風險較高的人提供認知行爲治療，並通過減少花在其他人身上的監視費用來抵消這部分成本。當伯克提出達斯·維達的問題時，假釋處負責該項目的喬弗裏·巴尼斯(Geoffrey Barnes)起初認爲，把達斯·維達放出來比把盧克天行者關禁閉危險十倍。

伯克認爲，如果以這個數字作爲起點，他的算法將把8000到9000人劃爲預備殺人犯。政府官員發現他們負擔不起那麽多人的治療費，于是請伯克編寫壹個沒那麽嚴格的模型，因此伯克的團隊進行了相應的調整。

巴尼斯說：“我們有意讓模型沒那麽精確，但同時也努力確保它即使在出錯時也産生正確的錯誤。”

星球大戰角色達斯·維達

後來，這個項目把費城市所有緩刑和假釋的人都劃分到了高犯罪風險、中犯罪風險和低犯罪風險三個檔次裏，對于被伯克的系統認定爲低犯罪風險的人，市政府大幅降低了對他們的監視強度。

在2010年的壹次研究中，伯克和費城政府官員稱，在風險評分類似的情況下，和處于傳統假釋和緩刑狀態下的人相比，那些被給予更爲寬大對待的人因暴力犯罪而被捕的可能性更小。而被劃定爲高犯罪風險的人被提起暴力犯罪指控的可能性則要高幾乎四倍。

自費城項目之後，伯克在馬裏蘭州和賓夕法尼亞州全州範圍內的假釋體系都搭建了類似的項目。賓州的壹份內部分析顯示，在2011年和2014年之間，大約有15%的假釋申請人基于風險評分得到了不同的假釋裁決。

和以往的假釋人員相比，在此期間獲假釋的人員被再次逮捕的情況大大減少。結論是：伯克的軟件幫助州政府做出了更明智的決策。

賓夕法尼亞州緩刑和假釋委員會(Board of Probation and Parole)發言人勞拉·崔斯特(Laura Treaster)說，賓州並不確定種族是否會影響到軟件打出的風險評分。

她說：“我們還沒有分析到這壹點，不過需要指出的是，假釋和判決很不壹樣。委員會並不是在確定有罪或者無罪，我們關注的是犯罪的風險。”

不過，法院判決是伯克風險評分應用的下壹個前沿領域。事實證明，使用算法來決定壹個人要坐多久牢，比用它們來決定讓誰提前出獄更具爭議性。

Compas

威斯康辛州的法院用的是Compas，它是壹款頗爲流行的商業工具，由密歇根壹家名叫Northpointe的公司開發。根據該公司的介紹，在被這款軟件認定爲高犯罪風險的人裏面，大約有70%的人被再次逮捕。

在盧米斯的抗訴申請中，有壹部分內容針對的就是Northpointe拒絕分享其算法細則——公司稱這涉及到公司間的競爭。盧米斯說，不允許被告人檢視針對自己的證據，這違反了既定的法庭程序。（伯克分享了自己系統的代碼，並批評了Northpointe的做法。）

就在法院還在考慮盧米斯的上訴時，新聞網站ProPublica發布了壹份調查報告，他們查看了佛羅裏達州壹家法院在2013年和2014年使用過的Compas風險評分，發現黑人被標注爲高犯罪風險、但後來並沒有犯罪的可能性幾乎是白人的兩倍，同時，當都被評定爲低犯罪風險時，白人再次犯罪的情況則比黑人常見得多。

Northpointe對這些發現表示了懷疑，稱ProPublica對許多風險評分分類有誤，該公司對同壹批數據進行了自查，並沒有發現種族之間的差異。

盡管維持了對盧米斯的判決，但威斯康辛州最高法院還是引述了這篇針對風險評分種族差異的研究，對Compas等工具表示關切。最高法院還更進壹步要求在風險評分之外附上免責聲明，說明其算法不透明的問題，並對其結論提出相應的警示信息。

最高法院還說，風險評分不得被用作確定裁決時的決定性因素。最高法院的這份裁決，也是這壹級別的法院首次對判決時使用風險評分壹事表示出矛盾的心態。

密歇根大學法學院教授、著名風險評估評論家桑加·斯塔爾(Sonja Starr)認爲，盧米斯的案子預示著更激烈的法律論證即將到來。

盧米斯在人口統計學方面提出了自己的理由，說Compas之所以認爲他的犯罪風險更高是基于他的性別，也就是說曆史上男性被捕的概率高于女性。但他並沒有把這件事說成是Compas違反了憲法第14條修正案中的平等保護條款(Equal Protection Clause)——該條款允許法院回避核心問題。

*私人洽購、商業合作以及廣告推廣等事務，請致電 1333-28-77772 聯系客服

盧米斯也沒說風險評分歧視窮人的事。斯塔爾說：“每壹種貧窮的表征都是壹個風險因子，這種算法似乎也讓法官感到困擾。我想很快就會有更多其他案子抗訴成功。”

在過去的6年裏，賓州官員壹直准備在法庭判決中應用風險評估，他們對這些潛在的隱患也很敏感。賓州的經驗顯示出通過公共政策流程開發算法的複雜性。

爲了打造壹個政治上可以接受的風險評估工具，賓夕法尼亞州成立了壹個判決委員會。它很快拒絕了Compas這樣的商業産品，認爲它們太貴也太神秘，所以委員會開始打造自己的評估系統。

種族因素是否爲變量

“如果妳想讓我做出完全與種族無關的預測，就必須告訴我妳能讓我使用哪些變量，但是沒人能做到這壹點，因爲壹切變量都和種族以及性別有關”

賓州方面壹開始就不同意將種族作爲輸入變量，但所有其他因素是否成立都值得壹辯。這個州壹開始想把地理位置作爲變量，因爲它認爲地理位置在預測誰會再次犯罪方面具有統計學意義，但賓夕法尼亞刑事辯護律師協會(Pennsylvania Association of Criminal Defense Lawyers)稱，由于壹些社區事實上出現了純白人或純黑人的局面，因此地理位置也是種族的代名詞。還有壹個問題在于，評估系統使用了逮捕而非定罪作爲指標，對于那些生活在監管較爲嚴厲的社區的人似乎有不公之嫌。

伯克辯稱，消除敏感因素會降低算法的預測能力。他說：“如果妳想讓我做出完全與種族無關的預測，就必須告訴我妳能讓我使用哪些變量，但是沒人能做到這點，因爲壹切變量都和種族與性別有關。”

斯塔爾說，這壹理由混淆了學術研究和司法體系中存在的不同標准。在社會科學中，計算特定群體成員做出特定行爲的相對似然性是有用的，但這並不意味著某壹特定個人的未來應當根據針對整體人群的犯罪統計數據計算出來，當使用的數據集反映出數十年來種族和社會經濟的差異時，尤其不能這麽做。斯塔爾說，這樣做的結果就是壹個計算機版的種族形象定性。她說：“如果變量不合適，就不應該依靠這些變量。”

2016年春末，伯克去了趟挪威，會見了來自奧斯陸大學的壹群研究人員。挪威政府收集了大量關于挪威公民的信息，並讓每壹條信息都和壹個獨立的身份文檔連接在了壹起，從而儲備了壹個很有吸引力的潛在輸入變量集。

托比昂·斯卡德哈瑪(Torbj?rn Skardhamar)是奧斯陸大學的教授，他對使用機器學習做長期預測很感興趣，安排伯克訪問的也是他。在將預測分析手段應用到刑事司法實踐方面，挪威已經落在了美國的後面，于是他們二人交換了壹些想法。

伯克想基于環境以及新生兒父母的過往，在壹個人出生的時候就預測出他/她是否會在年滿18歲時犯罪。

這在美國幾乎是不可能的，因爲壹個人大部分的個人信息都分散在許多機構、受到許多限制。伯克不確定在挪威是否能收集到這麽多的信息，他承認自己也還沒有完全想清楚怎麽使用這些信息才是最好的。

盡管收到了很多警示信息，但這個項目有可能會成爲伯克職業生涯中成就最高的那個。該項目還要考慮到所有倫理和政治上的疑問，並給它們壹個符合邏輯的結論。即使是在電影《少數派報告》中，政府也只能窺探到未來幾個小時、而不是幾年的情況。

剛剛接觸這些預測技術的斯卡德哈瑪說，他不怕犯錯誤：他說他們現在正在討論這些技術，所以可以避免未來犯錯。他正在思考項目可能犯的所有錯誤，並說：“這些問題都很複雜，把它們搞明白了，就是好事。”（Joshua Brustein / 商業周刊中文版）

注：文章轉自商業周刊中文版。點擊本頁左下角“閱讀原文”可以浏覽原文頁。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。