中國的集中供暖政策讓北方人壽命減少了嗎?
郭駿
Chen et al. (2013) 發表于《美國國家科學院院刊》(PNAS)的論文“Evidence
on the Impact of Sustained Exposure to Air Pollution on Life Expectancy from China’s
Huai River Policy”研究了中國空氣污染對健康的影響。文章通過斷點回歸模型估計
了空氣污染和預期壽命的因果關系。文章認為中央集中供暖導緻了淮河以北的城市
的總懸浮顆粒物濃度極大提高和預期壽命顯著減少,這項政策使北方人平均壽命減
少 5.5 年。作者總結,中央集中供暖政策對人的健康有災難性的影響(原文
“disastrous consequences”)。
這篇文章發表後在國内外受到廣泛關注。在幾天内,《自然》雜志,《紐約時
報》,《洛杉矶時報》,《華盛頓郵報》,《衛報》,《Fox 新聞》,《CNN》,
《路透社》,以及其他 200 多家國際主要媒體報道了文章的研究成果。在中國,關
于這篇文章的讨論幾乎可以在所有主要媒體和社交網絡上找到。
然而,這篇文章存在幾個較為嚴重的數據和方法上的問題,導緻結果并不可信。
文章不正确地對城市樣本分組,運用了不恰當的研究設計和計量方法,并給出了有
誤導性的研究結論。
一、樣本分組
Chen et al. (2013) 斷點回歸模型的關鍵假設是:秦嶺-淮河線将中國的城市分為
兩組,一組在秦淮線以南,一組在秦淮線以北。秦淮線以南的城市沒有中央供暖,
秦淮線以北的城市有中央供暖。然而,文中地圖上的分界線并非秦淮分界線。
圖 1. 秦嶺-淮河分界線
圖 1 是原文所用的地圖,黑色實線用于做南北分界。然而這條線并非供暖政策
的淮河分界線。淮河位于文中的黑色線上方,大約 3 個維度的距離。地圖上的紅線
标示了秦嶺淮河的大概位置。文中地圖被向左旋轉了一個角度,導緻黑色線看起來幾乎是水平的。實際上紅色線應該是大緻水平(東西向)。由于斷點回歸的結果嚴
重依賴于分界線周邊樣本的情況,錯誤的分界必然導緻結果有誤。
在進行城市樣本複查的過程中,我們還發現本文使用的坐标也可能存在問題。
在這篇論文正式發表前的工作論文稿中,地圖标示了更多城市名稱。例如,在圖 2
中,洛陽被标示在鄭州東邊,實際上洛陽在鄭州西邊。如果本文的坐标也有誤差的
話,在匹配健康數據和空氣質量數據的時候,可能存在更多的錯誤。
圖 2. 局部城市樣本
左圖來源:Chen et al. (2011);右圖來源:Google Map.
不準确的分界線可能導緻的影響如圖3和圖4所示。我們把黑色0度線往右移動3
度左右,對應實際上的淮河線(紅色)。樣本中的若幹城市現在被分組到了南方。
在紅色線兩側,我們發現不論是總懸浮顆粒的濃度,還是預期壽命都沒有明顯的跳
躍。原文很有可能高估了該政策對健康的影響。
圖 3. 淮河兩側總懸浮顆粒濃度比較 圖 4. 淮河兩側預期壽命比較
根據我們的分析,該研究中發現的顯著性結果可能主要來自于上海及其周邊城
市。這些城市在文中被分組到正好位于黑色線下方的區域中。這些城市屬于中國最
高收入的幾個城市,臨海且人口數量較大,同時擁有較好的空氣質量和較高的預期
壽命,并不能代表淮河以南的大多數城市。
二、斷點回歸模型
為了估計供暖政策對人均壽命的影響,Chen et al. (2013) 估計了以下模型: = + + ( ) +
(1)
其中 是城市 的預期壽命, 表示城市 是否處于北方(享有集中供暖), ( )
是一個關于緯度的多次函數, 為城市 與淮河線的緯度距離。
該斷點回歸模型利用了全局多次函數拟合方法進行斷點回歸模型估計。多次函
數 ( )被用來拟合人均壽命和緯度之間的關系。這一模型強制函數 ( )在斷點處
連續, ( )的斜率在斷點處必須相等。帶來的問題是,斷點左側的樣本量會顯著
影響斷點右側的拟合曲線,反之亦然。如果預期壽命與緯度之間的關系在南北方是
不相同的話,該模型會給出有偏的估計 。 同時,強制南北方使用同一函數關系
( ),會導緻 的估計受具體函數形式的影響。如果換一種拟合方法,就會得到
非常不同的結果。例如,在原文中,如果作者隻用一次函數做拟合,南北預期壽命
的的差異隻有 1.62 年,并且效果不顯著。
一個更為合理的估計方法是:
= + + + ( ) +
(2)
其中 ( ) 也是一個關于緯度的一個多次函數。與式(1)相比,式(2)加入
了交叉項 ( )。交叉項允許我們分别對南北進行預期壽命與緯度的拟合。 的
估計也更不易受到具體函數形式的影響。
圖 5 中,我們将原文中位于淮河線右側的總體懸浮顆粒拟合曲線往下移動并接
到左側,我們發現兩側曲線在結點處斜率相同。圖 6 中,我們将淮河線右側的預期
壽命曲線往上移動接到左側,也得到相同的結果。在斷點右側附近區域裡,随着離
淮河線距離越來越近,預期壽命曲線在不斷下降,而這種下降趨勢很大程度上是受
固定的函數形式 ( ) 以及在斷點左側附近的城市影響的。換句話說,如果我們分
别對淮河兩側的不同樣本進行拟合的話,結果會非常不同。從圖 4 中綠色圓圈的分
布上看,如果使用更加恰當的模型,式(2),期望壽命的差别将會減小。
圖 5. 總懸浮顆粒濃度拟合曲線的移動 圖 6. 預期壽命曲線的移動
該研究還用兩階段回歸估計了總懸浮顆粒對預期壽命的影響:
= + + +
(3)
= + + ( ) +
(4) 為了得到無偏的估計,必要條件是在經過 的拟合以後, 捕捉到的空氣
污染差異完全是南北暖氣政策造成的。這個條件在現實中是不成立的,即使研究者
将樣本完全限制在秦嶺淮河兩邊的城市上。
要解釋這個問題,就要回到關于研究設計的讨論上。文章作者認為,暖氣政策
按照秦嶺-淮河線進行劃分是政府任意獨斷的(原文“arbitrary”) 。因此在這條線
兩側的城市,除了這個政策差異外,其他社會經濟變量應該都是連續的。這樣的假
設并不成立。首先,在淮河流域,淮河本身并不能阻擋空氣污染的流動。雖然淮河
兩岸城市的社會經濟變量可能是連續的,但淮河南岸城市與北岸城市的空氣污染不
可能完全被隔離。更重要的是,在秦嶺附近,雖然秦嶺能夠很大程度上阻隔空氣污
染的跨區域流動,但很多其他影響因素就不再連續。秦嶺對南北城市的氣候、農業、
水系、土壤的影響巨大。與秦嶺北邊的城市相比,秦嶺南方城市有更多的降雨量,
更高的氣溫,更多的暖風。 這些因素不僅會造成南北空氣質量的顯著差異,也可
能直接影響人的健康狀況。實際上,秦淮線同時也是水田旱地分界線,水稻小麥種
植分界線, 亞熱帶氣候與溫帶氣候與分界線。正是這些顯著的地理、氣候和環境
差異,讓這條線成為了中國傳統上的南北分界線,因此國家供暖政策對城市劃分并
不是任意獨斷的。該研究設計本身的合理性有待商榷 。而文中并未對秦嶺南北這
些重要的地理、氣候、環境差異進行深入讨論并加以控制,導緻該文無論是對供暖
政策影響的估計,還是對總懸浮顆粒影響的估計,都是不可靠的。
三、結果的解釋
斷點回歸模型隻是局部有效的。在研究因果關系時,我們通常用反事實
(counterfactual)來形容某個體如果沒有受到某個政策影響會發生的情況。例如,
我們會問,如果北方城市沒有供暖的話,可能出現的情況是什麼?這篇文章忽略了
斷點回歸模型的局部有效性,将結論推廣到全國範圍,并錯誤的認為中央集中供暖
政策導緻了 25 億年的生命損失。
總體來說,南方城市的人均壽命并不是北方城市人均壽命的一個很好的反事實。
北方冬天寒冷,如果沒有中央集中供暖系統,大多數家庭(1980-2000s)将自己燒
煤取暖。這樣不僅成本更高,還會導緻嚴重的室内空氣污染與室外空氣污染。室内
空氣污染通常比室外空氣污染對健康的損害更大。實際上,更加合理的反事實推測
是,中央集中供暖提高了北方人的人均壽命,因為如果沒有這套系統的話,将會有
更多人死于更加嚴重的室内空氣污染。在研究使用的數據中也證實了這一點,北方
人平均預期壽命比南方人高 1 歲。
綜上,該研究可能錯誤的将城市進行了分組,使用了不恰當的計量模型和研究
設計,并給出了有誤導性的結論。過去幾年有很多關于南方城市集中供暖問題的讨
論,網上的投票表明大多數長江以北城市的居民都希望政府能夠提供供暖系統。這篇研究傳遞給公衆的錯誤信号是,如果政府提供供暖系統的話,預期壽命會降低
5.5 年。
空氣污染對健康的影響是一個重要的研究課題,準确的估計出空氣污染的社會
成本,是國家制定相關政策的基礎,希望将來有更多的科研人員加入到該項研究中
來。
參考文獻:
Chen, Y., Ebenstein, A., Greenstone, M., & Li, H. (2013). Evidence on the impact of
sustained exposure to air pollution on life expectancy from China’s Huai River
policy. Proceedings of the National Academy of Sciences.
Chen, Y., Ebenstein, A., Greenstone, M., & Li, H. (2011). The long-run impact of air
pollution on life expectancy: Evidence from China’s Huai river policy. Working Paper.
有話要說...