論文「Combining satellite imagery and machine learning to predict poverty」的Paper Review

論文摘要

這篇論文主要討論了一個數據分析在社科領域的應用方法,即根據高解析度衛星圖像估算消費支出和資產財富,並以此預測某一地區的貧窮程度。

首先,作者提到了現實的需求:稀缺的資源和外部的援助需要得到精準地分配,即向最貧困地區的發展傾斜,特別地,這種精準分配對於擁有眾多生活在國際貧困線附近及以下的人口的極度貧困國家更為重要。然而,許多發展中國家由於自身政府羸弱的財政統計系統,而缺乏有關經濟發展關鍵指標的可靠的數據。以最為貧窮的非洲大陸為例,在2000年至2010年期間,59個非洲國家中有39個國家進行的全國性的經濟調查少於兩次,另有阿爾及利亞,索馬利亞,利比亞,波札那等19國甚至从未進行此類調查。

鑒於擴大傳統數據收集工作的困難,科學家開始考慮使用一些其他的易於收集的數據對地區的經濟數據進行預測。作者首先提及了兩類數據,但隨即列出了兩者的缺點以進行反駁:

  1. 來自手機的數據(例如社交媒體或手機網路的數據):由於依賴不同的專有數據集,可能難以在各國之間推廣。
  2. 衛星圖像的夜晚光照強度數據:無法區分生活著國際貧困線附近及以下人口的地區的經濟活動差異,也難以區分人口稠密的貧困地區和人口稀少的富裕地區。

然後,作者展示了他們實現的一種新穎的機器學習方法,用於從高解析度白天衛星圖像中提取社會經濟數據。這種方法的簡要過程如下:

  1. 需要注意的是,整個方法基於一個前提,即高解析度衛星圖像可能包含了大量可能與經濟相關的景觀特徵的資訊。
  2. 首先,在龐大的ImageNet數據集上預訓練一個CNN模型,這個模型高度非線性,能夠從圖像中提取複雜的特徵。
  3. 對於最初提到的全國性的經濟調查,即使是那些進行過調查的國家,每個國家的數據集中也只含有數百個可用於訓練的數據點。考慮到數據的缺乏,顯然不能直接使用全國性的經濟調查數據訓練大型CNN模型。
  4. 為了解決數據稀缺問題,作者選擇使用遷移學習的方法。他們利用之前提到的豐富的衛星圖像的夜晚光照強度數據集,先微調CNN模型,使其被訓練為能夠預測與輸入的白天衛星圖像相對應的夜間光照強度。
  5. 作者認為某些解釋夜晚光照強度變化的特徵也可以預測經濟結果。儘管夜晚光照強度在較低支出水平下變化不大,但調查數據表明,白天衛星圖像中可見的其他特徵,例如屋頂材料和到市區的距離,與支出大致呈線性變化。由於夜晚光照強度和這些特徵都顯示出較高收入水平的變化,因此對夜晚光照強度進行訓練可以幫助CNN學習提取此類特徵,從而更有效地捕捉整個收入水平分佈中的變化。
  6. 最後,作者使用調查數據中的平均值以及CNN從白天圖像中提取的相應圖像特徵,訓練出了可以估計集群級別(範圍大致相當於農村地區的村莊或城市地區的選區)的消費支出和資產財富的嶺回歸模型。

經過評估,作者發現該遷移學習模型可以很好地預測多個非洲國家在集群級別上的平均家庭消費支出和資產財富,且明顯優於僅使用夜晚光照強度數據的方法。

評論

這篇論文雖然沒有很多機器學習方法上的創新,但它成功提供了一個相對精準的低成本的預測較小區域經濟狀況的方法,且尤其適用於缺乏全國性經濟調查的貧困的發展中國家。由於高解析度衛星圖像易於獲取且足夠精細,我們或許可以更加精準合理地分配對貧困地區(尤其是非洲大陸)國際性經濟援助。從這點來看,這篇論文確有較強的現實意義。

但同時也應意識到,這篇論文中的方法仍有缺陷。對於一個國家的數據訓練得到的模型並不能很好地用於其他國家經濟狀況的預測,一個可能的原因是衛星圖像數據並不包含能夠反映國家經濟政策和政治、宗教等制度的特徵,而這些因素與國家經濟的緊密聯繫是不可忽視的。

最後,在結合此方法進行實際的經濟援助前,我們仍需要結合更多其他領域的數據作出更準確的分析,例如國家或地區的政府腐敗程度或國民受教育程度,這些指標也會對地區受經濟援助後的預期成效有很大的影響。

論文連結:Combining satellite imagery and machine learning to predict poverty | Science

這篇Paper Review只是我在大學《數據挖掘》課程的作業,水準不足請多見諒。另外,本文發表時間為2016年,考慮到機器學習領域的快速發展,這篇論文很可能已經過時。

0%