臺大學術卓越系列報導─社科院大數據(Big Data)在經濟學上的應用
經濟學家或社會科學家的工作即是描述、解釋、甚至預測社會現象。我們首先建構人類行為的理論,接著觀察社會並收集、分析資料,在理論與實證的不斷互動中,持續修正我們對這個世界的想像與看法。
政治學、經濟學與社會學或許有不同的關心議題與切入視角,但是這個過程,一直是社會科學重要的核心方法論之一。而在其中,應用個體經濟學(Applied Microeconomics)是經濟學或社會科學中最重視資料與因果關係的學門。談到因果關係,「相關不等於因果」,必須透過各種方法解析,諸如實驗、IV、RD、DD等策略或計量方法,輔以經濟、統計、數學等領域知識。
近年來興起的「Big Data」,量大、準確、跨時間的特質,讓其價值顯現,即時的捕捉人們實際行為模式,能更有效的控制更多背景條件以分辨相關或因果關係。由於資料運算與儲存技術的爆炸性成長,Big Data的興起從根本上改變了社會科學家看待資料的方式!我們不再只能依賴傳統的調查問卷,而可以從網路或其他的資料儲存處,直接抓取人類行為的軌跡加以分析。這個改變,讓我們能觀察到人類更多面向的行為並探究其複雜性。過去幾年,社會科學家已經在各領域利用Big Data取得不少的研究成果,包含臺大經濟系在資料科學與社會研究上的努力。資料科學的應用必須結合各領域知識、計算機科學及數學或統計計量方法,實際上很難有通才,但經濟學門正好是研究人類行為中使用數學、統計方法最頻繁的、而且也是各個應用統計軟體的重度使用者,如:matlab、R、SAS或Stata等。也因此經濟學很快的與資料科學合作進行研究,甚至在各大科技公司受到重視,例如:Facebook、阿里巴巴針對經濟學家的徵才。
在臺灣應用個體經濟學界最早受到矚目的是健保資料的研究,政府單位擁有完整的國民行政資料。其它像財稅、教育資料也是經濟學感到興趣的行政資料,但受限於個資法的考量、與學術與政府單位之間的溝通常常有隔閡或誤解,臺灣行政資料的使用有諸多限制。近年來透過財稅資料刻劃出比起社會變遷調查更貼近真實的貧富差距、高財富家庭跨代流動性的僵固等。又如結合教育資料與財稅資料的研究中,親代所得與資產如何影響子代教育取得之機會,發現家戶所得及資產與高等教育的就讀機會呈高度相關。臺灣大學與公立學校的學生家戶年所得中位數分別超過150、100萬元,遠高於全體樣本中位數86萬元。進一步檢視各大專院校及學制的資產分佈,則凸顯不同學制間鉅額的財富差距及代際流動於教育管道的僵固。各校每生平均教育經費支出與學生家戶所得組成間的正向關係,也凸顯了政府的教育經費補貼其實是反向重分配的事實。