個體數據與社會科學研究

作為一個社會科學研究工作者,筆者經常聽到這樣一種觀點,即「社會科學是不科學的」。原因也很簡單,因為它無法像自然科學那樣進行實驗,從而精確的控制所有可能影響結果的因素。這個觀點一定程度上是正確的,然而無法否認的是社會科學在分析技術和因果識別上在過去半個多世紀的時間裏取得了長足的進步。通過大量嚴謹的社會科學研究,人們對於很多社會現象的理解得到了顯著的提高。而社會科學能夠取得這些進步的一個重要原因在於社會調查數據─這個作為研究分析的基礎部份,在收集技術上的也同時在進步,它和社會科學研究兩者是相輔相承的。在社會調查裏又以個體數據(individual level data)最具有價值,同時也是最為普遍的數據收集單位。中國大陸、台灣等國家地區早已於1980年代開始收集個體數據用作社會科學研究,相比之下澳門對於個體數據收集仍然欠缺足夠的重視。筆者希望借助這篇文章簡略的講解個體數據的重要性,以及它對澳門社會的意義,從而引起相關政府部門和學界的關注。具體而言,筆者將圍繞以下三個部份展開論述:1) 什麼是個體數據?2) 為什麼需要使用個體數據?3) 個體數據和公共政策之間的關係。

什麼是個體數據?首先,我們知道數據的構成可以基於不同的單位,比如說個體、群體、城市甚至是國家。因此所謂個體數據,顧名思義就是指數據的收集或構成是以個體作為單位。在個體數據裏每一個個體都擁有一個與之對應的ID和一系列和這個ID相對應的變量信息,比如說性別、年齡、學歷。在澳門由於個體數據非常有限,較為知名的大型社會調查可能只有前後進行了三次的「澳門特別行政區綜合生活素質基準研究」(1)。為了方便理解,我們可以把個體數據和澳門的人口普查數據作一個對比。人口普查數據稱之為匯總數據(aggregate data),它是與個體數據相對的一種數據形式。人口普查數據雖然在收集時也是以個體(雖然抽樣單位是住戶)作為單位,但是由於在公佈時已經把數據匯總,它所代表的單位就不再是個體,而是城市(2)。因此,雖然我們仍然可以從人口普查數據裏獲得性別、年齡、學歷等變量的分佈信息,但是這些信息不再和特定的個體ID對應,而只能夠代表澳門這個城市裏的人口總體。

為什麼需要使用個體數據?

讀者可能要問,使用個體數據或匯總數據在分析社會現象時會有什麼差別嗎?這裏涉及到我們要討論的第二個問題,即「為什麼需要使用個體數據?」。主要原因至少有兩個。

第一,假如我們希望基於社會調查數據對社會現象的成因作出一些判斷或結論,那麼這個判斷或結論的有效性很大程度上受限於數據的收集單位。如果你的判斷要推論至個體,而使用的亦不是個體數據,那麼你就可能犯了「生態學謬誤」(ecological fallacy)。簡單來說,就是以全概偏。舉個例子,中國大陸的國營企業進行員工招聘時,人力資源部門經常會對求職者的學歷進行某種限制以減少篩選簡曆的工作量,比如說「只招清華北大」。我們知道清華北大都是名校,因此默認考進這兩所大學的學生都擁有較強的個人能力是很自然的事情。然而兩個學生可能高考分數就差幾分,恰恰好一個夠分上清華北大,一個只能上其他大學。在這樣的情況下,兩個學生之間在能力上可能並不存在本質差異。上述這種認為非名校學生能力不夠的「成見」,其實就是一種「生態學謬誤」,雖然它可能並不總是錯誤的。由於社會現象的最小單位通常就是個體,因此一個乎合隨機抽樣的個體數據可以反映總體人口的情況。相反,匯總數據則無法降維成個體數據,從而反映具有特定人口特徵的個體的情況。這是個體數據相比匯總數據而言,所具有的一個明顯優勢。

第二個原因則更為重要。社會科學研究並不僅僅滿足於用社會調查數據來描述社會現象,對於研究者而言,他們更為關心的問題是解釋社會現象的成因。這裏就涉及到對不同變量之間相關關係(correlation)、因果關係(causality),甚至是現象形成機制(mechanism)的探討。而這樣的分析只能夠基於個體數據來進行。讓我們仍然以大學教育作為例子。假設我們希望知道大學教育可以為學生帶來多少工作收入回報。最嚴謹的分析方法是像自然科學一樣做一個實驗,在實驗室裏克隆出另外一個自己,然後用拋硬幣的方式來決定那一個「自己」可以上大學,而另外一個則在高中畢業後直接工作。在這樣理想的實驗狀態下,因為能夠控制所有可能影響實驗結果的因素,因此只需簡單把兩個「自己」的工作月薪或年薪進行對比就能夠知道大學教育的回報是多少。當然,在現實裏我們不可能進行這樣的實驗。因此取而代之的做法是,我們期望在統計模型裏盡可能控制影響收入回報的因素,比如說學歷、工作經驗、職業技能等。而在匯總數據裏,我們是無法進行這樣的操作。事實上,人口普查裏只能給予我們兩個群體之間的收入差異,但是我們根本無法知道這些差異是否真的是「上沒上大學」造成。因此,容筆者再強調一次,要精確分析社會現象的成因,個體數據不可或缺。

個體數據和公共政策

最後一個問題,讓我們回到澳門社會來討論一下個體數據如何可以幫助澳門政府制訂出更適當的公共政策。

公共政策本質上是一個由連續行為構成的,為了解決特定社會問題的過程。大多數公共政策的教科書會告訴你,公共政策大至可以分為以下幾個階段:問題確認(problem identification)、議程設置(agenda setting)、形成政策方案(policy formulation)、立法(policy legitimation)、政策執行(policy implementation)、政策評估(policy evaluation)。上述至少有兩個階段和個體數據有着緊密的關係。

第一個是問題確認。它是整個公共政策過程的起點,那是因為只有當一個社會問題被認為是一個「問題」時,它才可能進入到政府的議程裏面。舉個例子,澳門自從2002年賭權開放開始,博彩業的蓬勃發展吸引了不少中學生選擇放棄大學教育進入薪酬吸引的博企成為荷官。並不是沒有輿論認為這可能對社會造成一定的負面影響。但是到底這些負面影響有多大呢?其中一個可能的負面影響是大學教育的缺失可能影響這些學生的長期收入回報,並且降低他們往上流動的可能生。假如擁有個體層面的數據,正如筆者之前提供的兩個和大學教育相關的例子,我們可以放棄大學教育在個收入回報上的影響作一個估計。如果我們擁有一個長期的個體層面數據(也就是面板數據,panel data),我們甚至可以估計放棄大學教育機會對個體長期收入,比如說假如高中畢業後選擇上大學而不是直接去當荷官,十年後兩個不同的選擇對個體的收入回報會有多大的差異作一個估算。進一步我們甚至可以估算大學教育的缺失是否降低了這些學生向上流動的可能性。因為經濟學研究已經告訴我們在現代社會最重要的影響社會流動的因素就是教育。以上這些問題都可以透過個體數據來分析它們對個體生活的影響,從而讓我們更好地認識這些社會問題,並透過適當的公共政策進行干預來處理其中的負面效應。

第二個則是政策評估。公共政策的目的歸根究底是要解決社會問題,因此我們最關心的是政策是否達到了相應的效果,這就需要對政策的效果進行評估。比如說澳門政府為了鼓勵市民自我增值,提升工作技能推出了「持續進修發展計劃」。那麼假如有相關的個體數據,我們就可以評估計劃對個體收入回報、職業選擇和社會流動等各方面的影響。考慮到教育開支在近幾年的財政預算中均位列前幾名。假如計劃沒有達到預期的政策效果,根據量入為出的財政管理原則,相關政府部門就可能需要對該項政策進行調整。

結語

澳門社會在過去十年的快速發展後,社會經濟結構均發生了相關程度的變化。而基於個體為收集單位的社會調查是準確了解這些變化的有效手段。個體數據將有助政府和學界對社會現象的成因的了解,從而製訂出相應的公共政策,提升管治的效率。過往諸如「澳門特別政區綜合生活素質基準研究」這樣的社會調查無疑非常具有價值,因此應該予以持續進行並免費開放數據給學界和社會使用。亦唯有如此,對社會現象的討論和分析才能更科學和理性,不同社會群體的才智資源才能有效運用,集思廣益為建設一個更理想的社會和生活環境出謀獻策。

註1:對於「澳門特別行政區綜合生活素質基準研究」的具體抽樣和數據收集方法,可以參考黃紹倫、楊汝萬、尹寶珊、鄭宏泰編:《澳門社會實錄─從指標研究看生活素質》,香港:香港中文大學香港亞太研究所,2007,第323-330頁。

註2:澳門人口普查的抽樣方式可以參考澳門統計局網站提供的相關資料:http://www.dsec.gov.mo/Statistic.aspx?NodeGuid=8d4d5779-c0d3-42f0-ae71-8b747bdc8d88

文:楊鳴宇

作者簡介:

澳門大學政府與公共行政系講師。研究威權政治和中國政治。關注香港和澳門時事。電影和搖滾樂愛好者,偶爾寫作影評和樂評。

原文載於《澳門日報》