高點研究所
首頁商研所許誠哲 資料遺漏 (missing data) 與樣本選擇 (sample selection)
篇名
資料遺漏 (missing data) 與樣本選擇 (sample selection)
作者
許誠哲
說明
發佈時間:20240506

本次專欄,我將介紹第資料遺漏與樣本選擇的基本概念。當蒐集到的資料與使用分析的資料不同,則稱有資料遺漏。但若資料遺漏的過程中是因為有特定的選擇過程,則稱作樣本選擇。舉例來說,在所得-教育程度的問題中,若一開始收集了 100 筆樣本,但因為某些樣本的資料填寫不完整(只寫所得或者教育程度,或者所得亂寫),刪去過後的資料即有資料遺漏。

隨機的資料遺漏除了使得樣本數變小以外,並不影響係數的不偏性。若原本的資料中涵蓋的學歷為國中到博士,而月薪範圍為 3 萬到 100 萬,如果資料中的國中與博士學歷勞工較少,而僅有零星幾個樣本薪水很低或很高。由於迴歸是平均的概念,對於離群值的影響較為敏感,為了避免估計結果的偏差變大,進一步的限制研究的學歷為高中到碩士,月薪範圍為 4 萬到 25 萬,雖然迴歸結果無法推論到國中或博士學歷,以及薪資低於 4 萬於超過 25 萬的情況,但這樣的資料遺漏下所估計出的係數仍然具有不偏性。

如果收集到的樣本中,是否可收集到的過程有特定的選擇過程,則可能造成係數的偏誤,稱作樣本選擇偏誤 (sample selection bias)。例如在資料收集中,高中學歷的樣本只有薪資超過 5 萬才願意分享薪資資料,而碩士學歷的樣本薪資超過 20 萬就不願意分享薪資,則利用這樣的資料分析,會低估教育程度對於所得的影響,產生樣本選擇偏誤。

舉例來說,在總統大選時,市話民調、手機民調與網站民調所作出來的結果有顯著的差異,主要原因是三種不同的抽樣方式,其選擇到的樣本其調性與整體的投票民眾不同,各種抽樣方式下對於各候選人的支持率是不相關的。在 1936 年美國總統大選中,民主黨的候選人小羅斯福 (Franklin D. Roosevelt,1882-1945) 對上共和黨候選人蘭登 (Alfred M. Landon,1887-1987)。選舉前,文學文摘 (The Literary Digest) 於進行的民調郵寄 1000 萬份問卷給其讀者,在回收了 230 萬份問卷後,根據其結果預測蘭登會以獲得在 531 張選舉人票中的 370 張的結果贏得總統大選。最後小羅斯福獲得了 523 張選舉人票,創造美國史上最大的民選得票差距。這次民調的誤差對文學文摘的信用度有很強的負面影響,該雜誌於選舉後幾個月便停止發行。造成抽樣誤差的主要原因是問卷採取自由回收,且文學文摘的讀者傾向支持共和黨,因此支持小羅斯福比較不願意回傳問卷。

而同一年,George H. Gallup (1901) 根據美國人口組成抽取 5 萬組樣本後,利用統計方法預測羅斯福會勝出,此後其成立的蓋洛普民意調查成為最具指標性的選舉民調機構。但 Gallup 也不是出師必捷,在 1948 年的大選預測即失準,但他解釋是因為選舉前三週即停止民調的緣故。

在控制了教育程度與行業類別的情況下,可以發現擁有小孩的婦女其薪資水準較高。但不是因為有小孩的婦女其生產力較高,而是薪資較低的婦女可能不會出現在就業市場中,此時也發生了樣本選擇偏誤。James Heckman (1944-) 針對此一範例,提供了修正的實證模型,並因為對於樣本選擇偏誤的貢獻獲得了 2000 年的諾貝爾經濟學獎。

關鍵詞
資料遺漏、樣本選擇、sample selection bias、選擇偏誤、資料分析
刊名
商研所許誠哲
該期刊-上一篇