資料遺漏 (missing data) 與樣本選擇 (sample selection)

許誠哲

首頁

商研所許誠哲

資料遺漏 (missing data) 與樣本選擇 (sample selection)

【推薦課程】
行動版、數位課程

篇名

資料遺漏 (missing data) 與樣本選擇 (sample selection)

作者

許誠哲

說明

發佈時間：20240506

本次專欄，我將介紹第資料遺漏與樣本選擇的基本概念。當蒐集到的資料與使用分析的資料不同，則稱有資料遺漏。但若資料遺漏的過程中是因為有特定的選擇過程，則稱作樣本選擇。舉例來說，在所得-教育程度的問題中，若一開始收集了 100 筆樣本，但因為某些樣本的資料填寫不完整(只寫所得或者教育程度，或者所得亂寫),刪去過後的資料即有資料遺漏。

隨機的資料遺漏除了使得樣本數變小以外，並不影響係數的不偏性。若原本的資料中涵蓋的學歷為國中到博士，而月薪範圍為 3 萬到 100 萬,如果資料中的國中與博士學歷勞工較少，而僅有零星幾個樣本薪水很低或很高。由於迴歸是平均的概念，對於離群值的影響較為敏感，為了避免估計結果的偏差變大，進一步的限制研究的學歷為高中到碩士，月薪範圍為 4 萬到 25 萬，雖然迴歸結果無法推論到國中或博士學歷，以及薪資低於 4 萬於超過 25 萬的情況，但這樣的資料遺漏下所估計出的係數仍然具有不偏性。

如果收集到的樣本中，是否可收集到的過程有特定的選擇過程，則可能造成係數的偏誤，稱作樣本選擇偏誤 (sample selection bias)。例如在資料收集中，高中學歷的樣本只有薪資超過 5 萬才願意分享薪資資料，而碩士學歷的樣本薪資超過 20 萬就不願意分享薪資，則利用這樣的資料分析，會低估教育程度對於所得的影響，產生樣本選擇偏誤。

舉例來說，在總統大選時，市話民調、手機民調與網站民調所作出來的結果有顯著的差異,主要原因是三種不同的抽樣方式，其選擇到的樣本其調性與整體的投票民眾不同，各種抽樣方式下對於各候選人的支持率是不相關的。在 1936 年美國總統大選中，民主黨的候選人小羅斯福 (Franklin D. Roosevelt，1882-1945) 對上共和黨候選人蘭登 (Alfred M. Landon，1887-1987)。選舉前,文學文摘 (The Literary Digest) 於進行的民調郵寄 1000 萬份問卷給其讀者，在回收了 230 萬份問卷後，根據其結果預測蘭登會以獲得在 531 張選舉人票中的 370 張的結果贏得總統大選。最後小羅斯福獲得了 523 張選舉人票，創造美國史上最大的民選得票差距。這次民調的誤差對文學文摘的信用度有很強的負面影響，該雜誌於選舉後幾個月便停止發行。造成抽樣誤差的主要原因是問卷採取自由回收，且文學文摘的讀者傾向支持共和黨，因此支持小羅斯福比較不願意回傳問卷。

而同一年，George H. Gallup (1901) 根據美國人口組成抽取 5 萬組樣本後，利用統計方法預測羅斯福會勝出，此後其成立的蓋洛普民意調查成為最具指標性的選舉民調機構。但 Gallup 也不是出師必捷，在 1948 年的大選預測即失準，但他解釋是因為選舉前三週即停止民調的緣故。

在控制了教育程度與行業類別的情況下，可以發現擁有小孩的婦女其薪資水準較高。但不是因為有小孩的婦女其生產力較高，而是薪資較低的婦女可能不會出現在就業市場中,此時也發生了樣本選擇偏誤。James Heckman (1944-) 針對此一範例，提供了修正的實證模型，並因為對於樣本選擇偏誤的貢獻獲得了 2000 年的諾貝爾經濟學獎。

關鍵詞

資料遺漏、樣本選擇、sample selection bias、選擇偏誤、資料分析

刊名

商研所許誠哲

該期刊-上一篇

定態與非定態的時間序列

該期刊-下一篇

過度擬合 (overfitting) 與正則化 (regularization)