高點研究所
首頁商研所許誠哲 資料篩選 (data screening)
篇名
資料篩選 (data screening)
作者
許誠哲
說明
發佈時間:20251124

若進行資料分析時,所採用的資料為自己建立的問卷所蒐集的資料,一般不能直接使用。為了增加分析的效率與精確度,需要對於資料進行初步的篩選與檢查,這樣的過程稱作資料篩選。資料篩選 (data screening) 的主要目的確認資料中是否重覆輸入或者有不合理的離群值並加以修正,而不合理的離群值主要來自於以下幾種可能:

  1. 受試者資料填錯或者是登記時出現錯誤。例如月薪 (萬元) 中, 若有一筆資料為 50000 則表示填答時未注意到單位,應將 50000 修正成 5。
  2. 整理資料時重覆輸入。
  3. 資料定義出現錯誤。例如在性別欄中,若利用程式定義男性為 1 女性為 0,但如果有人在填性別時寫不願意透露,此時定義出的虛擬變數將產生錯誤。
  4. 資料本身的特殊情形。例如利用臺灣 50 的股價進行報酬率的計算,會發現2025年6月17日的股價為188元,6月18日的股價為47元,若直接計算報酬率為負 75%,但實際上是因為6月18日進行1對4的分拆,所以股價轉換為原先的 1/4。

若資料的筆數不多,可直接以人工方式進行資料篩選,即一筆一筆檢查資料是否有不合理的部份,若資料的筆數較多,可藉由統計軟體進行分析。例如可以畫出資料的盒鬚圖或者是直方圖,確認是否有特別的離群值。若資料的類型太多不容易一一確認圖型,可直接檢查資料的最大值與最小值,或者確認離群值出現的範圍之數字是否不合理。常見的離群值定義為在或者的範圍之外。

由於大部份的統計分析方法都會應用的資料的平均、標準差或者共變數,而這些統計量都會受到離群值影響。若不進行資料篩選,則可能因為離群值改變分析的結果, 因此資料篩選是必要的。

關鍵詞
資料篩選、data screening、統計分析方法
刊名
商研所許誠哲
該期刊-上一篇