進行迴歸分析時的注意事項(上)

許誠哲

首頁

商研所許誠哲

進行迴歸分析時的注意事項(上)

【推薦課程】
行動版、數位課程

篇名

進行迴歸分析時的注意事項(上)

作者

許誠哲

說明

發佈時間：20230522

在財金與經研類所的碩士論文中，若欲進行量化分析或者實證研究，最普遍的資料類型之一是衡斷面資料，並利用迴歸模型進行分析。在之前的專欄中已經大略介紹橫斷面資料，在本次專欄中，我將介紹分析橫斷面資料需注意的問題。

進行橫斷面資料分析時，需注意以下幾點：

確認研究的內部效度 (internal validity) 與外部效度 (external validity)：
內部效度指的是研究結果具有可信度, 接近真實世界的因果關係。可信度指的是資料蒐集過程、模型設定與係數估計與因果推論的過程皆使用了適當的方法。但具有內部效度並不保證其結果可推論到其他母體。舉例來說，台股與美股之間存在著連動關係，但這樣子的連動關係並不存在於中國股市與美股之間。外部效度指的是研究結果具有普遍性 (generalization), 即研究結果是否可套用在到其他群體或者其它環境下(有不同的制度、文化、法律以及地理位置的其他經濟體等)。例如在台灣, 因為升學主義的關係, 高學歷通常是高薪的保證。但即使在升學主義不那麼盛行的歐美地區, 教育程度仍然與薪資之間存在著強烈的因果關係。因此這樣的研究就具有外部效性。
異質變異數：
橫斷面資料中通常都具有異質變異數，意即個體之間的變異程度是不相同的。舉例來說，在討論教育程度與所得之間的關係可以發現到不同教育程度之間，其所得的變異程度有顯著差異。隨著教育程度越高，則其薪資的變異程度越大(主因是教育程度越高，薪資的天花板通常越高，因此變異程度會越大)。而異質變異數會影響到統計推論的結果，因此在進行迴歸分析時，需考量到可能存在的異質變異數，使用在異質變異數下仍可進行可靠推論的標準誤 (standard error) 作係數檢定。
樣本選擇偏誤 (sample selection bias)：
選擇樣本的過程中，系統性的只收集或未收集到特定群體。舉例來說
(a) 參加謝師宴的學生 GPA 平均大於未參加的學生，是否可推論參加謝師宴可以增加 GPA? 顯然地不行，主要原因是認真學習同學成績較高，而認真學習的同學參加謝師宴的比例比不認真學習的同學高，因此影響成績的關鍵為是否認真學習而不是參加謝師宴。
(b) 接受就業訓練的勞工的薪資平均低於未接受的勞工，是否可推論就業訓練對於薪資提昇反而有負面影響? 一樣不行，因為薪資主要是由勞工的生產力決定。而生產力較低的勞工傾向透過參加就業訓練增加自己的生產力，而生產力較高的勞工(例如碩士生)大部份都直接進入職場，而不會參加就業訓練。因此，若給定兩群人有著相同的生產力，若其中一群人加了就業訓練，則薪資應會增加。但如果給定兩群人生產力不相同，則無法推論其薪資的差異是否來自於就業訓練或者自己本身的生產力。
倖存者偏誤 (survivalbias)：在蒐集資料的過程，遺漏消失在樣本中的群體，只根據部份還留在樣本中的群體進行推論。舉例來說：
(a) 分析上市櫃公司的研發支出與每股純益 (Earn Per Share, EPS) 之間的關係，會發現研發支出越高，其每股純益會越高。但若某公司不進行研發或者研發支出較少，極有可能被市場淘汰而下市下櫃。因此留在資料中的都是研發支出高且每股純益高的公司，因此會低估兩者之間相關性。
(b) 在探討育有小孩的婦女的工作薪資時，會發現控制其他變數(教育程度、科系、工作經驗與產業類別等)下，會比未育有小孩的婦女薪資低，會誤以為育有小孩會增加薪資。但事實上是因為育有小孩的婦女其工作的機會成本(即送小孩托育的托嬰成本)較大，因此若不是薪水較高，並不會選擇去工作而是自行托嬰。
遺漏變數：
舉例來說，中暑人數與可樂銷售量之間有顯著的正向關係，但不表示兩者之間真的具有因果關係，主要是遺漏了重要的變數「氣溫」。遺漏變數的存在將會使得迴歸分析存在內生性，則所有的統計推論結果都是不可靠的。
線性重合：
若使用多元迴歸，加入多個控制變數。若控制變數間存在著高度線性相關, 將會增加估計式之標準誤, 使得單一係數檢定的顯著性下降與區間估計式寬度增加。舉例來說，在薪資問題中，若在模型中同時加入年齡與工作經驗兩個變數，由於年齡與工作經驗高度相關，因此不需要同時加入這兩個變數，只需要選擇其中一個變數即可。

橫斷面資料下的迴歸分析是很常見的研究方法，但若要針對其結果給予合理的解讀，需注意以上的問題是否有考慮，方能獲取可靠的結論。

關鍵詞

迴歸分析、經研類所、迴歸模型、異質變異

刊名

商研所許誠哲

該期刊-上一篇

進行多變量分析時的注意事項

該期刊-下一篇

遞迴問題的機率與期望值計算