高點研究所
首頁商研所許誠哲 為什麼小樣本下進行迴歸分析需要解釋變數非隨機變數?
篇名
為什麼小樣本下進行迴歸分析需要解釋變數非隨機變數?
作者
許誠哲
說明
發佈時間:20231106

在統計課程中我們學到古典迴歸模型假設中,為了在小樣本進行有效的統計推論,,除了誤差項服從常態分配外,還需要假設解釋變數為非隨機變數。而大多數的同學對於解釋變數非隨機的概念不是很清楚,因此在本次專欄中,我將介紹此假設的概念。

舉例來說,若被解釋變數X為薪資,解釋變數Y為教育程度,誤差項以 u 表示。則迴歸模型可表示為

Y= α + βX + u

解釋變數非隨機的意思是如果進行重覆抽樣,則每一次抽樣時,其教育程度的實現值需要完全相同。假設整個母體有 10000 人,其中高中學歷以下的樣本有 3000 人,大學學歷有 5000 人,研究所學歷有 2000 人。則進行每一次的重覆抽樣時,三個學歷的人數需為固定而不可變動,例如抽 20 個樣本中,每次皆固定為 5 個高中學歷與 10 個大學學歷與 5 個研究所學歷的樣本。如此一來,由於每次抽樣下X 都是固定的,造成Y的變異則只有誤差項 u 的影響。我們可以進一步的推出 β 之最小平方法估計式為

其中X 之函數, 且

因此如果 X 是隨機變數,則亦為隨機變數,此時會是隨機變數 與誤差項兩個相乘起來的組合,在小樣本下無法推出其確切分配;但若 X 不是隨機變數,則是一個非隨機的常數,此時即為的線性組合,在小樣本下可導出其確切分配。

以下提供一個程式範例,模型假設為Y= 2 + 5X + u ,其中XPoisson(λ=20), 。考慮母體有 10000 個樣本,抽取 20 個樣本進行小樣本的迴歸分析,整個過程重覆施行 1000 次,利用 Shapiro-Wilk 檢定的分配是否為常態分配。Shapiro-Wilk 檢定的虛無假設為該分配母體為常態分配,因此若檢定的 p-值很小,表示有證據支持其不服從常態分配。可以發現若重覆抽樣下解釋變數為固定值,估計式的常態分配檢定 p-值為 0.3242,表示沒有證據顯示估計式的分配不為常態分配。若重覆抽樣下解釋變數的值也會隨之改變,則估計式值的常態分配檢定 p-值為 0.02737,在顯著水準為 0.05 下有證據支持估計式的分配不為常態分配。

關鍵詞
迴歸分析、非隨機變數、迴歸模型、常態分配
刊名
商研所許誠哲