高點研究所
首頁商研所許誠哲 進行迴歸分析時的注意事項(下)
篇名
進行迴歸分析時的注意事項(下)
作者
許誠哲
說明
發佈時間:20230703

在財金與經研類所的碩士論文中,若欲進行量化分析或者實證研究,另一種普遍的資料類型是時間序列資料。時間序列資料係指單一標的在不同時點所之觀測值,例如匯率、股價與油價等等。在本次專欄中,我將介紹分析時間序列資料需注意的問題。

時間序列資料因為通常具有隨機趨勢(單根),直接使用迴歸模型分析可能產生虛假迴歸的問題,因此不適合利用迴歸模型分析。虛假迴歸指的是兩變數之間的相關性是來自於隨機趨勢。舉例來說,利用台灣的物價指數與南非幣兌美元的匯率進行迴歸分析,雖然兩者之間沒什麼因果關係,但仍可得到顯著的結果,但這個結果是不可信的。因此處理這種具有隨機趨勢的變數,建議使用向量自我迴歸模型 (vector auto regressive model,VAR) 或者向量誤差修正 (vector error correction model, VECM) 模型進行分析。欲探討變數的影響通常不是看係數的估計結果,而是衝擊反應函數 (impulse response function, IRF) 的區間是否包含 0 而定。或者亦可考慮將變數轉換成報酬率,則報酬率會是定態的時間序列,唯報酬率進行分析時,通常其結果都不太顯著,因此需要多方嘗試各種變數。

而進行時間序列資料分析時,需注意以下幾點:

  1. 資料缺失或者離群值:
    時間序列資料常常受到缺失值的影響。舉例來說,公司若有重大事件(併購或者商業合作)時,可能會停牌交易(產生資料缺失)或者連續出現股價大幅上漲或者下跌(離群值)的狀況。為了避免對於資料特性造成影響,在進行資料處理時需針對該公司近年的重大事件進行探討,刪去特定時點的觀測值以維持分析的可靠性。
  2. 季節性:
    時間序列資料可能會受到季節性影響。舉例來說,貨幣供給會有顯著的季節性,在一、二月的時候會特別大(農曆年前); 或者消費者物價指數在暑假期間也會特別高。因此進行分析時,需先進行季節調整。
  3. 自我相關性:
    時間序列資料中可能存在自相關性。相較於橫斷面資料的每一筆大多為隨機樣本,時間序列資料是同一個體在不同時點的觀測值,因此每期觀測值之間將或多或少具有相關性。而自我相關會影響統計推論的結果,因此建構估計式的標準誤時,需考慮到自我相關。
  4. 非定態與單根:
    時間序列資料可能是非定態的,也就是它的統計性質在不同時點下是不同的。股票價格與匯率很顯然地是非定態的時間序列,因此分析時需先差分,轉為報酬率再進行分析,否則將產生虛假迴歸。但例如消費者信心指數等不確定是否為非定態的時間序列資料,則應先進行單根檢定,確定為定態後方能進行迴歸分析。
  5. 過度擬合 (overfitting):使用複雜的模型進行時間序列分析可能會導致過度擬合。意即為了追求配適度而增加過多的解釋變數或選擇複雜的模型,將會使得資料在樣本外的預測可能失準。為了避免過度擬合,應避免只進行樣本內的分析,也應該進行樣本外的預測藉以修正模型的設定。

以上幾點是分析時間序列資料應注意到的問題,同學在進行研究時不可忽略。

 
關鍵詞
迴歸分析、量化分析實證研究、隨機趨勢、迴歸模型
刊名
商研所許誠哲