高點研究所
首頁商研所許誠哲 以相關係數衡量變數之間的關係
篇名
以相關係數衡量變數之間的關係
作者
許誠哲
說明
發佈時間:20221205

在統計學中,若欲探討兩變數之間的關係,可以利用相關係數作為衡量。在本次專欄中,我將以台股與美股作為範例,探討並分析兩者之間的關係,並期待可以激發同學對於實證分析的想法。

給定一組成對資料 ,相關係數的計算公式為

相關係數可解讀為給定 x 增加一個標準差時,預期 y 會變動  個標準差。當  之值越靠近 1 或者 -1,表示兩者之間的關係越接近一條直線,此時兩者的關係越來越強烈。若  之值越接近 0,則表示兩者之間沒有直線關係。在此特別注意,若兩變數存在著非線性關係(例如為拋物線或者圓型),則相關係數可能無法衡量。但由於大部份資料之間的關係大多可以線性關係描述,因此使用相關係數衡量並無不妥之處。

以台股與美股為例,台股以台灣加權指數作為衡量,美股則以四大指數(S&P 500、道瓊、 NASDAQ 與費城半導體)作為衡量。資料期間為 2012/1/1 至 2021/12/31,資料的頻率為日資料。由於台股與美股不一定同一天都有開盤(兩地區的國定假日不相同),因此選取共同有開盤的日期作為計算,共2364 個交易日。

首先直接利用指數作相關係數計算,得到的相關係數矩陣如下:

  台股 NASDAQ S&P 500 道瓊工業 費城半導
台股 1 0.9758 0.9685 0.9389 0.9820
NASDAQ 0.9758 1 0.9906 0.9684 0.9938
S&P 500 0.9685 0.9906 1 0.9885 0.9791
道瓊工業 0.9389 0.9684 0.9885 1 0.9527
費城半導 0.9820 0.9938 0.9791 0.9527 1

可以發現相關係數高的嚇人,但這樣的分析是不恰當的。由於大多數時間序列資料具有單根 (unit root) 而帶有隨機趨勢,故兩者之間如果有相關性不能保證是來自於變數之間的關係,因此不能直接進行統計分析。而將單根消除最簡單的方式,是將變數轉成報酬率(即取對數後進行一階差分)。改採報酬率之後,選取同一天開盤下,得到的相關係數矩陣如下:

  台股 NASDAQ S&P 500 道瓊工業 費城半導
台股 1 0.1958 0.2077 0.2085 0.1949
NASDAQ 0.1958 1 0.9436 0.8653 0.8734
S&P 500 0.2077 0.9436 1 0.9690 0.8199
道瓊工業 0.2085 0.8653 0.9690 1 0.7541
費城半導 0.1949 0.8734 0.8199 0.7541 1

可以發現相關性比預期來的更小,但這樣子的操作是有問題的。由於台灣跟美國有時差,因此同一天的股價資料,是台股在今天下午收盤後,美股才在隔天的凌晨收盤。而股價的影響應該是美股影響台股,故應該是利用今天的美股資料對於明天的台股進行相關分析會比較恰當。而使用當日美股對下個交易日的台股進行分析可以得到相關係數矩陣如下:

  台股 NASDAQ S&P 500 道瓊工業 費城半導
台股 1 0.3625 0.3539 0.3434 0.3758
NASDAQ 0.3625 1 0.9436 0.8653 0.8735
S&P 500 0.3539 0.9436 1 0.969 0.8199
道瓊工業 0.3434 0.8653 0.969 1 0.7542
費城半導 0.3758 0.8735 0.8199 0.7542 1

可以看出相關係數較大,符合我們的預期。其中,台股與費城半導體的相關性最強,與道瓊工業指數的相關性最弱。主要原因是台股指數中,佔權值最重的是台積電,而台積電又與費城半導體息息相關;而道瓊工業指數大多是美國的傳統產業類股,與台灣的高科技產業的相關性較低。

最後提醒各位同學,在研究台股與美股之間的關係中,有以下兩點需要注意

  1. 指數類的資料不建議直接分析,建議轉成報酬率再分析。
  2. 如果採取的是高頻資料(日資料或者盤中資料),則應考慮時差,反推發生的先後順序,應採用現在的資料解釋未來而不應該用未來的資料解釋過去的資料。
關鍵詞
變數、相關係數、報酬率、台積電
刊名
商研所許誠哲
該期刊-上一篇