高點研究所
首頁商研所許誠哲 資料分析與統計學的重要性
篇名
資料分析與統計學的重要性
作者
許誠哲
說明
發佈時間:20211213

你在大學一定要學的課程: 統計學

在最近10年裡,網路大幅度普及化的時代,大家每天花在網路瀏覽的時間越來越長。但無論是逛著拍賣網站、影音串流網站或者討論的論壇,每一個點擊與評論都將會留下足跡。而這些足跡與紀錄裡面卻可能包含著重要的資訊,這些資訊可能包含當今的流行趨勢,或者社會議題的風向,甚至是未來新興產業的發展方向。因此今幾乎每個企業都會投入大量資源聘請專業人才,分析這些資料並萃取出重要資訊。而分析資料最重要的基本知識,便是統計學。

而無論你大學未來選擇的領域為何,都可以看到統計學的足跡。
舉例來說,許多科技業(比如說台積電與鴻海)早在10年前就開始成立資料分析部門,收集機台的數據並找出影響良率的因子,用以改善製程與降低成本,增加企業的利潤。在生技醫療業中,新藥的開發與解盲需要通過統計學的驗證,證明該藥的療效是具有統計顯著性的,而如何設計實驗過程以確保藥物的有效性也是生物統計學中的重要課題。而在法律的實證分析在近年的能見度也逐漸提昇,在法律案例的研究也逐漸從質化分析轉換成量化分析,意即利用統計學方法分析過去的案例,作為當前案例的判決依據。政治學中,重要的政策制定也需要背後嚴謹的模型建立,再確認了政策施行與成效的因果關係與政策成效的估計後方能施行。最後,在金融與經濟學中,統計學的重要性更不言而喻。因此,不管高中選取的類組與大學選擇的科系為何,進入大學後,建議都要學習統計學與資料分析來增強該領域的專業知識。

統計學是什麼?

統計學的應用可以分成五個步驟:

  1. 定義問題
  2. 收集資料
  3. 建立模型
  4. 分析資料
  5. 決策制定

舉例來說:

  1. 有興趣的問題是「若今天某檔股票上漲,明天該檔股票上漲的機會會比較大嗎?」
  2. 此時,我們先收集該股票的歷史股價資料,由於股票價格是公開的資料,因此這個資料不需要付費就可以輕易取得。
  3. 接著,我們要選取適當的模型描述股票上漲或下跌。舉例來說,我們可以假設股票的上漲或下跌類似投擲一枚硬幣,我們假設其出現正面即表示股票上漲,出現反面即為股票下跌。而出現的正面機率是需要進一步估計的,而我們可以將我們的問題轉化成以下模型:「假設當今天股票上漲時,明天股票的上漲機率為;而今天股票下跌時,明天股票上漲的機率為,我們想要確認的問題是是否大於
  4. 接著,利用統計學中的方法,我們可以對於進行估計,並可以以統計學的角度,判斷是否大於
  5. 若我們成功的證明了大於,則我們可以做出以下推論:「若今天某檔股票上漲,明天該檔股票上漲的機會會比較大。」因此我們可以考慮在該股票上漲時,考慮隔天繼續持有(或者購買)該股票,以追求更大的利益。

當然,隨著有興趣的問題不同,則收集的資料、選取的模型與分析的方法都會不同。除了股票價格以下,還有其他更多有趣的問題。例如「大學的畢業科系不同,之後就業的平均起薪是否不同?」或者「在大學畢業之後,選擇唸碩士與直接就業,在10年之後的總收入是哪個何者較高?」而這些問題,統計學都有辦法回答。

統計學是大數據嗎?什麼是大數據?

有些人認為統計學或資料分析即是現在流行的用語「大數據分析」。對於任何議題,開口便是「你有沒有進行大數據分析」?因此同學對於「大數據分析」這個詞彙會覺得熟悉但又覺得遙不可及。事實上,數據的大小並沒有絕對,主要取決於現今硬體設備可以處理的極限。舉例來說,在30年前幾乎可稱作是大數據,因為當時的電腦快閃記憶體與硬碟容量不大,CPU的處理能力也較差。因此處理1萬筆資料就已經需要當時的超級電腦,並透過優化演算法才有辦法分析。但隨著科技進步,現今1萬筆資料甚至利用手機就可以進行運算與分析。而隨著資料收集越來越容易,現今的資料數量有著爆炸性的成長。舉例來說,臉書與台大經濟系資料分析學程的專案中,釋出的檔案為PB級的資料。常見的筆電容量大約是512GB,而1TB大約是1000GB,1PB則大約是1000TB。然而,這樣大小的資料當然無法全部讀進單一電腦中,需要一點演算法與技巧才有辦法對其中的資料進行分析。但是無論數據的大小,分析資料的方式與邏輯都是相同的。

學習統計學的必經之路

令人聞風喪膽的商學院三大必修經濟學、會計學、與統計學當中,以統計學對於數學的要求最重。統計學除了常見的微分以外,更有著積分(事實上統計學微分的應用比積分要少得多)、代數運算、累加符號和連乘符號充斥在統計學的課程當中。而在一類的科系中,課程注重於個案分析,而分析方法大多是質化分析,缺乏量化分析的科學證據。因此會使學生傾向放棄量化分析,而轉向需要口才(就是偏嘴砲啦)的質化分析。然而,只有理解每個統計學方法的數學原理,才可以在不同的情境當中選擇最適合的模型。事實上,若在避開數學的情況下學習統計學,只能知道在固定的框架下應該如何應用,但如果遇到比較創新的情境下,就會缺乏開發新方法的能力。因此建議還是在理解數學原理的前提下學習。故修統計學之前,其前導課程「微積分」對於一類組的同學是非常必要的。事實上相較於高中數學,微積分中的數學在統計學的應用事實上是簡單許多的,因此只要拿出高中時期付出的一半努力,這樣的課程是難不倒各位的。在二三類組的科系當中,由於大多數的課程都有數學方面的訓練,因此在學習統計學時通常不會遇到什麼困難。但在學習完之後,由於系所訓練比較少針對個案的分析邏輯進行訓練,往往擁有一身好功夫卻不知該如何應用。因此我建議除了修統計學,也建議修「經濟學原理」的課程加強模型建立與邏輯分析,以及「計量經濟學」加強統計學在實際資料的應用方式。

結語

在21世紀,公認的最吸引人的職業是協助企業進行大型數據分析的「資料科學家」或稱為「數據工程師」,而利用財務資料找尋優質的投資組合的「量化財務分析師」也是新興的熱門職業。這兩個職業的共通點是工作時間彈性且內容有趣,也其核心領域知識皆與統計學有著緊密的連結。雖然在學習的過程中,統計學帶給同學的挫折感比較大,但是對於未來的幫助卻也是非常巨大。因此我認為在大學的課程當中,最重要也最值得同學投入時間去學習的課程就是統計學。希望這篇文章,能夠提供同學理解到統計學的基本概念與重要性。

關鍵詞
資料分析、統計學、收集資料、數據工程師
刊名
商研所許誠哲