AI數據分析
這一集,我們介紹數據分析之進行方式,下一集才開始針對各種分析技巧舉例說明如何利用AI協助進行◦
實務上,數據分析可以分為六個核心步驟,我們簡稱A-P-D-C-E-R◦
這一步是非常關鍵的,問對問題比解決問題更為重要(Asking the right question is more important than solving it.),決定了後續的整個數據分析任務之工作與方向。
數據分析師所面對的客戶往往會提出一個模糊的需求,分析師要將模糊的需求轉化為具體的問題,例如:「客戶希望想要提升業績」應該可以具體化為「如何提升用戶的30天回購率」。又大多數情況下,確定關鍵指標(KPI)也是這個步驟的核心,未來要用什麼指標來衡量結果,如上例中的回購率就可以作為KPI。我們也要定義清楚專案成功之標準是什麼?也就是說到達什麼地方,就可以說分析專案是成功的,例如:準確率大於90%◦
這個步驟就是要思考數據的來源,一般數據來源大致上分為內部數據與外部數據,如下:
內部數據:公司自己的數據庫(MySQL, PostgreSQL)、CRM/ERP系統、網站或App的用戶行為等等。外部數據:公開數據集(如政府網站、Kaggle)、第三方API接口(如支付平台、社交媒體)、問卷調查或網路爬蟲獲取的數據。
這是最耗時的一個階段,但也是最不可或缺的一步。就如同本專題第六集所提及的,主要目的是刪除重複訊息、糾正錯誤(如不一致或不準確的數據)、處理缺失值、無效值及異常值,進而提升數據之品質。
整合不同來源的數據,在實務上也是曠日費時的,例如:統一日期格式與單位,將文本轉換為數值編碼(如:獨熱編碼),或創建新的衍生變量(如:將生日轉為年齡)。
就如同本專題第七集所提及的,透過視覺化、簡化與迭代探索理解數據本質。
描述性統計:計算均值、中位數、標準差等,快速了解數據分佈。可視化分析:直方圖、盒形圖查看分佈。使用散點圖查看變量間關係,或使用熱力圖查看相關性。
最終就是將數據分析結果轉化為決策之科學依據,這是真正體現了數據之價值。
文字解讀:不要只羅列數字,要解釋其業務含義。提出可執行建議:建議必須具體、可執行、可衡量。
