2016年10月11日 星期二

大數據分析方法論(1)

無論中文如何翻譯Big data為大數據或巨量資料,實際上,這些資料的目的就只有一個,那就是找出資料特徵,告訴我們一些規則(Rule)、規律(Regularity)或模式(Pattern)。

過去的研究方法對於模式的認定上,首先萃取出的即是線性趨勢。 受限於線性,偏離線性的部分都歸納在離差(Deviation)上,這產生了變異數(Variance)。於是,線性迴歸模型延伸出ARCH與GARCH模型,這也是事件研究法的根基。

但是,當我們使用這些方法時,對於資料特徵的檢測卻是不足的。例如,研究者有沒有先檢查原始資料的分配為何?還是直接跑完迴歸或實驗設計,再用殘差去檢查誤差分配呢?



如果想要做到資料分析,並從資料當中取得有意義的真實現象,那麼原始資料的分配理當先驗證出來。

讓我們舉一個最直接的例子,那就是股票市場的股價指數,在過去的分析方法發現,全球的股價指數皆是滿足隨機漫步(Random Walk),也就是誤差的一階自我相關誤差模型的係數為1,也就是完全自我相關,因此,這時使用差分,非常合適,所以誤差模型就會變成白噪音(Whate Noise)。

問題發生在

那是哪個模式的誤差?

答案是線性

所以,時間序列分析的資料,第一步就是做定態分析

然而,對所有資料分析人員而言,資料取得後,第一件事情就是要做定序!定序了解資料性質後,再依資料特性進行分析,得到資料告知的變數規則、規律或模式。這些規則、規律或模式對所有人而言可能從來沒有看過。

我們所能得到的模式未必會是線性,而是特殊,可能從未見過的規律或模式。再了解這些資料特性後,才開始討論資料之間的關係,所以,可以從線性關係,轉成非線性的多項式函數關係。是哪種關聯,我們無法知道,而是需要去測試,取得最小的MSE條件的估計函數,才能確定是哪種模式,以及相互之間的影響關係。

所以,若僅使用線性模式,即使是ARCH、GARCH或VAR模型,都是屬於這範疇,那麼,最終資料特性的了解就永遠都是線性模式。

如果真改為多項式函數去尋找資料特性,那麼,股價指數是否真的是隨機漫步嗎?
答案可參考連結的股價分析附錄。