跳到主要內容

大數據 (big data) 分析的困境

從蒐集資料開始

#大數據 (#bigdata) 的起源是採用網路蒐集資料,但是資料的代表性與正確性沒有一套方法做比對和分析,自然就不能做時間性的變動狀況分析或是資料來源不同的差異性分析,只能呈現蒐集資料的狀態。
資料蒐集與測定是此部分必須要做的工作,目前台灣的大數據分析都以資料蒐集為主,至於資料特性都是以數字型態做說明,並且至今無有效方法做有分析方法與軟體做測定。當資料特性無法確定時,無法確定進一步分析的方法和分析後所得結果就無法確定結果符合分析的目標。其實蒐集後的資料就是「資料礦( #datamining )」,要使用分析方法探討資料的特性才能進行分析資料。
蒐集資料的困難及資料特性是否一致,(1)不能簡單的假設所有蒐集的資料是同一特性,因為有假設就必須檢定。(2)分析不同資料來源的特性與差異性分析和相關係分析。(3)「#數字科學」不是說明資料而是反應資料的內容,並且必須採用數學模型解釋資料。

分析資料的理論

大數據的分析方法是「八仙過海各顯神通」,但是都是針對別性狀況且都是個別的方法並無系統的分析方法,同時分析的理論與方法都是「祕而不宣」,其實就是沒有一系列的分析方法形成科學。
既然大數據分析是科學方法,就必須採用科學或數學方式建立一套分析的理論與方法並提供大眾做驗證與批評。
#統計學 (#statistics)就是分析資料的方法。只要將統計學中的分析對象與資料量做擴充與修正,就可以有系統的分析資料與採用統計學的角度說明分析的結果,並且可以使得教育時間縮短有利用分析方法的推展。 然而,統計學方法擴展到「大數據分析」的困境有其以下問題:
  1. 母體分配必需為常態分配,無法擴展到其他母體分配。
  2. 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。
  3. 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。
  4. 沒有精確的檢定統計量的抽樣分配作為基礎。
目前市售的「統計學套裝軟體」是以目前統計學的樣本個數與方法所發展,無法解決統計學方法擴展到「大數據分析」的困境, 自然無法使用於大數據分析。想解決上述的問題就是得採用其他的數學方法。「#機率分配模擬器」 可以克服「#微積分」與「#數值分析」的限制,可以提供以上問題的解決方法。 目前已經完成統計學分析大數據的公式與方法,可以處理 1,000,000,000筆資料並且對母體分配有特殊要求,也就是 distribution free,可以跨越「數字科學」的藩籬。除此之外,還有
  1. 大資料庫的母體機率分配的估算(包含Curve-fittting)
  2. 一個母體的平均數與變異數的檢定
  3. 兩個獨立母體的平均數與變異數的檢定
  4. 兩個相關母體的平均數與變異數和相關係數的檢定
  5. 一類因子分析
  6. 多個獨立母體平均數與變異數檢定
  7. 簡單線性模式分析(包含非線性模式與Curvi-linear分析)
  8. 複迴歸分析(包含逐步分析)
  9. Durbin Watson檢定統計量
  10. 時間數列分析

這個網誌中的熱門文章

Durbin-Watson檢定與LM檢定的存在意義

每一本統計學、計量經濟學、時間序列分析、迴歸分析、市場預測的書籍都會提到資料自我相關問題。為了找到資料的自我相關性,有的學者從樣本相關係數出發進行資料的假設檢定,有的學者則是創造與樣本相關係數很相近的數學公式進行資料的假設檢定,其中,最知名的便是Durbin-Watson檢定與LM檢定(Breusch–Godfrey)。兩個檢定公式的出發點都是一樣的,那就是從迴歸分析的殘差出發。

Durbin-Watson檢定公式

LM檢定公式
從資料角度去看,無庸置疑的是資料的數值都是已知的,我們使用迴歸分析來瞭解資料間的因果關係。換言之,此時,解釋變數與被解釋變數之間是樣本條件關係。然而,我們卻遺忘了一件事情,那就是資料也是可以形成分配的,那就是抽樣分配。
既然資料可形成抽樣分配,這意味著解釋變數與被解釋變數都是抽樣分配,需要以分配的概念去解讀。於是,在統計學內就明確寫著: 每個樣本服從母體分配樣本的變異數一樣都是母體變異數樣本之間是無線性相關
同樣在迴歸分析的解釋變數、被解釋變數與誤差都有各自的母體分配,並且滿足上面的三個條件。同時解釋變數與被解釋變數之間可以是聯合關係,也可以是條件關係。
進一步推導所得到的係數、殘差、甚至是殘差的數學組合、變異數分析表內的SSR、SSE、MSR、MSE、自我相關係數都是抽樣分配。
請注意,這些都是隨機變數或隨機變數的數學組合,所以都是抽樣分配(只討論一個數字,不是分配)。當樣本數夠大時,才能夠代表母體分配(樣本要多大,沒人知道)。
所以要使用公式前,問問: 你確定資料的抽樣分配了嗎?你確定資料的抽樣分配轉換過程了嗎?(是數值的亂數表,不是機率生成的亂數表)隨機變數的數學組合之間有沒有成為函數關係?(例如自我相關係數與MSE)
當我們確定每一個轉換步驟狀況後,就可以觀察到解釋變數數值、解釋變數個數、誤差母體分配、樣本數、殘差限制對Durbin-Watson檢定與LM檢定的抽樣分配變化。
確實,Durbin-Watson檢定適合所有樣本大小,但是Durbin-Watson檢定的決策規則本身有問題,不符合統計公式的原則,那就是灰色地帶判定給虛無假設,因此只有虛無與對立假設的二分法,以及分配的臨界值只會有一個數字,而不會有所謂的上下界。除非沒有控制住解釋變數數值與殘差限制影響,才會讓這兩個影響融入分配當中,造成臨界值的不確定,產生了帶狀區間。
Dur…

經濟學的基礎 - 經濟循環圖概說

無論是基礎的經濟學、個體經濟學或總體經濟學,在前言總是會提到循環圖來讓學習者了解他們位在哪個地方。有趣的是循環圖總是無法全面性地展顯出來,甚至指引學習者知道他們該怎麼使用經濟循環圖。

Parkin在他所論著的經濟學教科書中,就將整個經濟循環圖展現出來。


就像是線上遊戲一般,初心者進入遊戲前總會來段開場動畫,告訴初心者所在的情境是怎樣。同樣地,完整的經濟循環圖內會包含四名角色、四個市場與金流方向。

四名角色:家計單位、廠商、政府與國外部門

如果沒有國外部門的話,那麼經濟循環圖就是封閉體系,如同清朝鎖國時期。
如果有國外部門的話,那麼經濟循環圖就是開放體系,如同台灣從早年至今的情況。

在圖上,四名角色可以在四個地方活動,也就是市場(Market)。

四個市場:勞動市場、商品市場、金融市場、外匯市場

在這邊的勞動市場只是要素市場當中的一種要素。
因為勞動的數量就為龐大,所以我在這邊將勞動市場指稱為要素市場的代表。

四種要素:勞動、資本、土地、企業家精神
四種報酬:工資、利息、地租、利潤

整個經濟循環圖,其實就是在講總體經濟的範圍。






學習經濟學的入門經驗

過去看過的經濟學教科書多是使用圖解、數學式來證實經濟學觀念的正確性,同時也讓學習者了解經濟學觀念的實用性。我常想如果能夠搭配電腦使用,達到經濟學觀念的實作演練,那不知該有多好?!

其實國外也有類似的教科書,只是深入一看,也都是根據經濟學的章節來撰寫內容。於是,我又想如果可以從本質著手,配合真實狀況,會不會更能夠將經濟學觀念的基礎說明得更加透徹?

經濟學最常見的區分方式就是個體經濟學(Microeconomics)與總體經濟學(Macroeconomics)。

所謂個體或總體,其實是從討論的對象(或角色)不同範疇而有所區隔。

個體經濟學是討論消費者(或生產者、政府)的經濟行為,而總體經濟學則是討論較大範疇,如國家、區域或全球的整合性經濟行為。於是,兩者的代表性指標就有所不同。


雖然個體經濟學與總體經濟學有所差異,但是,個體經濟學還是總體經濟學的基礎,所以,在新古典理論,常會提到個體基礎下的總體分析方法。

無論是先從總體的角度學習經濟學,或是先從個體角度學習經濟學,都是合宜且適用的。原因在於你選擇想先「見樹」再「見林」,還是先「見林」再「見樹」。

如果你選擇先「見樹」再「見林」,未免有以管窺天之虞,容易產生合成謬誤。如果選擇先「見林」再「見樹」,又難免犯了分割謬誤。

如此說來,好像怎樣做都不合適。那麼在這邊給初學者一個小小的建議,那就是投資理財上的一個觀念:

先見全盤(大盤走勢),然後觀看類股走勢,從強勢的類股中挑選一支值得你投資的股票。

或者是當你開車去某目的地前,先看看地圖,如同俯視一般了解大致的路況後,再上路,總比到了當地,在巷弄之間如無頭蒼蠅穿梭其中還來得好吧。

想避開分割謬誤,則可以如此思考:

並非一個類股下的所有股票都是強勢,開紅。

因此,當你了解整個經濟狀況後,再深入去看個體的經濟行為時,總是比較能夠抓出系統性的相同因素,剩下的就是個體自己的特殊因素在影響其決策了。