2017年4月24日 星期一

大數據分析基礎 - 大數法則 (中央極限定理)

先前在說明大數據分析的困境中有提到統計學延伸到大數據分析的四個問題,

統計學方法擴展到「大數據分析」的困境有其以下問題:
  1. 母體分配必需為常態分配,無法擴展到其他母體分配。
  2. 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。
  3. 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。
  4. 沒有精確的檢定統計量的抽樣分配作為基礎。


其中,第一點與第三點的根源在於第三點。如果所得到的資料,其樣本平均數與樣本變異數都可以趨近常態分配 -- 也就是極限分配 ,那麼,母體所服從的分配就不需要假設常態分配,以及迴歸分析的誤差也無需假設常態分配。

問題出在於所有的數學推導皆寫著 「n 趨近於無窮大」,此時,極限分配存在。那樣本個數真的可以有無窮多個嗎?這是不可能的。所以知道多少樣本個數可以達到極限分配,在大數據分析理論基礎是非常重要的!

第二個問題是我們看到的極限分配推導都是立基於樣本平均數,至於,樣本變異數的極限分配為何?樣本變異數可以標準化嗎?這個問題卻沒有人回答。
在英語版的維基百科內,寫著這段內容:


樣本變異數的期望值為母體變異數,而樣本變異數的變異數則是與四階動差有關,也就是峰態係數。而且非常重要的是所有的樣本值無須假設來自常態分配!可是,即使是維基百科,附圖下方的註解仍寫著:

Distribution and cumulative distribution of s2/σ2, for various values of ν = n − 1, when the yi are independent normally distributed.

即使如此,v = n - 1,應可以讓其增加,了解是否具有中央極限特性,並且清楚告知樣本個數,n,要多少個以上才發生中央極限定理。可惜,沒有!

理論上,我們就可以像樣本平均數一樣找到各種機率分配下,樣本變異數的中央極限定理。我們需要根據大數法則設定以下的條件:
  1. 比較分配差距時的誤差控制
  2. 找到做為依據的基準誤差
  3. 大數法則運算機率值的公式