從蒐集資料開始
資料蒐集與測定是此部分必須要做的工作,目前台灣的大數據分析都以資料蒐集為主,至於資料特性都是以數字型態做說明,並且至今無有效方法做有分析方法與軟體做測定。當資料特性無法確定時,無法確定進一步分析的方法和分析後所得結果就無法確定結果符合分析的目標。其實蒐集後的資料就是「資料礦( #datamining )」,要使用分析方法探討資料的特性才能進行分析資料。
蒐集資料的困難及資料特性是否一致,(1)不能簡單的假設所有蒐集的資料是同一特性,因為有假設就必須檢定。(2)分析不同資料來源的特性與差異性分析和相關係分析。(3)「#數字科學」不是說明資料而是反應資料的內容,並且必須採用數學模型解釋資料。
分析資料的理論
大數據的分析方法是「八仙過海各顯神通」,但是都是針對別性狀況且都是個別的方法並無系統的分析方法,同時分析的理論與方法都是「祕而不宣」,其實就是沒有一系列的分析方法形成科學。
既然大數據分析是科學方法,就必須採用科學或數學方式建立一套分析的理論與方法並提供大眾做驗證與批評。
#統計學 (#statistics)就是分析資料的方法。只要將統計學中的分析對象與資料量做擴充與修正,就可以有系統的分析資料與採用統計學的角度說明分析的結果,並且可以使得教育時間縮短有利用分析方法的推展。 然而,統計學方法擴展到「大數據分析」的困境有其以下問題:
- 母體分配必需為常態分配,無法擴展到其他母體分配。
- 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。
- 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。
- 沒有精確的檢定統計量的抽樣分配作為基礎。
目前市售的「統計學套裝軟體」是以目前統計學的樣本個數與方法所發展,無法解決統計學方法擴展到「大數據分析」的困境, 自然無法使用於大數據分析。想解決上述的問題就是得採用其他的數學方法。「#機率分配模擬器」 可以克服「#微積分」與「#數值分析」的限制,可以提供以上問題的解決方法。 目前已經完成統計學分析大數據的公式與方法,可以處理 1,000,000,000筆資料並且對母體分配有特殊要求,也就是 distribution free,可以跨越「數字科學」的藩籬。除此之外,還有
- 大資料庫的母體機率分配的估算
( 包含Curve-fittting ) - 一個母體的平均數與變異數的檢定
- 兩個獨立母體的平均數與變異數的檢定
- 兩個相關母體的平均數與變異數和相關係數的檢定
- 一類因子分析
- 多個獨立母體平均數與變異數檢定
- 簡單線性模式分析(包含非線性模式與Curvi-linear分析)
- 複迴歸分析(包含逐步分析)
- Durbin Watson檢定統計量
- 時間數列分析