2017年7月19日 星期三

【推廣】大數據分析軟體

所謂的大數據是指機率模型,在巨量的資料下找到機率模型模式。若要憑空學習大數據分析並不容易,所以根據機率與統計的概念當中,對樣本個數進行切割,分成大樣本與小樣本。

統計學就是使用在分析小樣本,從小樣本了解母體的狀況。而大數據分析則是從大樣本去進行分析,而由於是在大樣本下,所以適用於所有母體分配。因此,若想知道大樣本的狀況,同樣也是可以用統計學的分析方法進行分析,例如:

資料來源:Psccc機率與統計粉絲專頁(不經授權不得轉載)

只是在大數據分析的公式上略有不同,經「機率分配模擬器」與「大數法則」的驗證,可得到大數據分析所需要使用的樣本平均數與變異數的公式:

資料來源:Psccc機率與統計粉絲專頁(不經授權不得轉載)

資料來源:Psccc機率與統計粉絲專頁(不經授權不得轉載)
資料來源:Durbin Watson 檢定統計量



對於軟體的使用上,資料取得後,大數據分析可是用各種分配,其原因如上。只是對可計算與執行的平均數與變異數估計式必須先行取得。對此,作者在統計分析、模擬分析與大數據分析上取得三者的交集,由模擬器模擬資料來進行統計分析的公式驗證,再逐步推展到大數據下的資料關聯。因此,這套軟體是可以進行公開測試與自行創造變數變換的公式。

至於使用的方式,是使用指令檔將資料與軟體呼叫的檔案分開,讓使用者容易用指令檔更改,並選擇對應之資料來源與選項所需的參數設定。

假設檢定

迴歸分析

適合度檢定

大數據分析軟體放置在Facebook的Psccc_機率與統計的粉絲專頁。
https://www.facebook.com/Psccc_機率與統計-1664152793914411/