2015年7月20日 星期一

資料如何算巨量?

巨量資料顧名思義即是大量的資料,然而資料量多大才算是巨量呢?
誰能說得清?1個億?10個億?


現階段的開放資料(open data),哪個是有上億資料?若整個資料庫來說確實有,但對於分析人員來說,特定幾個資料表才是重點。例如,貨幣政策的研究員在意利率、貨幣供給量、國內生產毛額、發行定期存單量。若由最大時間單位的變數決定(季),且假設從1955年至2014年皆有資料,則60年*4,此時,每個變數有240筆資料,本例有4個變數,所以共計960筆資料。
這不算是巨量資料,但可視為母體資料,並且資料量會隨時間而增加,所以每次估算就需納入最新資料。這無法預測非常準確,但可以增加準確性。


不過,這可否使用巨量資料分析呢?
答案是可以的!王冠先與李玫郁(2015)提出之巨量資料分析方法可以應用在此分析上。
步驟1:建立各變數之機率分配
步驟2:由各分配生成1億筆資料,共計4億筆資料
步驟3:跑數學模型,得到資料特徵之數學模式

在這過程中,對軟體商來說,
  1. 資料要讀得進;
  2. 能為資料定序。

對分析人員來說,
  1. 資料代表性與正確性;
  2. 能為資料檢測。

總而言之,巨量資料方法的應用將不侷限樣本大小或僅能模擬出來的資料。

另一種資料就是財務金融資料,例如,股票現階段的記錄上可細分至20秒一筆記錄值,累積資料起來就相當驚人,動輒上百萬筆資料,更近似於巨量資料概念。於是,在分析與研究上,更需要巨量資料分析方法。

巨量資料分析方法的免費電子書已經在 PUPU電子書商城 上架。對巨量資料來說,定序是非常重要的,這樣才能從中找到資料的數學模式,繼續從事相關研究分析,提供策略參考。