2016年11月11日 星期五

大數據 (big data) 分析的困境

從蒐集資料開始

#大數據 (#bigdata) 的起源是採用網路蒐集資料,但是資料的代表性與正確性沒有一套方法做比對和分析,自然就不能做時間性的變動狀況分析或是資料來源不同的差異性分析,只能呈現蒐集資料的狀態。
資料蒐集與測定是此部分必須要做的工作,目前台灣的大數據分析都以資料蒐集為主,至於資料特性都是以數字型態做說明,並且至今無有效方法做有分析方法與軟體做測定。當資料特性無法確定時,無法確定進一步分析的方法和分析後所得結果就無法確定結果符合分析的目標。其實蒐集後的資料就是「資料礦( #datamining )」,要使用分析方法探討資料的特性才能進行分析資料。
蒐集資料的困難及資料特性是否一致,(1)不能簡單的假設所有蒐集的資料是同一特性,因為有假設就必須檢定。(2)分析不同資料來源的特性與差異性分析和相關係分析。(3)「#數字科學」不是說明資料而是反應資料的內容,並且必須採用數學模型解釋資料。

分析資料的理論

大數據的分析方法是「八仙過海各顯神通」,但是都是針對別性狀況且都是個別的方法並無系統的分析方法,同時分析的理論與方法都是「祕而不宣」,其實就是沒有一系列的分析方法形成科學。
既然大數據分析是科學方法,就必須採用科學或數學方式建立一套分析的理論與方法並提供大眾做驗證與批評。
#統計學 (#statistics)就是分析資料的方法。只要將統計學中的分析對象與資料量做擴充與修正,就可以有系統的分析資料與採用統計學的角度說明分析的結果,並且可以使得教育時間縮短有利用分析方法的推展。 然而,統計學方法擴展到「大數據分析」的困境有其以下問題:
  1. 母體分配必需為常態分配,無法擴展到其他母體分配。
  2. 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。
  3. 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。
  4. 沒有精確的檢定統計量的抽樣分配作為基礎。
目前市售的「統計學套裝軟體」是以目前統計學的樣本個數與方法所發展,無法解決統計學方法擴展到「大數據分析」的困境, 自然無法使用於大數據分析。想解決上述的問題就是得採用其他的數學方法。「#機率分配模擬器」 可以克服「#微積分」與「#數值分析」的限制,可以提供以上問題的解決方法。 目前已經完成統計學分析大數據的公式與方法,可以處理 1,000,000,000筆資料並且對母體分配有特殊要求,也就是 distribution free,可以跨越「數字科學」的藩籬。除此之外,還有
  1. 大資料庫的母體機率分配的估算(包含Curve-fittting)
  2. 一個母體的平均數與變異數的檢定
  3. 兩個獨立母體的平均數與變異數的檢定
  4. 兩個相關母體的平均數與變異數和相關係數的檢定
  5. 一類因子分析
  6. 多個獨立母體平均數與變異數檢定
  7. 簡單線性模式分析(包含非線性模式與Curvi-linear分析)
  8. 複迴歸分析(包含逐步分析)
  9. Durbin Watson檢定統計量
  10. 時間數列分析

2016年10月11日 星期二

大數據分析方法論(1)

無論中文如何翻譯Big data為大數據或巨量資料,實際上,這些資料的目的就只有一個,那就是找出資料特徵,告訴我們一些規則(Rule)、規律(Regularity)或模式(Pattern)。

過去的研究方法對於模式的認定上,首先萃取出的即是線性趨勢。 受限於線性,偏離線性的部分都歸納在離差(Deviation)上,這產生了變異數(Variance)。於是,線性迴歸模型延伸出ARCH與GARCH模型,這也是事件研究法的根基。

但是,當我們使用這些方法時,對於資料特徵的檢測卻是不足的。例如,研究者有沒有先檢查原始資料的分配為何?還是直接跑完迴歸或實驗設計,再用殘差去檢查誤差分配呢?

如果想要做到資料分析,並從資料當中取得有意義的真實現象,那麼原始資料的分配理當先驗證出來。

讓我們舉一個最直接的例子,那就是股票市場的股價指數,在過去的分析方法發現,全球的股價指數皆是滿足隨機漫步(Random Walk),也就是誤差的一階自我相關誤差模型的係數為1,也就是完全自我相關,因此,這時使用差分,非常合適,所以誤差模型就會變成白噪音(Whate Noise)。

問題發生在

那是哪個模式的誤差?

答案是線性

所以,時間序列分析的資料,第一步就是做定態分析

然而,對所有資料分析人員而言,資料取得後,第一件事情就是要做定序!定序了解資料性質後,再依資料特性進行分析,得到資料告知的變數規則、規律或模式。這些規則、規律或模式對所有人而言可能從來沒有看過。

我們所能得到的模式未必會是線性,而是特殊,可能從未見過的規律或模式。再了解這些資料特性後,才開始討論資料之間的關係,所以,可以從線性關係,轉成非線性的多項式函數關係。是哪種關聯,我們無法知道,而是需要去測試,取得最小的MSE條件的估計函數,才能確定是哪種模式,以及相互之間的影響關係。

所以,若僅使用線性模式,即使是ARCH、GARCH或VAR模型,都是屬於這範疇,那麼,最終資料特性的了解就永遠都是線性模式。

如果真改為多項式函數去尋找資料特性,那麼,股價指數是否真的是隨機漫步嗎?
答案可參考連結的股價分析附錄。

2016年9月30日 星期五

時間序列模型分析 - 是否需要定態

數據分析可以成功的原因來自於使用統計學的分析方法,以及電腦軟體的運用。觀察迴歸分析與計量經濟學的基礎皆是從「線性模式」出發,藉由最小平方法的計算,得到估計係數的數學式,此時,一點都不需要分配的假設 - 常態分配。

於是,在高等計量經濟學當中,逐漸地只寫出iid的符號,至於Normal假設則是慢慢消失。但,我們反思,即使沒有寫出Normal符號,是否估計係數的分配就能夠得到,或許讀者可以問問你的老師 (笑)。

有趣的是,同樣的狀況發生在線性模式改為二次式或三次式,即使教科書上寫出來高階次方數的函數,我們卻沒有見過有人跑出結果來 (笑)。這是否表示那是所有撰寫者與理論家的最終極目標呢?我們不可而知.......

此時,為了能夠讓資料符合線性模式,資料使用者只能做一件事情,那就是 - 資料轉換,也就是定態(Stationary)。

讓資料定態的方式最簡單的就是差分,然後檢查是否滿足定態條件(請參考任何一本時間序列教科書都會寫)。只因欲檢定的序列資料若不是定態的話,要做「差分」直到定態(連結 p.2)。對資料分析的人員而言,當資料進行差分後將會發生什麼事情呢?

可想而知,部分資料特性將會消失!

如果你驗證過資料特性,如從巨量資料分析方法找台日韓兌美元匯率機率密度函數,從排序後的資料了解匯率母體分配圖與係數告知之資料特性,那麼,當資料不排序,而是依時間進行迴歸分析,是否就能知道時間變數(固定趨勢)其實就是可以抓住的趨勢,無論固定趨勢、波動或小部分不規則性(但具備短時間同方向)都可以被時間變數所表示。

唯一的問題就是你用線性模式看資料!所以,才需要捨棄部分資料特性,方能使用線性模式去配適,以及忘記了配適後還要轉回原本的資料(但數學轉不回去,Jacobin算不出來),所以,我們看到的都是資料差分、差分、再差分,滿足定態後的資料再去線性估計,而不是真實資料配適出估計多項式或線性估計後再反轉回原始資料的方程式。

於是,我們可以得到一個結論

資料為了適用線性模式需要做定態
找出資料真實模式須使用原始資料 


參考資料
1. 連結
2. www3.nccu.edu.tw/~jthuang/class16b.ppt
3. https://www.cyut.edu.tw/~finance/docs/1030-1.pdf
4. 連結


2016年8月11日 星期四

Pokemon Go 運用得當就會有助社會秩序與銷售經營

最近最熱門的話題莫過於是手遊遊戲 - Pokemon Go。這就是陪伴7、8年級生度過童年的「神奇寶貝」,從卡通、卡牌遊戲、皮卡丘連連看,到現在的手遊AR版的Pokemon Go。

從一開始上架後,議題與爭議都不斷,例如,伊朗全國禁玩巴西男童玩Pokemon溺斃路邊停車抓稀有寶,或者是在一些特殊的場所有所不敬。





圖片來源:https://www.facebook.com/PokemonGotaiwan/


有些企業看準Pokemon的商機,用Pokemon內的Journal紀錄,提供在現場的抓寶換贈品的活動,讓現場的人潮湧現,促銷產品。

對於Pokemon能夠造成全球風潮的原因,就在於當時對皮卡丘的情感認同以及AR體驗。手遊讓卡牌遊戲的對戰變成實境,而各種神奇寶貝必須要自己去尋找,產生了尋寶的感覺。

需要被限制不可在通勤或移動時玩遊戲的人應該是司機或駕駛人。雖然,高工局認為高速公路上設有藏寶點是非常不理想的,也容易造成意外狀況。但,不可否認的是對於搭乘大眾交通運輸工具的民眾來說,反而願意去搭乘,然後在路上尋找著神奇寶貝。這對於交通的舒緩是有幫助的。

若想要讓更多人願意搭乘大眾交通運輸工具,這時公路總局或各縣市之交通局更應該與Pokemon公司協商,如何在道路上設置藏寶點,讓民眾透過搭乘大眾交通運輸工具去尋寶(例如:藏寶點出怪的機率與如何觸發等)。

對於一些準備開發大型活動的公司來說,可以支付廣告費用,請Pokemon公司在該據點增設或提高原生神奇寶貝的觸發機率,或者是在《Ingress》申請「Portal(入口)」申請成據點(公司的廣告看板可在四周設置,成為藏寶點),讓人潮先在該據點活動。在AR的環境下,玩家的遊戲畫面就會常出現公司廣告,進而提高宣傳效果。


圖片來源:http://www.hk01.com/港聞/35397/-Pokemon-GO-中大時薪-55聘-小智-火速爆滿-
Pokemon手遊對市場研究也是很有幫助的。例如,香港中文大學就利用Pokemon的據點做為市場調查的位置,進行人流調查。因為Pokemon的孵蛋功能需要步行計算公里數,所以,強化民眾在外面走動的動機。