2019年11月8日 星期五

意向大數據分析_分辨資料視覺化下的聯合機率和條件機率

有人問我資料視覺化不就是資料進來後,經過整理就使用漂亮的UI來展現資料就可以知道資料的關聯嗎?

現在很多資料視覺化確實都是走向這樣的方向。可是讓我們回到資料分析的初衷,為什麼要做資料分析!

資料分析的目的就是希望從資料當中根據我的問題去找到答案,可以是驗證我所想的,也可能是發現問題點,或是意想不到的結果。那你所使用的資料真的可以就這樣丟進去,然後展現嗎?

我看到很多情況都是弄個走勢圖,就像匯率走勢、股價走勢、營收結構(圓餅圖或環狀圖)等,這些對我們提出的問題有什麼意義呢?





我在自己的研究中,特別是匯率關聯性,以及特定魚種價格關聯性,就發現了如果只是用走勢圖展現出資料來,其實根本就看不出個所以然。就其原因那是時間序列資料,你用走勢圖顯示,卻不代表不同國家匯率走勢就能表現他們之間的關聯性。

有人又說,我可以求相關係數(矩陣),這樣一樣可以知道那些資料的關聯性。我承認確實可以用相關係數矩陣,但這是有前提的,那係數值是建立在線性關係上,如果不是線性關係😵。好吧,你可以說課本沒教,受限於工具與學習經驗,所以不管!

那真是受限工具與學習經驗嗎?好像並非如此。

意向大數據分析是建立在機率論上,以機率值幫助我們知道數字或文字特徵。所以,如果可以將那些文字或數字以意向大數據分析方法來解讀,自然也是有理論基礎,而且也是過去學習過的知識。

這時,又發生了一個問題!我們可以計算邊際機率(這是我們最常看到的計算機率方式),條件機率(學統計學或計量經濟學時都會學到的迴歸分析就是架構在條件下),聯合機率(全部一起看,特別複雜,有時候很難解釋)。

所以,當我們計算出這些機率值後,就要根據自己詢問的問題特色來選擇邊際、條件或是聯合機率,而不是通通都認為是邊際機率或聯合機率。

我們最常發生的是條件與邊際傻傻分不清,特別是在資料視覺化圖像上!

這是怎麼一回事呢?下面的資料是來自常態分配的一組條件機率。為了能夠繪製出圖形,所以經過排序後,可以形成列聯表,列為Y,欄為X,然後繪製出圖形。



我們可以看到在對應的分類(對角線)很明顯條件機率為0.8~0.819,其左右,對角線的機率值則為0.22~0.25,在條件機率下,可以看出分類號碼相同,以及分類號碼加減1就會產生機率。



那聯合機率呢?下方圖內為Excel的截圖。可以看出聯合機率也是在對角線上有機率值,在鄰近的分類號也有機率值,但是,可以發現


  1. 對角線的機率值有類似常態分配的高低
  2. 對角線兩旁的機率值也有集中現象





【結論】

當我們詢問的問題不同需要使用的機率值就會不同,特別是使用資料視覺化圖像時,條件機率和聯合機率都是3D立體圖,但是,兩種圖形給出的答案是不同的!