2019年11月8日 星期五

意向大數據分析_資料視覺化_聯合機率法

意向大數據分析方法可以適用於同時出現文字與數字的資料。然後透過計算每個層次的機率與每個層次之間所形成的條件機率,我們可以繪製出樹狀圖來顯示每個可能路徑。樹狀圖會因為層次的排序不同而不同,所以這樣的樹狀圖會非常龐大的,計算起來也非常麻煩。


下面,我用三個層次的例子來說明意向大數據分析方法的使用。


資料內容

隨機調查一萬個人,記錄他的性別、居住區域、年所得(萬元)
男   北          52.4863746029
男   南         123.4805768599
女   北         331.9074010055
男   北         243.1755663228
男   南         180.8876075778
男   北         158.3195187234
男   北         193.4245893981
男   北         236.3479604666
男   南         146.9041270653
女   北         228.9483905483
男   北         187.6686910211
女   北         358.9686625266
男   南         147.0440013560
女   北         491.8759236388
男   南          79.1264377265
男   北         192.4260346172
男   北         248.8099615308
女   南         213.1973544124
.......................

分析工具

最簡單的方式是使用Excel的樞紐分析歸納出兩兩交集或三三交集的機率,並且使用圖表功能繪製出資料視覺化圖像。

【分析結果】從層次1→層次2→層次3

兩兩交集的機率

P(男 and 北)=0.250600000(樣本個數=2506)
P(男 and 南)=0.247300000(樣本個數=2473)
P(女 and 北)=0.251700000(樣本個數=2517)
P(女 and 南)=0.250400000(樣本個數=2504)
最大值發生在 P(女 and 北)=0.251700000
最小值發生在 P(男 and 南)=0.247300000



P(北 and X3分類=       20.5286724004)=0.000200000(樣本個數=2)
P(北 and X3分類=       54.3235262719)=0.001900000(樣本個數=19)
P(北 and X3分類=       88.1183801433)=0.009600000(樣本個數=96)
P(北 and X3分類=      121.9132340148)=0.029300000(樣本個數=293)
P(北 and X3分類=      155.7080878862)=0.047000000(樣本個數=470)
P(北 and X3分類=      189.5029417576)=0.062600000(樣本個數=626)
P(北 and X3分類=      223.2977956291)=0.068000000(樣本個數=680)
P(北 and X3分類=      257.0926495005)=0.069600000(樣本個數=696)
P(北 and X3分類=      290.8875033720)=0.062900000(樣本個數=629)
P(北 and X3分類=      324.6823572434)=0.051400000(樣本個數=514)
P(北 and X3分類=      358.4772111149)=0.037400000(樣本個數=374)
P(北 and X3分類=      392.2720649863)=0.025800000(樣本個數=258)
P(北 and X3分類=      426.0669188578)=0.015700000(樣本個數=157)
P(北 and X3分類=      459.8617727292)=0.010300000(樣本個數=103)
P(北 and X3分類=      493.6566266007)=0.004800000(樣本個數=48)
P(北 and X3分類=      527.4514804721)=0.002900000(樣本個數=29)
P(北 and X3分類=      561.2463343435)=0.001900000(樣本個數=19)
P(北 and X3分類=      595.0411882150)=0.000400000(樣本個數=4)
P(北 and X3分類=      628.8360420864)=0.000500000(樣本個數=5)
P(北 and X3分類=      662.6308959579)=0.000100000(樣本個數=1)

P(南 and X3分類=       20.5286724004)=0.008400000(樣本個數=84)
P(南 and X3分類=       54.3235262719)=0.035900000(樣本個數=359)
P(南 and X3分類=       88.1183801433)=0.068900000(樣本個數=689)
P(南 and X3分類=      121.9132340148)=0.094100000(樣本個數=941)
P(南 and X3分類=      155.7080878862)=0.085200000(樣本個數=852)
P(南 and X3分類=      189.5029417576)=0.078600000(樣本個數=786)
P(南 and X3分類=      223.2977956291)=0.056300000(樣本個數=563)
P(南 and X3分類=      257.0926495005)=0.033500000(樣本個數=335)
P(南 and X3分類=      290.8875033720)=0.017000000(樣本個數=170)
P(南 and X3分類=      324.6823572434)=0.010400000(樣本個數=104)
P(南 and X3分類=      358.4772111149)=0.005800000(樣本個數=58)
P(南 and X3分類=      392.2720649863)=0.001500000(樣本個數=15)
P(南 and X3分類=      426.0669188578)=0.001400000(樣本個數=14)
P(南 and X3分類=      459.8617727292)=0.000600000(樣本個數=6)
P(南 and X3分類=      527.4514804721)=0.000100000(樣本個數=1)
最大值發生在 P(女 and 北)=0.251700000 (眾數)
最小值發生在 P(南 and X3分類=      493.6566266007)=0.000000000

資料視覺化圖像

三三交集機率

P(男 and 北 and X3分類=       20.5286724004)=0.000200000(樣本個數=2)
P(男 and 北 and X3分類=       54.3235262719)=0.001900000(樣本個數=19)
P(男 and 北 and X3分類=       88.1183801433)=0.009600000(樣本個數=96)
P(男 and 北 and X3分類=      121.9132340148)=0.029300000(樣本個數=293)
P(男 and 北 and X3分類=      155.7080878862)=0.047000000(樣本個數=470)
P(男 and 北 and X3分類=      189.5029417576)=0.062400000(樣本個數=624)
P(男 and 北 and X3分類=      223.2977956291)=0.054000000(樣本個數=540)
P(男 and 北 and X3分類=      257.0926495005)=0.039000000(樣本個數=390)
P(男 and 北 and X3分類=      290.8875033720)=0.007200000(樣本個數=72)

P(男 and 南 and X3分類=       20.5286724004)=0.008400000(樣本個數=84)
P(男 and 南 and X3分類=       54.3235262719)=0.035900000(樣本個數=359)
P(男 and 南 and X3分類=       88.1183801433)=0.068900000(樣本個數=689)
P(男 and 南 and X3分類=      121.9132340148)=0.086400000(樣本個數=864)
P(男 and 南 and X3分類=      155.7080878862)=0.037600000(樣本個數=376)
P(男 and 南 and X3分類=      189.5029417576)=0.010100000(樣本個數=101)

P(女 and 北 and X3分類=      189.5029417576)=0.000200000(樣本個數=2)
P(女 and 北 and X3分類=      223.2977956291)=0.014000000(樣本個數=140)
P(女 and 北 and X3分類=      257.0926495005)=0.030600000(樣本個數=306)
P(女 and 北 and X3分類=      290.8875033720)=0.055700000(樣本個數=557)
P(女 and 北 and X3分類=      324.6823572434)=0.051400000(樣本個數=514)
P(女 and 北 and X3分類=      358.4772111149)=0.037400000(樣本個數=374)
P(女 and 北 and X3分類=      392.2720649863)=0.025800000(樣本個數=258)
P(女 and 北 and X3分類=      426.0669188578)=0.015700000(樣本個數=157)
P(女 and 北 and X3分類=      459.8617727292)=0.010300000(樣本個數=103)
P(女 and 北 and X3分類=      493.6566266007)=0.004800000(樣本個數=48)
P(女 and 北 and X3分類=      527.4514804721)=0.002900000(樣本個數=29)
P(女 and 北 and X3分類=      561.2463343435)=0.001900000(樣本個數=19)
P(女 and 北 and X3分類=      595.0411882150)=0.000400000(樣本個數=4)
P(女 and 北 and X3分類=      628.8360420864)=0.000500000(樣本個數=5)
P(女 and 北 and X3分類=      662.6308959579)=0.000100000(樣本個數=1)

P(女 and 南 and X3分類=      121.9132340148)=0.007700000(樣本個數=77)
P(女 and 南 and X3分類=      155.7080878862)=0.047600000(樣本個數=476)
P(女 and 南 and X3分類=      189.5029417576)=0.068500000(樣本個數=685)
P(女 and 南 and X3分類=      223.2977956291)=0.056300000(樣本個數=563)
P(女 and 南 and X3分類=      257.0926495005)=0.033500000(樣本個數=335)
P(女 and 南 and X3分類=      290.8875033720)=0.017000000(樣本個數=170)
P(女 and 南 and X3分類=      324.6823572434)=0.010400000(樣本個數=104)
P(女 and 南 and X3分類=      358.4772111149)=0.005800000(樣本個數=58)
P(女 and 南 and X3分類=      392.2720649863)=0.001500000(樣本個數=15)
P(女 and 南 and X3分類=      426.0669188578)=0.001400000(樣本個數=14)
P(女 and 南 and X3分類=      459.8617727292)=0.000600000(樣本個數=6)
P(女 and 南 and X3分類=      527.4514804721)=0.000100000(樣本個數=1)

最大值發生在 P(男 and 南 and X3分類=      121.9132340148)=0.086400000 (眾數)
最小值發生在 P(男 and 北 and X3分類=      324.6823572434)=0.000000000

資料視覺化圖像