意向大數據分析方法可以適用於同時出現文字與數字的資料。然後透過計算每個層次的機率與每個層次之間所形成的條件機率,我們可以繪製出樹狀圖來顯示每個可能路徑。樹狀圖會因為層次的排序不同而不同,所以這樣的樹狀圖會非常龐大的,計算起來也非常麻煩。
下面,我用三個層次的例子來說明意向大數據分析方法的使用。
資料內容
隨機調查一萬個人,記錄他的性別、居住區域、年所得(萬元)
男 北 52.4863746029
男 南 123.4805768599
女 北 331.9074010055
男 北 243.1755663228
男 南 180.8876075778
男 北 158.3195187234
男 北 193.4245893981
男 北 236.3479604666
男 南 146.9041270653
女 北 228.9483905483
男 北 187.6686910211
女 北 358.9686625266
男 南 147.0440013560
女 北 491.8759236388
男 南 79.1264377265
男 北 192.4260346172
男 北 248.8099615308
女 南 213.1973544124
.......................
分析工具
最簡單的方式是使用Excel的樞紐分析歸納出兩兩交集或三三交集的機率,並且使用圖表功能繪製出資料視覺化圖像。
【分析結果】從層次1→層次2→層次3
兩兩交集的機率
P(男 and 北)=0.250600000(樣本個數=2506)
P(男 and 南)=0.247300000(樣本個數=2473)
P(女 and 北)=0.251700000(樣本個數=2517)
P(女 and 南)=0.250400000(樣本個數=2504)
最大值發生在 P(女 and 北)=0.251700000
最小值發生在 P(男 and 南)=0.247300000
P(北 and X3分類= 20.5286724004)=0.000200000(樣本個數=2)
P(北 and X3分類= 54.3235262719)=0.001900000(樣本個數=19)
P(北 and X3分類= 88.1183801433)=0.009600000(樣本個數=96)
P(北 and X3分類= 121.9132340148)=0.029300000(樣本個數=293)
P(北 and X3分類= 155.7080878862)=0.047000000(樣本個數=470)
P(北 and X3分類= 189.5029417576)=0.062600000(樣本個數=626)
P(北 and X3分類= 223.2977956291)=0.068000000(樣本個數=680)
P(北 and X3分類= 257.0926495005)=0.069600000(樣本個數=696)
P(北 and X3分類= 290.8875033720)=0.062900000(樣本個數=629)
P(北 and X3分類= 324.6823572434)=0.051400000(樣本個數=514)
P(北 and X3分類= 358.4772111149)=0.037400000(樣本個數=374)
P(北 and X3分類= 392.2720649863)=0.025800000(樣本個數=258)
P(北 and X3分類= 426.0669188578)=0.015700000(樣本個數=157)
P(北 and X3分類= 459.8617727292)=0.010300000(樣本個數=103)
P(北 and X3分類= 493.6566266007)=0.004800000(樣本個數=48)
P(北 and X3分類= 527.4514804721)=0.002900000(樣本個數=29)
P(北 and X3分類= 561.2463343435)=0.001900000(樣本個數=19)
P(北 and X3分類= 595.0411882150)=0.000400000(樣本個數=4)
P(北 and X3分類= 628.8360420864)=0.000500000(樣本個數=5)
P(北 and X3分類= 662.6308959579)=0.000100000(樣本個數=1)
P(南 and X3分類= 20.5286724004)=0.008400000(樣本個數=84)
P(南 and X3分類= 54.3235262719)=0.035900000(樣本個數=359)
P(南 and X3分類= 88.1183801433)=0.068900000(樣本個數=689)
P(南 and X3分類= 121.9132340148)=0.094100000(樣本個數=941)
P(南 and X3分類= 155.7080878862)=0.085200000(樣本個數=852)
P(南 and X3分類= 189.5029417576)=0.078600000(樣本個數=786)
P(南 and X3分類= 223.2977956291)=0.056300000(樣本個數=563)
P(南 and X3分類= 257.0926495005)=0.033500000(樣本個數=335)
P(南 and X3分類= 290.8875033720)=0.017000000(樣本個數=170)
P(南 and X3分類= 324.6823572434)=0.010400000(樣本個數=104)
P(南 and X3分類= 358.4772111149)=0.005800000(樣本個數=58)
P(南 and X3分類= 392.2720649863)=0.001500000(樣本個數=15)
P(南 and X3分類= 426.0669188578)=0.001400000(樣本個數=14)
P(南 and X3分類= 459.8617727292)=0.000600000(樣本個數=6)
P(南 and X3分類= 527.4514804721)=0.000100000(樣本個數=1)
最大值發生在 P(女 and 北)=0.251700000 (眾數)
最小值發生在 P(南 and X3分類= 493.6566266007)=0.000000000
資料視覺化圖像
三三交集機率
P(男 and 北 and X3分類= 20.5286724004)=0.000200000(樣本個數=2)
P(男 and 北 and X3分類= 54.3235262719)=0.001900000(樣本個數=19)
P(男 and 北 and X3分類= 88.1183801433)=0.009600000(樣本個數=96)
P(男 and 北 and X3分類= 121.9132340148)=0.029300000(樣本個數=293)
P(男 and 北 and X3分類= 155.7080878862)=0.047000000(樣本個數=470)
P(男 and 北 and X3分類= 189.5029417576)=0.062400000(樣本個數=624)
P(男 and 北 and X3分類= 223.2977956291)=0.054000000(樣本個數=540)
P(男 and 北 and X3分類= 257.0926495005)=0.039000000(樣本個數=390)
P(男 and 北 and X3分類= 290.8875033720)=0.007200000(樣本個數=72)
P(男 and 南 and X3分類= 20.5286724004)=0.008400000(樣本個數=84)
P(男 and 南 and X3分類= 54.3235262719)=0.035900000(樣本個數=359)
P(男 and 南 and X3分類= 88.1183801433)=0.068900000(樣本個數=689)
P(男 and 南 and X3分類= 121.9132340148)=0.086400000(樣本個數=864)
P(男 and 南 and X3分類= 155.7080878862)=0.037600000(樣本個數=376)
P(男 and 南 and X3分類= 189.5029417576)=0.010100000(樣本個數=101)
P(女 and 北 and X3分類= 189.5029417576)=0.000200000(樣本個數=2)
P(女 and 北 and X3分類= 223.2977956291)=0.014000000(樣本個數=140)
P(女 and 北 and X3分類= 257.0926495005)=0.030600000(樣本個數=306)
P(女 and 北 and X3分類= 290.8875033720)=0.055700000(樣本個數=557)
P(女 and 北 and X3分類= 324.6823572434)=0.051400000(樣本個數=514)
P(女 and 北 and X3分類= 358.4772111149)=0.037400000(樣本個數=374)
P(女 and 北 and X3分類= 392.2720649863)=0.025800000(樣本個數=258)
P(女 and 北 and X3分類= 426.0669188578)=0.015700000(樣本個數=157)
P(女 and 北 and X3分類= 459.8617727292)=0.010300000(樣本個數=103)
P(女 and 北 and X3分類= 493.6566266007)=0.004800000(樣本個數=48)
P(女 and 北 and X3分類= 527.4514804721)=0.002900000(樣本個數=29)
P(女 and 北 and X3分類= 561.2463343435)=0.001900000(樣本個數=19)
P(女 and 北 and X3分類= 595.0411882150)=0.000400000(樣本個數=4)
P(女 and 北 and X3分類= 628.8360420864)=0.000500000(樣本個數=5)
P(女 and 北 and X3分類= 662.6308959579)=0.000100000(樣本個數=1)
P(女 and 南 and X3分類= 121.9132340148)=0.007700000(樣本個數=77)
P(女 and 南 and X3分類= 155.7080878862)=0.047600000(樣本個數=476)
P(女 and 南 and X3分類= 189.5029417576)=0.068500000(樣本個數=685)
P(女 and 南 and X3分類= 223.2977956291)=0.056300000(樣本個數=563)
P(女 and 南 and X3分類= 257.0926495005)=0.033500000(樣本個數=335)
P(女 and 南 and X3分類= 290.8875033720)=0.017000000(樣本個數=170)
P(女 and 南 and X3分類= 324.6823572434)=0.010400000(樣本個數=104)
P(女 and 南 and X3分類= 358.4772111149)=0.005800000(樣本個數=58)
P(女 and 南 and X3分類= 392.2720649863)=0.001500000(樣本個數=15)
P(女 and 南 and X3分類= 426.0669188578)=0.001400000(樣本個數=14)
P(女 and 南 and X3分類= 459.8617727292)=0.000600000(樣本個數=6)
P(女 and 南 and X3分類= 527.4514804721)=0.000100000(樣本個數=1)
最大值發生在 P(男 and 南 and X3分類= 121.9132340148)=0.086400000 (眾數)
最小值發生在 P(男 and 北 and X3分類= 324.6823572434)=0.000000000
資料視覺化圖像