2019年8月3日 星期六

意向大數據分析介紹

在大數據分析當中,我們會遇到很多的資料是同時有文字或是數字,有時候全部都是文字。於是,出現了結構性與非結構性分析。而文字探勘成為大數據分析當中很重要的一個學習與應用功能。然而,在文字的資料分析中,多是基於挖礦與敘述性統計與圖像分析。

然而,若要進一步使用統計分析卻沒有辦法。過去有貝氏定理簡易版的馬可夫鏈,讓樹狀圖可以發揮作用,產生前後關係的關聯性計算。





什麼是意向大數據分析

如果數據當中同時有文字跟數字,或都是文字,想用統計分析是不容易的。意向大數據分析是個非常好用的方式協助我們同時分析文字、文字+數字的資料類型。而所謂的意向是指決策者或使用者的意向為主,也就是先決定問題,然後再根據問題從數據當中找尋證據。尋找證據的方法就稱為意向大數據分析。

基礎概念

既然有文字或文字+數字,那麼,讓我們回到統計學最基礎的概念,那就是事件(event)。

事件可以以文字或數字表示,所以我們可以根據事件得到機率。如果將事件轉換成以數字表示,就會形成隨機變數。由隨機變數與對應的機率就可形成機率分配。有了機率分配就能夠了解分配特性(參數)。若數據為樣本,則可進行統計分析,包含區間估計和假設檢定。

想要了解相關性,可以使用迴歸分析,除此之外,還有就是下面要介紹的貝氏定理的樹狀圖。

樹狀圖可以讓分類產生層次,只要分類足夠多就能一直增加層次。而且所有的分類並非固定的。你可以選擇讓A在第一層,也可以讓B在第一層(如下圖)。

例如,只考慮性別跟婚姻狀況,樹狀圖就如同下圖所示。


至於上圖內的機率,第一層為邊際機率,第二層與更多層的機率為條件機率(相關觀念可以參考維基百科或是任一本的統計學教科書)。

但是想要有更多層次的樹狀圖機率計算就得依賴電腦運算,我們手算是非常困難計算出的。所以,想要超過五層的樹狀圖計算都是不容易的。另外,貝氏定理提供我們可以在後面的層次去算前面的層次發生機率。甚至跳躍選擇層次計算發生機率。例如,現在有A到E的層次,並且層次為A - C - E - B - D。貝氏定理可以讓我們找出 P( E | D)、P(C | B & E)或是 P( A | E & B & D)等。當然,直接照著層次計算機率也是可以的,例如,P( E | A & C)。



不過,貝氏定理的運用為什麼會那麼困難呢?由於貝氏定理是以樹狀圖的基礎,所以只要層次越多就會讓整個樹狀圖越大,越發散,同樣,每個層次的分類多也會讓樹狀圖變大。當層次多且分類多,那麼我們面對的樹狀圖就變得非常龐大。如果還要反過來從後面計算前面發生的機率,那就要2倍的計算。另外,除了條件為單一事件(層次)外,還能夠同時很多個事件一起成為條件,所以在上述的例子中,A到E都有4個結果,那就會是4的5次方路徑。從各自路徑又可以切割成後面2個(BD, DE, DC, BE, BC, EC),3個(DBE, DBC, BEC),4個(CEBD)等。然後進行貝氏機率計算,還能有後面兩個分類(BD),對應A或C的貝氏機率計算。這造成樹狀圖的機率可以有眾多變化。

另外,對分類法而言,我們計算出來的是機率,對應統計學內的母體比例。自然也應該可以被檢定,也可以做各種的統計分析。所以,意向大數據分析是個非常好用的方式協助我們同時分析文字、文字+數字的資料類型。

詳情可以參考 意向大數據分析與模擬功能說明

有哪些領域需要意向大數據分析

2017年有人詢問我他們想要分析金融行為,透過銀行的資料,了解貸款人、做金融消費的人他們的行為究竟是如何。這是種路徑分析,也是種決策分析,但這是由後面看到的結果去推出誰有好信用,或是哪類人有好信用,以及了解他們的客戶都如何運用貸款或如何消費。

當時我能立即知道他所需要的理論,但卻做不到。因為

  • 資料很多都是文字類型,若使用迴歸分析建立路徑,不容易反映出意義
  • 貝氏定理可以完成金融消費(貸款使用)行為的議題,但分類愈多,想找出分類之間的關聯性,並不容易。若只是用條件機率,也得確定要多少分母的事件(分類),做為分母的機率計算。
當然,最簡單的方法就是邊際機率,但並無意義,這如同直接計算所有銀行客戶的各項分類個數,然後以長條圖表現即可。對我們想要知道的關聯性分析,或是特徵分析都不能完整的表現出其深層意義。

另外,2018年也有人詢問我他的產品實驗數據可以使用嗎?對此,當時我採取的方式是運用個人特徵分類,然後進行母體平均數檢定,即使如此,卻不能真實反映出其關聯性。即使採取相關係數,那也是基於線性的假設,不合適於他的產品實驗數據。當時,我也擬出幾個問題:
  • 不同抽血檢驗結果前後比較
  • 實驗組與對照組的抽血檢驗結果比較
但,我仍希望做到
  • 個人資料、實驗組/對照組、未食用前抽血指標、食用後抽血指標進行關聯性分析
如此可以了解食用後有效的人是哪些人、是不是來自於實驗組還是對照組、男性或女性、年齡高低等。甚至還想了解如果有效能夠讓身體健康的結果,且來自實驗組的男性,那他的年齡會如何呢?這時候,我可以根據很多狀況去分析與了解產品是否真的有效。

也有人詢問我能不能做文字探勘。我猜測他是要做問卷當中的文字比對與整理,從中找出文字提供的資訊。因為如果將文字改為數字,直接進行迴歸分析或是檢定都不能完整表達其代表的意義。

意向大數據分析就是協助面對文字、文字+數字的人,根據其問題進行意向大數據分析後,根據其結果進行判定,提出目前困境,或點出問題點。最後進一步建構策略方法來解決問題。