2019年8月4日 星期日

醫療數據的意向大數據分析應用 - 樹狀圖與貝氏定理


【前言】

醫療數據可以透過檢驗後得到數據紀錄,我們可以取得醫療數據後進行意向大數據分析。現在的文明病之一就是膽固醇太高,導致心血管疾病,以及引發出其他的疾病。不過,所有的膽固醇都是有其重要性(參考1)。




【數據分類說明】

本次範例為膽固醇狀況。透過抽血檢驗後,我們可以根據膽固醇標準為檢測值做分類。根據的原則來自

  • 高密度膽固醇(HDL) / 膽固醇 < 2 => 低密度膽固醇越大顆
  • 低密度脂蛋白膽固醇(LDL) < 130mg/dl
 該指標可以預測低密度膽固醇不是細細小小顆。如果三酸甘油酯越高且高密度膽固醇越低,指標值就會高於2,此時相對的低密度膽固醇會越小顆 。(參考自https://www.commonhealth.com.tw/article/article.action?nid=75538)


  • 總膽固醇(CHOL)正常值介於為130--200mg/dl,平均約190mg/dl
  • 總膽固醇的臨界值為200~239mg/dl,容易發生高膽固醇血症
  • 總膽固醇超過250mg/dl時,可能會形成動脈硬化
  • HDL膽固醇的正常值,男性為40-60mg/dl,女性為50-70mg/dl
  • HDL若低於40mg/dl,最好注意心肌梗塞,腦血栓,高血脂症等疾病

(參考自 http://tpfile.tcavs.tc.edu.tw/teacher/20305/教學資源/膽固醇連結.htm)


  • LDL-C 超過 130 mg/dl,或 LDL-C / HDL-C 的比值超過 3.5,都是發生心血管疾病 (冠心症、中風等) 的高危險群
  • HDL-C 小於 30 mg/dl ,或 「總膽固醇 / HDL-C」 的比值大於 5.0,都代表有較高的機率發生動脈粥狀硬化

(參考自http://www.kgh.com.tw/health/15-226.html)

【意向大數據分析】

這裡的範例將顯示製作樹狀圖與意向大數據分析的貝氏定理的機率計算。對於意向大數據分析,最重要的就是「意向」。所以本例設定的是第一層次為總膽固醇值、第二層次為LDL / HDL、第三層次為CHOL / HDL。

樹狀圖

經過計算後,我們可以得到樹狀圖。樹狀圖的機率為聯合機率,所以總和為1。




意向大數據分析結果


根據貝氏定理的計算,下表的第二與三欄為條件事件,第一欄為我們的問題事件,所以可以得到條件機率並顯示在第四欄。



根據機率,如果數值為0,表示不會發生。若數值為1,表示一定會發生。這些機率可以提供做為判斷。

【結論】

意向大數據分析最重要的就是每個人對於自己想找到答案的問題進行設定,再依據問題設定需要的層次順序,如此一來就能夠如上面的機率做為判斷。

當然我們還能根據這些機率進行進一步的檢定、多變量分析或迴歸分析,以統計分析來提供解決更為複雜問題的證據。

------


參考1 膽固醇過高,真的容易得心臟病嗎?醫師揭露被財團掩蓋60年的真相,亂吃藥反而死更快!