2017年5月8日 星期一

預算線基本介紹

當病患想要購買醫療服務組合時,他需要面對的外在環境因素有三:

  • 哪些醫療服務種類
  • 醫療服務單價
  • 身上所得
我們從經濟學的角度出發,進行購買行為的討論時,病患不會只想買一種醫療服務或商品,而常是超過一種,所以有一就有二,有二就有三,有三就有多。所以,假設病患會購買兩種醫療服務,通稱為「醫療服務一」與「醫療服務二」。這兩種醫療服務可以是健檢當中的兩個項目,或是洗牙與體檢,當然也可以是醫療或保健商品,例如Q10或綜合維他命。

醫療經濟學介紹

所謂醫療經濟學其實是個體經濟學在醫療產業上的應用。
一般的個體經濟學是討論「消費者」如何在有限的資源下購買最適的「商品」組合,以及「生產者」如何在有限的資源下購買最適的「要素」組合並且生產最適的「商品」組合。

讓我們將「」替換掉,所以醫療經濟學是在討論
  • 「病患」如何在有限的資源下購買最適的「醫療服務」組合
  • 「醫院」如何在有限的資源下購買最適的「要素」組合
  • 「生產者」如何在有限的要素下生產最適的「醫療服務」組合
在他們的選擇中,有兩個重點:
  • 他們都面對有限的資源,所以沒辦法任意依照他們的慾望來決定組合
  • 他們所購買的都是組合。所謂的組合是指超過一種的商品或勞務
因此,在醫療經濟學的學習過程中,其實就是將個體經濟學的概念應用在醫療產業上,了解所有人的經濟行為。

2017年4月24日 星期一

大數據分析基礎 - 大數法則 (中央極限定理)

先前在說明大數據分析的困境中有提到統計學延伸到大數據分析的四個問題,

統計學方法擴展到「大數據分析」的困境有其以下問題:
  1. 母體分配必需為常態分配,無法擴展到其他母體分配。
  2. 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。
  3. 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。
  4. 沒有精確的檢定統計量的抽樣分配作為基礎。


其中,第一點與第三點的根源在於第三點。如果所得到的資料,其樣本平均數與樣本變異數都可以趨近常態分配 -- 也就是極限分配 ,那麼,母體所服從的分配就不需要假設常態分配,以及迴歸分析的誤差也無需假設常態分配。

問題出在於所有的數學推導皆寫著 「n 趨近於無窮大」,此時,極限分配存在。那樣本個數真的可以有無窮多個嗎?這是不可能的。所以知道多少樣本個數可以達到極限分配,在大數據分析理論基礎是非常重要的!

第二個問題是我們看到的極限分配推導都是立基於樣本平均數,至於,樣本變異數的極限分配為何?樣本變異數可以標準化嗎?這個問題卻沒有人回答。
在英語版的維基百科內,寫著這段內容:


樣本變異數的期望值為母體變異數,而樣本變異數的變異數則是與四階動差有關,也就是峰態係數。而且非常重要的是所有的樣本值無須假設來自常態分配!可是,即使是維基百科,附圖下方的註解仍寫著:

Distribution and cumulative distribution of s2/σ2, for various values of ν = n − 1, when the yi are independent normally distributed.

即使如此,v = n - 1,應可以讓其增加,了解是否具有中央極限特性,並且清楚告知樣本個數,n,要多少個以上才發生中央極限定理。可惜,沒有!

理論上,我們就可以像樣本平均數一樣找到各種機率分配下,樣本變異數的中央極限定理。我們需要根據大數法則設定以下的條件:
  1. 比較分配差距時的誤差控制
  2. 找到做為依據的基準誤差
  3. 大數法則運算機率值的公式










經濟學的基礎 - 國外部門的經濟行為

國外部門可以使用國籍來衡量,或是商品生產地來衡量。如果使用國籍衡量,那麼以台灣為例就是指持有非具有中華民國國籍者或非持有中華民國護照者。若以商品生產地衡量,可以看到所有商品或勞務須註明產地,如Made in Hong Kong。這些商品就是屬於國外部門生產,然後進入台灣並被販售給居住在台灣的人。為什麼國外部門會在經濟循環圖內呢?

由於各區域的資源分佈是不平均的,所以各區域所生產的商品或勞務亦有不同,因此,若能將某地沒有的商品或勞務販售到當地,那必然奇貨可居,高價賣出。對任何擁有此商品或勞務者而言,是再好不過的事情。只要能夠突破地域限制,將商品或勞務販賣到另一個需要的區域,產生互通有無的現象,此時雙方都是雙贏的局面。所以,國外部門的存在可以是讓商品或勞務互通有無,同時也讓商品或勞務的銷售範圍擴大(市場規模擴大)。

不過,有得必有失。國外部門的存在會讓經濟體系內的金流流出,產生金流減少,這稱為進口(Import)。同時,又將商品或勞務販售給國外部門,帶來金流流入,產生金流增加,這稱為出口(Export)。在經濟循環體系內,我們希望金流是增加的,所以國際貿易提倡出口扣除進口後的淨出口(Net export),最好為正值(positive value)!這表示國家的總金流除了國內運轉的金流外,還能得到國外的金流挹注,讓整體金流更為龐大,也意味者經濟規模愈加龐大,國力愈為強盛。

然而,有得必有失,一個國家從國外得到的金流挹注愈多,代表另一國家的金流損失愈大。


中華民國進出口總值年月走勢
台灣每月的進出口總值走勢圖當中,可發現多數月份的出口總值高於進口總值。這顯示台灣的經濟是跟隨上面描述的概念,認為國外部門的金流挹注愈多,經濟體系的規模就會愈大。不過,從上圖可發現另一件事情,在2010年後,台灣的出口總值很穩定再700,000至800,000範圍。而2001年至2008年則還有持續上漲的趨勢。


與此同時,無論是出口或是進口總值,兩者的線性相關高達96.5577%。這顯示台灣與國外部門的金流關係是同增同減。而同增同減代表只要金流挹注不夠時,同時減少金流外溢的現象,控制台灣與國外部門的總金流數字。當然,另一個原因或許是當國外部門購買較少的台製商品或勞務時,台灣的家計單位獲得較少所得,因此對國外部門生產的商品或勞務同樣減少。因此,國外部門的經濟行為可歸納為


  • 有國外部門是與體系產生互通有無
  • 國外部門的存在可以擴展市場規模
  • 國外部門可以產生雙贏互惠






2016年11月11日 星期五

大數據 (big data) 分析的困境

從蒐集資料開始

#大數據 (#bigdata) 的起源是採用網路蒐集資料,但是資料的代表性與正確性沒有一套方法做比對和分析,自然就不能做時間性的變動狀況分析或是資料來源不同的差異性分析,只能呈現蒐集資料的狀態。
資料蒐集與測定是此部分必須要做的工作,目前台灣的大數據分析都以資料蒐集為主,至於資料特性都是以數字型態做說明,並且至今無有效方法做有分析方法與軟體做測定。當資料特性無法確定時,無法確定進一步分析的方法和分析後所得結果就無法確定結果符合分析的目標。其實蒐集後的資料就是「資料礦( #datamining )」,要使用分析方法探討資料的特性才能進行分析資料。
蒐集資料的困難及資料特性是否一致,(1)不能簡單的假設所有蒐集的資料是同一特性,因為有假設就必須檢定。(2)分析不同資料來源的特性與差異性分析和相關係分析。(3)「#數字科學」不是說明資料而是反應資料的內容,並且必須採用數學模型解釋資料。

分析資料的理論

大數據的分析方法是「八仙過海各顯神通」,但是都是針對別性狀況且都是個別的方法並無系統的分析方法,同時分析的理論與方法都是「祕而不宣」,其實就是沒有一系列的分析方法形成科學。
既然大數據分析是科學方法,就必須採用科學或數學方式建立一套分析的理論與方法並提供大眾做驗證與批評。
#統計學 (#statistics)就是分析資料的方法。只要將統計學中的分析對象與資料量做擴充與修正,就可以有系統的分析資料與採用統計學的角度說明分析的結果,並且可以使得教育時間縮短有利用分析方法的推展。 然而,統計學方法擴展到「大數據分析」的困境有其以下問題:
  1. 母體分配必需為常態分配,無法擴展到其他母體分配。
  2. 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。
  3. 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。
  4. 沒有精確的檢定統計量的抽樣分配作為基礎。
目前市售的「統計學套裝軟體」是以目前統計學的樣本個數與方法所發展,無法解決統計學方法擴展到「大數據分析」的困境, 自然無法使用於大數據分析。想解決上述的問題就是得採用其他的數學方法。「#機率分配模擬器」 可以克服「#微積分」與「#數值分析」的限制,可以提供以上問題的解決方法。 目前已經完成統計學分析大數據的公式與方法,可以處理 1,000,000,000筆資料並且對母體分配有特殊要求,也就是 distribution free,可以跨越「數字科學」的藩籬。除此之外,還有
  1. 大資料庫的母體機率分配的估算(包含Curve-fittting)
  2. 一個母體的平均數與變異數的檢定
  3. 兩個獨立母體的平均數與變異數的檢定
  4. 兩個相關母體的平均數與變異數和相關係數的檢定
  5. 一類因子分析
  6. 多個獨立母體平均數與變異數檢定
  7. 簡單線性模式分析(包含非線性模式與Curvi-linear分析)
  8. 複迴歸分析(包含逐步分析)
  9. Durbin Watson檢定統計量
  10. 時間數列分析