2020年5月31日 星期日

大數據分析的突破點 - 模擬器認識機率分配

機率分配是統計學開始學習時的第二個重點。即使如此,我們所能認識的機率分配有限,可能限於課本所提,以及機率分配的特性無法全面摸透。所以這篇文章就是說明可以使用模擬器了解機率分配,也可以用模擬器建模檢測。


機率分配的起頭
當我們學習機率分配是在認識機率、事件、隨機變數、機率空間後,就會想要知道隨機變數與機率之間的關係。

但在這邊,我要說明的是隨機變數不是隨便將事件轉換成任意數字就可以,而是這些數字必須為有意義的數字,而且還要能匹配隨機特性,後續的數字運算也同樣要有意義。而不是我自己隨便將事件說是12345,實際上這12345形成的數字運算,根本沒有任何意義,就像問卷的尺度數字或是經濟學的效用值。


機率分配的意思與特性
機率分配就是表現隨機變數與對應機率的關係。這個關係可以用數學方程式表現。因此,開始了機率密度函數與累積機率密度函數特性,間斷型機率分配與連續型機率分配。常見的母體機率分配可以有45種[1],例如極端值的分配 -- U-quadratic分配和Arcsin分配,當然還有非對稱分配 - F分配,特定參數值下的Gamma分配等,也有找不到參數或參數很複雜的韋伯分配、柯西分配、一般常態分配(縮寫GND)等。

下面對於這些機率分配的特性,例如,
  • 常態分配相加還是常態分配
  • 常態分配相減還是常態分配
  • 標準常態分配平方是卡方分配
  • 標準常態分配相除是柯西分配

Gamma分配

  • 卡方分配是Gamma分配((ν/2, 2)    v是自由度
  • 指數分配(參數為λ)是Gamma分配(1, 1/λ)
  •  if X ~ Gamma(k,θ), then  for  follows a generalized gamma distribution with parameters p = 1/qd = k/q, and 
  • X ~ Gamma(kθ), then 1/X ~ Inv-Gamma(kθ−1
  • For large k the gamma distribution converges to normal distribution with mean μ =  and variance σ2 = 2


雙倍指數分配又稱為拉普拉斯分配

  • X~DE(0, λ) => |X|~指數分配(參數λ^-1)
  • If  then 
  • If  (Uniform distribution) then 
  • If  with  (Rayleigh distribution) then 


Rayleigh分配
    • U ~U(0, 1) =>  ~Rayleigh()  
    •  and  =>    ~Rayleigh()  
    •  卡方分配(參數v = 2) 是Rayleigh分配( =1)
    • If  has an exponential distribution , then 

    各種的機率分配都可以在維基百科上查閱到,以及他們之間的關係。所以我也就不多加贅述。


    學習機率分配的盲點
    簡單的機率分配在高中數學已經提到,台灣的升大學考題上也會出現。有意思的是即使如此,大學生還是在大學期間重新學習,這也造成一些大學生認為某些科目根本就不需要在大學出現或重新讀一次。但我必須說,如果真正懂得這個科目課程的老師,在大學教的內容雖然跟高中有很多都一樣,但他們給予的觀念卻是一套完整且連貫的觀念。換句話說,高中(職)學到的觀念只是被切割到零碎,讓學生背誦為主的內容。

    例如,高中生學了機率,但是從組合方法開始就是機率的基礎,這些都是不可拆分的觀念,是一層層堆積出來的觀念。這會是從集合論轉出事件,轉到樣本空間,再轉到機率空間,然後才能轉到機率分配。而機率除了在機率空間外,運作的原則(機率公設)也都是高中生需要具備的觀念,但卻沒有出現在課本上,或是快速帶過,而沒有串聯在一起。如此一來,目前與未來的高科技主流 - 大數據與人工智能 - 都變成是資訊和程式主導,其內涵的分析法,整體來說形成空泛或是人云亦云的跟風。因此,我在這系列文章中,以大數據分析的基礎介紹為主,讓讀者了解需要補足的觀念點。



    機率分配的影響因子
    主導機率分配的是參數,例如常態分配的參數是平均數與變異數,平均數與變異數相互獨立。位移指數分配的參數分別有c與l。卡方分配的參數是v。這些參數可以讓機率分配之間轉變成相同的分配,也可以讓分配產生變化。

    如果想要快速了解機率分配,這當然還要藉助圖形的幫忙。透過模擬器模擬不同參數的機率分配,就能夠了解分配如何受到參數改變的影響,以及是否上述的參數設定可以讓不同分配變成相同分配。分配的對比,我們就會使用分配的係數進行比對,確認兩分配是否相等。當然如果是使用「大數法則」更是具有代表性證據。

    很多人說「大數法則」,卻無法將之設定在分配的檢測上。我則要在這邊提出「統計學不能做為大數據分析的工具」一書內的問題27與28就讓讀者可以在最後做大數法則比對。也就是說這是可以做到的。


    模擬器怎麼用

    模擬器的特性就是可以幫助我們模擬出各種的機率分配,特別是亂數表的模擬器。

    根據機率特性,其值介於0~1之間,所以我們可以借助亂數表生成出0~1的數值,然後在根據累積機率密度函數和機率密度函數特性,進行反函數轉換後,就能得到隨機變數的數字。將這些數字進行數學方程式估算,就能得到機率密度函數的數學式。




    這個概念很簡單,也是機率分配的基本特性。但以這樣的基本特性,配合模擬器生成數據後,輔以估算方程式就能夠找出機率密度函數。而x的數據可以計算出係數表,提供做為比對常用機率分配的係數值。


    學生的作品

             









    結論
    在同一種分配但不同參數,可以自我學習認識不同的機率分配。透過模擬器的模擬,學習並了解參數值改變對分配的影響。特別是看著機率密度函數和參數時無法直覺知道分配的情況,那麼模擬器就可以幫助我們知道其變化。