跳到主要內容

為何使用曲線化線性模型

當我們想知道資料特性或規律性時,傳統做法是根據統計學概念,認為資料=樣本,必然帶有母體特性。藉由資料找到母體參數即可確認母體特性,從而知道資料特性或規律性為何。
然而,受限在使用資料找到的母體參數卻是有限,例如,一定要找到一、二階動差,即平均數與變異數,如此就能配合樣本數找到極限分配,知道母體特性。在大數法則下,無論是p.或a.s.,都趨近為常態分配。

問題是多少資料點才能算大數?
這如同我們在問大數據多少才算?
如果4,000筆已經達到,那何必4,000,000,000筆資料。
這想法並非正確!
因為每筆資料都有存在的意義,而且,大數據資料下,未必真成為常態分配或極限常態分配。

這點更明顯地顯示在時間序列資料,因為這種資料會破壞迴歸分析的三個基本假設:
  • 常態分配
  • 齊質變異數
  • 兩兩無線性相關

為了解決這些問題,特別是像變數之走勢,無法用線性模式去估計的序列資料,計量經濟學發展出多種的檢定公式,檢定上面的三個基本假設,並且希望更能準確地找出資料問題,試圖解決。

縱使如此,我們卻發現
  1. 分配的檢定方法無法控制誤差,資料的殘差幾乎可以滿足常態分配
  2. 變異數的齊一性建立在線性迴歸上,誰能保證資料一定是線性,特別是工業工程。若是用非線性迴歸模型,或許變異數就齊質了。
  3. 架構在線性迴歸模型上,序列相關運用差分方式,試圖找出差分到幾階才能踢除序列相關。可是,差分後的資料,部分特性將會消失。

更有趣的是,Silverman (1985) 提出無母數版本的曲線配適法,觀察範例後可以發現其轉折點不能超過兩點,也可以從他的數學式看出,僅有二階微分。Motulsky and Ransnas (1987) 則是提到需要資料點來自於常態分配(進入迴圈:如何確定資料點滿足常態分配),以及非線性迴歸模型很容易經過多次的電腦運算後配適得到(問題:怎麼進行誤差控制?多次的運算需要多少次?)。

無論如何,使用曲線化線性模型或曲線配適法都是比線性迴歸模型來得好,特別是現在的經濟環境在科技進步到一定的程度後,必須提高精準度,才能夠突破現況。這不是工業4.0(要求精密)、金融3.0(要求跨平台與安全),而是分析技術的創新與提升。

於是,我們需要更新兩個思維:

第一、一般而言,我們認為線性之外就是屬於變異(波動)。
圖片來源:http://stats.stackexchange.com/questions/19102/is-there-a-graphical-representation-of-bias-variance-tradeoff-in-linear-regressi

但是,當我們從非線性迴歸角度來看的時候,每一點進來模型時,就需要重新計算調整模型係數與次方數,降低均方差。每一點都是在學習,只是,這樣的學習方式比下方的學習模式好。


  
圖片來源: http://digitheadslabnotebook.blogspot.tw/2011_12_01_archive.html

上方的學習模式是運用多次的假設檢定方法(決策法)得到演算公式,也就是迴歸方程式。而非線性迴歸模型應該是每加入新的資料點就要重新跑一次,得到的最小均方差才是此時最佳的迴歸方程式。這時,我們不需要特別去估計(或尋找)線性以外的波動程度,因為大部分的波動程度已經由曲線給捕捉了。

所以,線性 + 部分的變異 會形成曲線,剩下的變異則是來自於估計誤差所致。

第二、趨近需要明確的誤差值代表。

讓我們舉個最簡單的例子,有誰可以說出Z檢定表內每個臨界值的估計誤差?小數點後二位或後三位的臨界值有多準?

事實上,我們都是直接使用了,而誤差只是顯著水準為代表,查表的誤差卻沒有被考慮在其中,而將此視為系統性誤差(大家都使用,所以都存在這樣的誤差)。想想這樣的方式套用在經濟政策與財務策略上,真可謂差之毫釐失之千里。

於是,我們遭遇了次級房貸危機、全球金融海嘯、歐債危機、貨幣貶值,以及現在的歐、日負名目利率的情況。金融商品特別容易產生高槓桿效果,也就是高乘數效果。當初的一點小錯誤,在高乘數的加成後,形成了目前的金融情勢,帶動實體經濟的萎縮。所以,能夠解決這樣問題的方法就是提高精準度,明確表現誤差會發生在哪幾處,以及誤差有多大。

這些都是風險!我們沒道理去忽略,特別是財務、金融、經濟這些領域。這些領域的高層決策對整體環境影響非常大,今日沒發生,不代表未來不發生。看看雷曼兄弟的連動債,當初的設計是多麼完美,到最後,讓一間傳承百年的老字號就這麼倒了。

因此,當我們可以將變異數轉為平均時(由線性轉為非線性),風險降低,同時精準度提高。

那麼,我們該怎麼進行呢?

過去,我們都認為趨勢是長期的結果,趨勢的表現方式就是直線。但是,在數學上,兩點連成一直線,這直線要精準的話,請問,兩點之間的距離應該是愈近愈好?還是愈遠愈好?

答案當然是愈近愈好,所以,當我們想用直線去估計眾多資料點形成的曲線時,最好的方式就是資料點距離愈短愈好,兩點連出來的直線就會愈往曲線去逼近(Silverman, 1985)。這也是微積分的觀念,兩點間的距離如果可以趨近於0,那麼找到的斜率就會愈準(微分法)。而積分就是在找規則,將所有斜率連起來就會形成軌跡。

所以,曲線化線性迴歸模型的特性有
  1. 基於微積分的泰勒展開式觀念進行估計
  2. 可解決線性迴歸問題,配適較好的凹折的資料
  3. 可解決時間序列問題,用等差級數配適較好的曲線
  4. 可以捉到起始點
  5. 可以捉到最終點
限制則有
  1. 無法解決序列相關問題
  2. 樣本數最好超過4,000個
  3. 沒有數學版的係數估計量
  4. 只能用電腦運算(Motulsky and Ransnas, 1987) 




這個網誌中的熱門文章

Durbin-Watson檢定與LM檢定的存在意義

每一本統計學、計量經濟學、時間序列分析、迴歸分析、市場預測的書籍都會提到資料自我相關問題。為了找到資料的自我相關性,有的學者從樣本相關係數出發進行資料的假設檢定,有的學者則是創造與樣本相關係數很相近的數學公式進行資料的假設檢定,其中,最知名的便是Durbin-Watson檢定與LM檢定(Breusch–Godfrey)。兩個檢定公式的出發點都是一樣的,那就是從迴歸分析的殘差出發。

Durbin-Watson檢定公式

LM檢定公式
從資料角度去看,無庸置疑的是資料的數值都是已知的,我們使用迴歸分析來瞭解資料間的因果關係。換言之,此時,解釋變數與被解釋變數之間是樣本條件關係。然而,我們卻遺忘了一件事情,那就是資料也是可以形成分配的,那就是抽樣分配。
既然資料可形成抽樣分配,這意味著解釋變數與被解釋變數都是抽樣分配,需要以分配的概念去解讀。於是,在統計學內就明確寫著: 每個樣本服從母體分配樣本的變異數一樣都是母體變異數樣本之間是無線性相關
同樣在迴歸分析的解釋變數、被解釋變數與誤差都有各自的母體分配,並且滿足上面的三個條件。同時解釋變數與被解釋變數之間可以是聯合關係,也可以是條件關係。
進一步推導所得到的係數、殘差、甚至是殘差的數學組合、變異數分析表內的SSR、SSE、MSR、MSE、自我相關係數都是抽樣分配。
請注意,這些都是隨機變數或隨機變數的數學組合,所以都是抽樣分配(只討論一個數字,不是分配)。當樣本數夠大時,才能夠代表母體分配(樣本要多大,沒人知道)。
所以要使用公式前,問問: 你確定資料的抽樣分配了嗎?你確定資料的抽樣分配轉換過程了嗎?(是數值的亂數表,不是機率生成的亂數表)隨機變數的數學組合之間有沒有成為函數關係?(例如自我相關係數與MSE)
當我們確定每一個轉換步驟狀況後,就可以觀察到解釋變數數值、解釋變數個數、誤差母體分配、樣本數、殘差限制對Durbin-Watson檢定與LM檢定的抽樣分配變化。
確實,Durbin-Watson檢定適合所有樣本大小,但是Durbin-Watson檢定的決策規則本身有問題,不符合統計公式的原則,那就是灰色地帶判定給虛無假設,因此只有虛無與對立假設的二分法,以及分配的臨界值只會有一個數字,而不會有所謂的上下界。除非沒有控制住解釋變數數值與殘差限制影響,才會讓這兩個影響融入分配當中,造成臨界值的不確定,產生了帶狀區間。
Dur…

經濟學的基礎 - 經濟循環圖概說

無論是基礎的經濟學、個體經濟學或總體經濟學,在前言總是會提到循環圖來讓學習者了解他們位在哪個地方。有趣的是循環圖總是無法全面性地展顯出來,甚至指引學習者知道他們該怎麼使用經濟循環圖。

Parkin在他所論著的經濟學教科書中,就將整個經濟循環圖展現出來。


就像是線上遊戲一般,初心者進入遊戲前總會來段開場動畫,告訴初心者所在的情境是怎樣。同樣地,完整的經濟循環圖內會包含四名角色、四個市場與金流方向。

四名角色:家計單位、廠商、政府與國外部門

如果沒有國外部門的話,那麼經濟循環圖就是封閉體系,如同清朝鎖國時期。
如果有國外部門的話,那麼經濟循環圖就是開放體系,如同台灣從早年至今的情況。

在圖上,四名角色可以在四個地方活動,也就是市場(Market)。

四個市場:勞動市場、商品市場、金融市場、外匯市場

在這邊的勞動市場只是要素市場當中的一種要素。
因為勞動的數量就為龐大,所以我在這邊將勞動市場指稱為要素市場的代表。

四種要素:勞動、資本、土地、企業家精神
四種報酬:工資、利息、地租、利潤

整個經濟循環圖,其實就是在講總體經濟的範圍。






學習經濟學的入門經驗

過去看過的經濟學教科書多是使用圖解、數學式來證實經濟學觀念的正確性,同時也讓學習者了解經濟學觀念的實用性。我常想如果能夠搭配電腦使用,達到經濟學觀念的實作演練,那不知該有多好?!

其實國外也有類似的教科書,只是深入一看,也都是根據經濟學的章節來撰寫內容。於是,我又想如果可以從本質著手,配合真實狀況,會不會更能夠將經濟學觀念的基礎說明得更加透徹?

經濟學最常見的區分方式就是個體經濟學(Microeconomics)與總體經濟學(Macroeconomics)。

所謂個體或總體,其實是從討論的對象(或角色)不同範疇而有所區隔。

個體經濟學是討論消費者(或生產者、政府)的經濟行為,而總體經濟學則是討論較大範疇,如國家、區域或全球的整合性經濟行為。於是,兩者的代表性指標就有所不同。


雖然個體經濟學與總體經濟學有所差異,但是,個體經濟學還是總體經濟學的基礎,所以,在新古典理論,常會提到個體基礎下的總體分析方法。

無論是先從總體的角度學習經濟學,或是先從個體角度學習經濟學,都是合宜且適用的。原因在於你選擇想先「見樹」再「見林」,還是先「見林」再「見樹」。

如果你選擇先「見樹」再「見林」,未免有以管窺天之虞,容易產生合成謬誤。如果選擇先「見林」再「見樹」,又難免犯了分割謬誤。

如此說來,好像怎樣做都不合適。那麼在這邊給初學者一個小小的建議,那就是投資理財上的一個觀念:

先見全盤(大盤走勢),然後觀看類股走勢,從強勢的類股中挑選一支值得你投資的股票。

或者是當你開車去某目的地前,先看看地圖,如同俯視一般了解大致的路況後,再上路,總比到了當地,在巷弄之間如無頭蒼蠅穿梭其中還來得好吧。

想避開分割謬誤,則可以如此思考:

並非一個類股下的所有股票都是強勢,開紅。

因此,當你了解整個經濟狀況後,再深入去看個體的經濟行為時,總是比較能夠抓出系統性的相同因素,剩下的就是個體自己的特殊因素在影響其決策了。