經濟新觀念: 為何使用曲線化線性模型

當我們想知道資料特性或規律性時，傳統做法是根據統計學概念，認為資料=樣本，必然帶有母體特性。藉由資料找到母體參數即可確認母體特性，從而知道資料特性或規律性為何。

然而，受限在使用資料找到的母體參數卻是有限，例如，一定要找到一、二階動差，即平均數與變異數，如此就能配合樣本數找到極限分配，知道母體特性。在大數法則下，無論是p.或a.s.，都趨近為常態分配。

問題是多少資料點才能算大數？

這如同我們在問大數據多少才算？

如果4,000筆已經達到，那何必4,000,000,000筆資料。

這想法並非正確！

因為每筆資料都有存在的意義，而且，大數據資料下，未必真成為常態分配或極限常態分配。

這點更明顯地顯示在時間序列資料，因為這種資料會破壞迴歸分析的三個基本假設：

常態分配
齊質變異數
兩兩無線性相關

為了解決這些問題，特別是像變數之走勢，無法用線性模式去估計的序列資料，計量經濟學發展出多種的檢定公式，檢定上面的三個基本假設，並且希望更能準確地找出資料問題，試圖解決。

縱使如此，我們卻發現

分配的檢定方法無法控制誤差，資料的殘差幾乎可以滿足常態分配
變異數的齊一性建立在線性迴歸上，誰能保證資料一定是線性，特別是工業工程。若是用非線性迴歸模型，或許變異數就齊質了。
架構在線性迴歸模型上，序列相關運用差分方式，試圖找出差分到幾階才能踢除序列相關。可是，差分後的資料，部分特性將會消失。

更有趣的是，Silverman (1985) 提出無母數版本的曲線配適法，觀察範例後可以發現其轉折點不能超過兩點，也可以從他的數學式看出，僅有二階微分。Motulsky and Ransnas (1987) 則是提到需要資料點來自於常態分配(進入迴圈：如何確定資料點滿足常態分配)，以及非線性迴歸模型很容易經過多次的電腦運算後配適得到(問題：怎麼進行誤差控制？多次的運算需要多少次？)。

無論如何，使用曲線化線性模型或曲線配適法都是比線性迴歸模型來得好，特別是現在的經濟環境在科技進步到一定的程度後，必須提高精準度，才能夠突破現況。這不是工業4.0(要求精密)、金融3.0(要求跨平台與安全)，而是分析技術的創新與提升。

於是，我們需要更新兩個思維：

第一、一般而言，我們認為線性之外就是屬於變異(波動)。

圖片來源:http://stats.stackexchange.com/questions/19102/is-there-a-graphical-representation-of-bias-variance-tradeoff-in-linear-regressi

但是，當我們從非線性迴歸角度來看的時候，每一點進來模型時，就需要重新計算調整模型係數與次方數，降低均方差。每一點都是在學習，只是，這樣的學習方式比下方的學習模式好。

圖片來源: http://digitheadslabnotebook.blogspot.tw/2011_12_01_archive.html

上方的學習模式是運用多次的假設檢定方法(決策法)得到演算公式，也就是迴歸方程式。而非線性迴歸模型應該是每加入新的資料點就要重新跑一次，得到的最小均方差才是此時最佳的迴歸方程式。這時，我們不需要特別去估計(或尋找)線性以外的波動程度，因為大部分的波動程度已經由曲線給捕捉了。

所以，線性 + 部分的變異會形成曲線，剩下的變異則是來自於估計誤差所致。

第二、趨近需要明確的誤差值代表。

讓我們舉個最簡單的例子，有誰可以說出Z檢定表內每個臨界值的估計誤差？小數點後二位或後三位的臨界值有多準？

事實上，我們都是直接使用了，而誤差只是顯著水準為代表，查表的誤差卻沒有被考慮在其中，而將此視為系統性誤差(大家都使用，所以都存在這樣的誤差)。想想這樣的方式套用在經濟政策與財務策略上，真可謂差之毫釐失之千里。

於是，我們遭遇了次級房貸危機、全球金融海嘯、歐債危機、貨幣貶值，以及現在的歐、日負名目利率的情況。金融商品特別容易產生高槓桿效果，也就是高乘數效果。當初的一點小錯誤，在高乘數的加成後，形成了目前的金融情勢，帶動實體經濟的萎縮。所以，能夠解決這樣問題的方法就是提高精準度，明確表現誤差會發生在哪幾處，以及誤差有多大。

這些都是風險！我們沒道理去忽略，特別是財務、金融、經濟這些領域。這些領域的高層決策對整體環境影響非常大，今日沒發生，不代表未來不發生。看看雷曼兄弟的連動債，當初的設計是多麼完美，到最後，讓一間傳承百年的老字號就這麼倒了。

因此，當我們可以將變異數轉為平均時(由線性轉為非線性)，風險降低，同時精準度提高。

那麼，我們該怎麼進行呢？

過去，我們都認為趨勢是長期的結果，趨勢的表現方式就是直線。但是，在數學上，兩點連成一直線，這直線要精準的話，請問，兩點之間的距離應該是愈近愈好？還是愈遠愈好？

答案當然是愈近愈好，所以，當我們想用直線去估計眾多資料點形成的曲線時，最好的方式就是資料點距離愈短愈好，兩點連出來的直線就會愈往曲線去逼近(Silverman, 1985)。這也是微積分的觀念，兩點間的距離如果可以趨近於0，那麼找到的斜率就會愈準(微分法)。而積分就是在找規則，將所有斜率連起來就會形成軌跡。

所以，曲線化線性迴歸模型的特性有

基於微積分的泰勒展開式觀念進行估計
可解決線性迴歸問題，配適較好的凹折的資料
可解決時間序列問題，用等差級數配適較好的曲線
可以捉到起始點
可以捉到最終點

限制則有

無法解決序列相關問題
樣本數最好超過4,000個
沒有數學版的係數估計量
只能用電腦運算(Motulsky and Ransnas, 1987)

經濟新觀念

分類清單

2016年2月21日星期日

為何使用曲線化線性模型

Facebook

Facebook

分類清單

2016年2月21日 星期日

為何使用曲線化線性模型

Facebook

Facebook

2016年2月21日星期日