數據分析可以成功的原因來自於使用統計學的分析方法,以及電腦軟體的運用。觀察迴歸分析與計量經濟學的基礎皆是從「線性模式」出發,藉由最小平方法的計算,得到估計係數的數學式,此時,一點都不需要分配的假設 - 常態分配。
於是,在高等計量經濟學當中,逐漸地只寫出iid的符號,至於Normal假設則是慢慢消失。但,我們反思,即使沒有寫出Normal符號,是否估計係數的分配就能夠得到,或許讀者可以問問你的老師 (笑)。
有趣的是,同樣的狀況發生在線性模式改為二次式或三次式,即使教科書上寫出來高階次方數的函數,我們卻沒有見過有人跑出結果來 (笑)。這是否表示那是所有撰寫者與理論家的最終極目標呢?我們不可而知.......
2016年9月30日 星期五
2016年3月14日 星期一
開放性資料的估計
過去傳統的計量經濟學、迴歸分析或甚至博士班之相關課程都是建構在抽樣分配、假設檢定與配適出適切的模型,因此,延伸出因分析所需的Tobit、Probit模型,而在時間序列上則由AR模型延伸出VAR等系列模型。
觀察這些模型特徵,不外乎都是建構在線性概念上,換句話說,無論有無前後期關係,模型首先就是展現分類法(可以二分、三分....)以及資料區分出線性可解釋與不可解釋部分。
在「為何使用曲線化線性迴規模型」已經提到了重要的兩個觀念後,曲線化線性迴歸模型的特色上,確實與眾不同,同時也難以用紙筆來運算。即使如此,我們不得不說微積分當中的一個觀念是非常有用的,那就是
觀察這些模型特徵,不外乎都是建構在線性概念上,換句話說,無論有無前後期關係,模型首先就是展現分類法(可以二分、三分....)以及資料區分出線性可解釋與不可解釋部分。
在「為何使用曲線化線性迴規模型」已經提到了重要的兩個觀念後,曲線化線性迴歸模型的特色上,確實與眾不同,同時也難以用紙筆來運算。即使如此,我們不得不說微積分當中的一個觀念是非常有用的,那就是
2016年2月21日 星期日
為何使用曲線化線性模型
當我們想知道資料特性或規律性時,傳統做法是根據統計學概念,認為資料=樣本,必然帶有母體特性。藉由資料找到母體參數即可確認母體特性,從而知道資料特性或規律性為何。
然而,受限在使用資料找到的母體參數卻是有限,例如,一定要找到一、二階動差,即平均數與變異數,如此就能配合樣本數找到極限分配,知道母體特性。在大數法則下,無論是p.或a.s.,都趨近為常態分配。
問題是多少資料點才能算大數?
這如同我們在問大數據多少才算?
如果4,000筆已經達到,那何必4,000,000,000筆資料。
這想法並非正確!
因為每筆資料都有存在的意義,而且,大數據資料下,未必真成為常態分配或極限常態分配。
2016年1月24日 星期日
理性投資人偏好正向偏態還是負向偏態?
2010年David Merkel在網路上寫了一篇文章「Do Investors Prefer Negative Skewness?」。他從經濟學的代理人問題模型與黑天鵝理論,提出投資人是偏好「負向偏態」(Negative skewedness)。在其中的一段文字敘述當中,
It can be extremely difficult to ascertain the true distribution of an extremely negatively skewed bet from historical data. A long run without an observed loss makes us less confident about any initial negative thesis. This is also the primary explanation for why we prefer longshots in horse races or play the lottery.
2016年1月19日 星期二
台灣95汽油大數據分析
我國汽油的訂價策略是根據每週原油價格加權指數的變化,此指數包括70%的杜拜原油與30%的布蘭特原油。
若不考慮原油價格,純粹就95汽油的訂價來看,從CMoney資料庫內,選擇自2000年1月3日到2015年12月31日的日資料視為母體資料,進行強大數法則(SLLN)規則控制誤差,由資料展現出分配函數。
2015年5月3日 星期日
Durbin-Watson檢定與LM檢定的存在意義
每一本統計學、計量經濟學、時間序列分析、迴歸分析、市場預測的書籍都會提到資料自我相關問題。為了找到資料的自我相關性,有的學者從樣本相關係數出發進行資料的假設檢定,有的學者則是創造與樣本相關係數很相近的數學公式進行資料的假設檢定,其中,最知名的便是Durbin-Watson檢定與LM檢定(Breusch–Godfrey)。兩個檢定公式的出發點都是一樣的,那就是從迴歸分析的殘差出發。
Durbin-Watson檢定公式
LM檢定公式
從資料角度去看,無庸置疑的是資料的數值都是已知的,我們使用迴歸分析來瞭解資料間的因果關係。換言之,此時,解釋變數與被解釋變數之間是樣本條件關係。然而,我們卻遺忘了一件事情,那就是資料也是可以形成分配的,那就是抽樣分配。
訂閱:
文章 (Atom)