2016年2月21日 星期日

為何使用曲線化線性模型

當我們想知道資料特性或規律性時,傳統做法是根據統計學概念,認為資料=樣本,必然帶有母體特性。藉由資料找到母體參數即可確認母體特性,從而知道資料特性或規律性為何。
然而,受限在使用資料找到的母體參數卻是有限,例如,一定要找到一、二階動差,即平均數與變異數,如此就能配合樣本數找到極限分配,知道母體特性。在大數法則下,無論是p.或a.s.,都趨近為常態分配。

問題是多少資料點才能算大數?
這如同我們在問大數據多少才算?
如果4,000筆已經達到,那何必4,000,000,000筆資料。
這想法並非正確!
因為每筆資料都有存在的意義,而且,大數據資料下,未必真成為常態分配或極限常態分配。