回歸分析
迴歸分析(英語:Regression Analysis)是一種統計學上分析數據的方法,目的在於了解兩個或多個變量間是否相關、相關方向與強度,並建立數學模型以便觀察特定變量來預測研究者感興趣的變量。更具體的來說,回歸分析可以幫助人們了解在只有一個自變量變化時應變量的變化量。一般來說,通過回歸分析我們可以由給出的自變量估計應變量的條件期望值。
迴歸分析是建立被解釋變量(或稱應變量、依變量、反應變量)與解釋變量(或稱自變量、獨立變量)之間關係的模型。簡單線性回歸使用一個自變量,複迴歸使用超過一個自變量()。
起源
回歸的最早形式是最小平方法,由1805年的勒壤得(Legendre)[1],和1809年的高斯(Gauss)出版[2]。勒壤得和高斯都將該方法應用於從天文觀測中確定關於太陽的物體的軌道(主要是彗星,但後來是新發現的小行星)的問題。 高斯在1821年發表了最小平方理論的進一步發展[3],包括高斯-馬可夫定理的一個版本。
「迴歸」一詞最早由法蘭西斯·高爾頓(Francis Galton)所使用[4][5]。他曾對親子間的身高做研究,發現父母的身高雖然會遺傳給子女,但子女的身高卻有逐漸「回歸到中等(即人的平均值)」的現象。不過現在的迴歸已經和當初的意義不盡相同。
在1950年代和60年代,經濟學家使用機械電子桌面計算器來計算回歸。在1970年之前,這種計算方法有時需要長達24小時才能得出結果[6]。
迴歸分析原理
- 目的在於找出一條最能夠代表所有觀測資料的函數曲線(迴歸估計式)。
- 用此函數代表因變量和自變量之間的關係。
母數估計
回歸模型
回歸模型主要包括以下變量:
回歸模型將 和一個關於 和 的函數關聯起來。
在不同的應用領域有各自不同的術語代替這裏的「自變量」和「應變量」。
這個估計值通常寫作: 。
在進行回歸分析時,函數 的形式必須預先指定。有時函數 的形式是在對 和 關係的已有知識上建立的,而不是在數據的基礎之上。如果沒有這種已有知識,那麼就要選擇一個靈活和便於回歸的 的形式。
假設現在未知向量 的維數為k。為了進行回歸分析,必須要先有關於 的資訊:
- 如果以 的形式給出了 個數據點,當 時,大多數傳統的回歸分析方法都不能進行,因為數據量不夠導致回歸模型的系統方程不能完全確定 。
- 如果恰好有 個數據點,並且函數 的形式是線性的,那麼方程 能精確求解。這相當於解一個有 個未知量和 個方程的方程組。在 線性無關的情況下,這個方程組有唯一解。但如果 是非線性形式的,解可能有多個或不存在。
- 實際中 的情況佔大多數。這種情況下,有足夠的資訊用於估計一個與數據最接近的 值,這時當回歸分析應用於這些數據時,可以看作是解一個關於 的超定方程。
在最後一種情況下,回歸分析提供了一種完成以下任務的工具: ⒈找出一個未知量 的解使應變量 的預測值和實際值差別最小(又稱最小平方法)。
⒉在特定統計假設下,回歸分析使用數據中的多餘資訊給出關於應變量 和未知量 之間的關係。
迴歸分析的種類
簡單線性回歸
簡單線性迴歸(英語:simple linear regression)
- 應用時機
- 以單一變量預測
- 判斷兩變量之間相關的方向和程度
複迴歸(或多變量迴歸)
複回歸分析(英語:multiple regression analysis)是簡單線性迴歸的一種延伸應用,用以瞭解一個依變項與兩組以上自變項的函數關係。
對數線性迴歸
對數線性迴歸(英語:Log-linear model),是將解釋變項(實驗設計中的自變項)和反應變項(實驗設計中的依變項)都取對數值之後再進行線性迴歸,所以依據解釋變項的數量,可能是對數簡單線性迴歸,也可能是對數複迴歸。
非線性迴歸
對數幾率回歸
對數幾率回歸(英語:Logistic Regression)
偏迴歸
偏迴歸(英語:Partial Regression)
用於研究單個自變量對因變量的影響,同時控制其他自變量的影響。它通常應用在多元迴歸模型中,以解決自變量之間存在共線性時的問題,或者用於探索自變量之間的相互作用。
自迴歸
自迴歸滑動平均模型
差分自迴歸滑動平均模型
向量自迴歸模型
參閱
參考資料
- ^ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (頁面存檔備份,存於互聯網檔案館), Firmin Didot, Paris, 1805. 「Sur la Méthode des moindres quarrés」 appears as an appendix.
- ^ C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
- ^ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae (頁面存檔備份,存於互聯網檔案館). (1821/1823)
- ^ Mogull, Robert G. Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. 2004: 59. ISBN 0-7575-1181-3.
- ^ Galton, Francis. Kinship and Correlation (reprinted 1989). Statistical Science (Institute of Mathematical Statistics). 1989, 4 (2): 80–86. JSTOR 2245330. doi:10.1214/ss/1177012581.
- ^ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? (頁面存檔備份,存於互聯網檔案館) March 2006. Accessed 2011-12-03.