複製鏈接
請複製以下鏈接發送給好友

線性迴歸

鎖定
線性迴歸是利用數理統計中迴歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。其表達形式為y = w'x+e,e為誤差服從均值為0的正態分佈。 [1] 
迴歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種迴歸分析稱為一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱為多元線性迴歸分析。
中文名
線性迴歸
外文名
linear regression
類    別
分析方法
適用範圍
數理統計
應用學科
數學
相關術語
迴歸係數

線性迴歸基本含義

在統計學中,線性迴歸(Linear Regression)是利用稱為線性迴歸方程的最小平方函數對一個或多個自變量因變量之間關係進行建模的一種迴歸分析。這種函數是一個或多個稱為迴歸係數的模型參數的線性組合。只有一個自變量的情況稱為簡單迴歸,大於一個自變量情況的叫做多元迴歸。(這反過來又應當由多個相關的因變量預測的多元線性迴歸區別,而不是一個單一的標量變量。)
在線性迴歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性迴歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性迴歸模型可以是一箇中位數或一些其他的給定X的條件下y的條件分佈的分位數作為X的線性函數表示。像所有形式的迴歸分析一樣,線性迴歸也把焦點放在給定X值的y的條件概率分佈,而不是X和y的聯合概率分佈(多元分析領域)。
線性迴歸是迴歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的類型。這是因為線性依賴於其未知參數的模型比非線性依賴於其未知參數的模型更容易擬合,而且產生的估計的統計特性也更容易確定。
線性迴歸模型經常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化“擬合缺陷”在一些其他規範裏(比如最小絕對誤差迴歸),或者在橋迴歸中最小化最小二乘損失函數的懲罰.相反,最小二乘逼近可以用來擬合那些非線性的模型.因此,儘管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號的。

線性迴歸擬合方程

線性迴歸最小二乘法

一般來説,線性迴歸都可以通過最小二乘法求出其方程,可以計算出對於y=bx+a的直線。 [2] 
一般地,影響y的因素往往不止一個,假設有x1,x2,...,xk,k個因素,通常可考慮如下的線性關係式:
對y與x1,x2,...,xk同時作n次獨立觀察得n組觀測值(xt1,xt2,...,xtk),t=1,2,...,n(n>k+1),它們滿足關係式:
其中,
互不相關均是與
同分布的隨機變量。 [3]  為了用矩陣表示上式,令:
線性迴歸 線性迴歸
線性迴歸 線性迴歸
線性迴歸 線性迴歸
線性迴歸 線性迴歸
於是有
,使用最小二乘法得到
的解
[3]  其中,
稱為
的偽逆。

線性迴歸迴歸係數

一般地,要求這個值大於5%。對大部分的行為研究者來講,最重要的是迴歸係數。年齡增加1個單位,文檔的質量就下降 -.1020986個單位,表明年長的人對文檔質量的評價會更低。這個變量相應的t值是 -2.10,絕對值大於2,p值也<0.05,所以是顯著的。結論是,年長的人對文檔質量的評價會更低,這個影響是顯著的。相反,領域知識越豐富的人,對文檔的質量評估會更高,但是這個影響不是顯著的。這種對迴歸係數的理解就是使用迴歸分析進行假設檢驗的過程。

線性迴歸迴歸方程誤差

線性迴歸離差平方和

其中
,代表y的平方和;r 是相關係數,代表變異被迴歸直線解釋的比例;
就是不能被迴歸直線解釋的變異,即SSE。
根據迴歸係數與直線斜率的關係,可以得到等價形式: ,其中b為直線斜率

線性迴歸利用預測值

,其中
是實際測量值,
是根據直線方程算出來的預測值。

線性迴歸不確定度

線性迴歸斜率b

法1:用
法2:把斜率b帶入

線性迴歸截距a

線性迴歸應用

線性迴歸數學

線性迴歸有很多實際用途。分為以下兩大類: [4] 
  1. 如果目標是預測或者映射,線性迴歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。
  2. 給定一個變量y和一些變量X1,...,Xp,這些變量有可能與y相關,線性迴歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,並識別出哪些Xj的子集包含了關於y的冗餘信息。

線性迴歸趨勢線

一條趨勢線代表着時間序列數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期內增長或下降。雖然我們可以用肉眼觀察數據點在座標系的位置大體畫出趨勢線,更恰當的方法是利用線性迴歸計算出趨勢線的位置和斜率。

線性迴歸流行病學

有關吸煙對死亡率和發病率影響的早期證據來自採用了迴歸分析的觀察性研究。為了在分析觀測數據時減少偽相關,除最感興趣的變量之外,通常研究人員還會在他們的迴歸模型裏包括一些額外變量。例如,假設我們有一個迴歸模型,在這個迴歸模型中吸煙行為是我們最感興趣的獨立變量,其相關變量是經數年觀察得到的吸煙者壽命。研究人員可能將社會經濟地位當成一個額外的獨立變量,已確保任何經觀察所得的吸煙對壽命的影響不是由於教育或收入差異引起的。然而,我們不可能把所有可能混淆結果的變量都加入到實證分析中。例如,某種不存在的基因可能會增加人死亡的幾率,還會讓人的吸煙量增加。因此,比起採用觀察數據的迴歸分析得出的結論,隨機對照試驗常能產生更令人信服的因果關係證據。當可控實驗不可行時,迴歸分析的衍生,如工具變量迴歸,可嘗試用來估計觀測數據的因果關係。

線性迴歸金融

資本資產定價模型利用線性迴歸以及Beta係數的概念分析和計算投資的系統風險。這是從聯繫投資回報和所有風險性資產回報的模型Beta係數直接得出的。

線性迴歸經濟學

線性迴歸是經濟學的主要實證工具。例如,它是用來預測消費支出,固定投資支出,存貨投資,一國出口產品的購買,進口支出,要求持有流動性資產,勞動力需求、勞動力供給。
參考資料
  • 1.    Cohen, J., Cohen P., West, S.G., & Aiken, L.S. Applied multiple regression/correlation analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates. 2003.
  • 2.    Draper, N.R. and Smith, H. Applied Regression Analysis. Wiley Series in Probability and Statistics. 1998.
  • 3.    孫榮恆.應用數理統計(第三版).北京:科學出版社,2014:204-206
  • 4.    alton, Francis. Regression Towards Mediocrity in Hereditary Stature (PDF). Journal of the Anthropological Institute. 1886, 15: 246–263