複製鏈接
請複製以下鏈接發送給好友

線性迴歸方程

鎖定
線性迴歸方程是利用數理統計中的迴歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法之一。線性迴歸也是迴歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的類型。按自變量個數可分為一元線性迴歸分析方程和多元線性迴歸分析方程。
中文名
線性迴歸方程
外文名
Linear regression equation
領    域
統計分析
學    科
數學
應    用
迴歸分析

線性迴歸方程簡介

統計學中,線性迴歸方程是利用最小二乘函數對一個或多個自變量因變量之間關係進行建模的一種迴歸分析。這種函數是一個或多個稱為迴歸係數的模型參數的線性組合。只有一個自變量的情況稱為簡單迴歸,大於一個自變量情況的叫做多元迴歸。(這反過來又應當由多個相關的因變量預測的多元線性迴歸區別,而不是一個單一的標量變量。)
在線性迴歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性迴歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性迴歸模型可以是一箇中位數或一些其他的給定X的條件下y的條件分佈的分位數作為X的線性函數表示。像所有形式的迴歸分析一樣,線性迴歸也把焦點放在給定X值的y的條件概率分佈,而不是X和y的聯合概率分佈(多元分析領域)。

線性迴歸方程模型

線性迴歸方程1.理論模型

給一個隨機樣本
,一個線性迴歸模型假設迴歸子
和迴歸量
之間的關係是除了X的影響以外,還有其他的變數存在。我們加入一個誤差項
(也是一個隨機變量)來捕獲除了
之外任何對
的影響。所以一個多變量線性迴歸模型表示為以下的形式:
其他的模型可能被認定成非線性模型。一個線性迴歸模型不需要是自變量的線性函數。線性在這裏表示
的條件均值在參數
裏是線性的。例如:模型
裏是線性的,但在
裏是非線性的,它是
非線性函數 [1] 

線性迴歸方程2.數據和估計

區分隨機變量和這些變量的觀測值是很重要的。通常來説,觀測值或數據(以小寫字母表記)包括了n個值
我們有
個參數
需要決定,為了估計這些參數,使用矩陣表記是很有用的。
其中Y是一個包括了觀測值
的列向量,
包括了未觀測的隨機成分
以及迴歸量的觀測值矩陣
X通常包括一個常數項。
如果X列之間存在線性相關,那麼參數向量
就不能以最小二乘法估計除非
被限制,比如要求它的一些元素之和為0。

線性迴歸方程3.古典假設

1)樣本是在母體之中隨機抽取出來的。
2)因變量Y在實直線上是連續的,
3)殘差項是獨立同分布的,也就是説,殘差是獨立隨機的,且服從高斯分佈。
這些假設意味着殘差項不依賴自變量的值,所以
和自變量X(預測變量)之間是相互獨立的。
在這些假設下,建立一個顯示線性迴歸作為條件預期模型的簡單線性迴歸方程,可以表示為:

線性迴歸方程求解方法

線性迴歸模型經常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化“擬合缺陷”在一些其他規範裏(比如最小絕對誤差迴歸),或者在迴歸中最小化最小二乘損失函數的乘法。相反,最小二乘逼近可以用來擬合那些非線性的模型。因此,儘管最小二乘法和線性模型是緊密相連的,但他們是不能劃等號的 [2] 

線性迴歸方程1.最小二乘法分析

迴歸分析的最初目的是估計模型的參數以便達到對數據的最佳擬合。在決定一個最佳擬合的不同標準之中,最小二乘法是非常優越的。這種估計可以表示為:
1).迴歸推論:
對於每一個
,我們用
代表誤差項
的方差。一個無偏誤的估計是:
其中
是誤差平方和(殘差平方和)。估計值和實際值之間的關係是:
其中
服從卡方分佈,自由度是
對普通方程的解可以為:
這表示估計項是因變量的線性組合。進一步地説,如果所觀察的誤差服從正態分佈。參數的估計值將服從聯合正態分佈。在當前的假設之下,估計的參數向量是精確分佈的。
其中
表示多變量正態分佈
參數估計值的標準差是:
參數
置信區間可以用以下式子來計算:
誤差項可以表示為:
2).方差分析:
在方差分析中,總平方和分解為兩個或更多部分。
總平方和SST (sum of squares for total) 是:
其中:
同等地:
迴歸平方和SSReg (sum of squares for regression),也可寫做模型平方和SSM( sum of squares for model) )是:
殘差平方和SSE (sum of squares for error) 是:
總平方和SST又可寫做SSReg和SSE的和:

線性迴歸方程2.其他方法

1.廣義最小二乘法
廣義最小二乘法可以用在當觀測誤差具有異方差或者自相關的情況下。
2.總體最小二乘法
總體最小二乘法用於當自變量有誤時。
3.廣義線性模式
廣義線性模式應用在當誤差分佈函數不是正態分佈時。比如指數分佈伽瑪分佈逆高斯分佈泊松分佈二項式分佈等。
4.穩健迴歸
穩健迴歸是將平均絕對誤差最小化,不同於在線性迴歸中是將均方誤差最小化。

線性迴歸方程應用

線性迴歸方程是迴歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的類型。這是因為線性依賴於其未知參數的模型比非線性依賴於其位置參數的模型更容易擬合,而且產生的估計的統計特性也更容易確定 [3] 
線性迴歸有很多實際用途。分為以下兩大類:
  1. 如果目標是預測或者映射,線性迴歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。
  2. 給定一個變量y和一些變量X1,...,Xp,這些變量有可能與y相關,線性迴歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,並識別出哪些Xj的子集包含了關於y的冗餘信息

線性迴歸方程1.趨勢線

一條趨勢線代表着時間序列數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期內增長或下降。雖然我們可以用肉眼觀察數據點在座標系的位置大體畫出趨勢線,更恰當的方法是利用線性迴歸計算出趨勢線的位置和斜率。

線性迴歸方程2.流行病學

有關吸煙對死亡率和發病率影響的早期證據來自採用了迴歸分析的觀察性研究。為了在分析觀測數據時減少偽相關,除最感興趣的變量之外,通常研究人員還會在他們的迴歸模型裏包括一些額外變量。例如,假設我們有一個迴歸模型,在這個迴歸模型中吸煙行為是我們最感興趣的獨立變量,其相關變量是經數年觀察得到的吸煙者壽命。研究人員可能將社會經濟地位當成一個額外的獨立變量,已確保任何經觀察所得的吸煙對壽命的影響不是由於教育或收入差異引起的。然而,我們不可能把所有可能混淆結果的變量都加入到實證分析中。例如,某種不存在的基因可能會增加人死亡的幾率,還會讓人的吸煙量增加。因此,比起採用觀察數據的迴歸分析得出的結論,隨機對照試驗常能產生更令人信服的因果關係證據。當可控實驗不可行時,迴歸分析的衍生,如工具變量回歸,可嘗試用來估計觀測數據的因果關係。

線性迴歸方程3.金融

資本資產定價模型利用線性迴歸以及Beta係數的概念分析和計算投資的系統風險。這是從聯繫投資回報和所有風險性資產回報的模型Beta係數直接得出的。

線性迴歸方程4.經濟學

線性迴歸是經濟學的主要實證工具。例如,它是用來預測消費支出,固定投資支出,存貨投資,一國出口產品的購買,進口支出,要求持有流動性資產,勞動力需求、勞動力供給。
參考資料
  • 1.    [1]王晨陽,王成. 線性迴歸方程顯著性的事先檢驗問題[J]. 延安大學學報(自然科學版),2005,02:32-34.
  • 2.    [3]嚴於鮮. 層次分析法在線性迴歸方程中的應用[J]. 四川理工學院學報(自然科學版),2006,05:99-101.
  • 3.    [2]馬雄威. 線性迴歸方程中多重共線性診斷方法及其實證分析[J]. 華中農業大學學報(社會科學版),2008,02:78-81+85.