複製鏈接
請複製以下鏈接發送給好友

多元迴歸

鎖定
研究一個因變量、與兩個或兩個以上自變量的迴歸。亦稱為多元線性迴歸,是反映一種現象或事物的數量依多種現象或事物的數量的變動而相應地變動的規律。建立多個變量之間線性非線性數學模型數量關係式統計方法
中文名
多元迴歸
外文名
multivariable regression
第一條
數學模型
第二條
最小估乘
第三條
線性處理
處理方法
非線性模型轉化為線性模型

多元迴歸定義

在處理測量數據時,經常要研究變量與變量之間的關係。變量之間的關係一般分為兩種。一種是完全確定關係,即函數關係;一種是相關關係,即變量之間既存在着密切聯繫,但又不能由一個或多個變量的值求出另一個變量的值。例如,學生對於高等數學、概率與統計、普通物理的學習,會對統計物理的學習產生影響,它們雖然存在着密切的關係,但很難從前幾門功課的學習成績來精確地求出統計物理的學習成績。但是,對於彼此聯繫比較緊密的變量,人們總希望建立一定的公式,以便變量之間互相推測。迴歸分析的任務就是用數學表達式來描述相關變量之間的關係。
1、多元迴歸是指一個因變量(預報對象),多個自變量(預報因子)的迴歸模型。基本方法是根據各變量值算出交叉乘積和
2、這種包括兩個或兩個以上自變量的迴歸稱為多元迴歸。應用此法,可以加深對定性分析結論的認識,並得出各種要素間的數量依存關係,從而進一步揭示出各要素間內在的規律。一般來説,多元迴歸過程能同時提供多個備選的函數關係式,並提供每個關係式對實驗數據的理解能力,研究者可以結合自己的理論預期,據此作出選擇。

多元迴歸數學模型

相關變量之間的關係可以是線性的,也可以是非線性的。這裏只討論多元線性迴歸。設
是p個可以精確測量或可控制的變量。如果變量y與
之間的內在聯繫是線性的,那麼進行n次試驗,則可得n組數據:
它們之間的關係可表示為:
………………
其中,
是p+l個待估參數,εi表示第i次試驗中的隨機因素對yi的影響。為簡便起見,將此n個方程表示成矩陣形式:
其中
上式便是p元線性迴歸的數學模型。 [1] 

多元迴歸最小估乘

為了求出多元線性迴歸模型中的參數
,可採用最小二乘法,即在其數學模型所屬的函數類中找一個近似的函數,使得這個近似函數在已知的對應數據上儘可能和真實函數接近。
分別是
的最小二乘估計,則多元迴歸方程(即近似函數)為:
其中
叫做迴歸方程的迴歸係數。對每一組
,由迴歸方程可以確定一個迴歸值
。這個迴歸值
與實際觀測值
之差,反映了
迴歸直線
的偏離程度。若對所有的觀測數據,
(I=1,2,…,n)的偏離越小,則認為迴歸直線與所有試驗點擬合得越好。全部觀測值
與迴歸值
偏差平方和為:
根據微分學中的極值原理
應是下列方程組的解:
通過整理可將上述方程組寫成如下形式:
其中,
,稱為迴歸方程係數矩陣,X'是X的轉置矩陣。當X'X滿秩時,逆矩陣(X'X)-1存在,係數矩陣C可以表示為:
上式即為迴歸模型中參數B的最小二乘估計。至此,我們就得到了p元線性迴歸方程
建立迴歸方程的目的是要利用它來進行預報與控制。在實際問題中,事先並不能斷定隨機變量y與
之間確有線性關係,在求解迴歸方程前,線性迴歸模型只是一種假設,所以在求出線性迴歸方程之後,還需對其進行統計檢驗,給以肯定或否定的結論。有關回歸方程及迴歸係數顯著性檢驗問題,這裏就不介紹了。

多元迴歸線性處理

由於線性迴歸方程比較簡單,所以在遇到非線性模型時,最好將其轉換為線性模型。 [2] 
(1)多項式模型
多項式模型為
方程中的變量作如下變換
則原方程變為
就可用線性模型的方法處理。
(2)指數模型指數模型為:
方程兩邊取對數得:
則可得線性方程
(3)冪函數模型冪函數模型為:
方程兩邊取對數得
令 
則冪函數模型就變為線性模型
(4)成長曲線模型
成長曲線模型在經濟、教育和心理研究中都非常有用,其數學表達式為:
令 
,
它就轉化為線性模型: 

多元迴歸應用

(1) 確定幾個特定的變量之間是否存在相關關係,如果存在的話,找出它們之間合適的數學表達式;
(2) 根據一個或幾個變量的值, 預測或控制另一個變量的取值,並且可以知道這種預測或控制能達到什麼樣的精確度
(3) 進行因素分析。例如在對於共同影響一個變量的許多變量(因素)之間,找出哪些是重要因素,哪些是次要因素,這些因素之間又有什麼關係等等。 [2] 
參考資料
  • 1.    付鳳玲, 周樹峯, 潘光堂,等. 玉米耐旱係數的多元迴歸分析[J]. 作物學報, 2003, 29(3):468-472.
  • 2.    王惠文, 張志慧, Tenenhaus. 成分數據的多元迴歸建模方法研究[J]. 管理科學學報, 2006, 9(4):27-32.