-
一元線性迴歸方程
鎖定
迴歸分析只涉及到兩個變量的,稱一元迴歸分析。一元迴歸的主要任務是從兩個相關變量中的一個變量去估計另一個變量,被估計的變量,稱因變量,可設為Y;估計出的變量,稱自變量,設為X。迴歸分析就是要找出一個數學模型Y=f(X),使得從X估計Y可以用一個函數式去計算。當Y=f(X)的形式是一個直線方程時,稱為一元線性迴歸。這個方程一般可表示為Y=A+BX。根據最小平方法或其他方法,可以從樣本數據確定常數項A與迴歸係數B的值。A、B確定後,有一個X的觀測值,就可得到一個Y的估計值。迴歸方程是否可靠,估計的誤差有多大,都還應經過顯著性檢驗和誤差計算。有無顯著的相關關係以及樣本的大小等等,是影響迴歸方程可靠性的因素。
- 中文名
- 一元線性迴歸方程
- 外文名
- A linear regression equation
- 所屬學科
- 數學
- 相關概念
- 一元迴歸,最小二乘法等
- 屬 性
- 專業術語
- 定 義
- 當Y=f(X)的形式是一個直線方程時,稱為一元線性迴歸
目錄
- 1 一元線性迴歸方程的形式
- 2 一元線性迴歸方程參數的估計
- 3 應用實例
一元線性迴歸方程一元線性迴歸方程的形式
如果只有一個自變量X,而且因變量Y和自變量X之間的數量變化關係呈近似線性關係,就可以建立一元線性迴歸方程,由自變量X的值來預測因變量Y的值,這就是一元線性迴歸預測。
如果因變量Y和自變量X之間呈線性相關,那就是説,對於自變量X的某一值
,因變量Y對應的取值
不是唯一確定的,而是有很多的可能取值,它們分佈在一條直線的上下,這是因為Y還受除自變量以外的其他因素的影響。這些因素的影響大小和方向都是不確定的,通常用一個隨機變量(記為
)來表示,也稱為隨機擾動項。於是,Y和X之間的依存關係可表示為
對式(1)求均值則有:
通常將式(2)稱為總體的一元線性迴歸方程或總體迴歸直線,以
表示給定自變量值
時因變量的均值或期望值。
統稱為總體迴歸方程的參數。其中
是總體迴歸方程的常數項,是總體迴歸直線在Y軸上的截距;
是總體迴歸係數,也是總體迴歸直線的斜率。由式(2)不難理解,總體迴歸方程描述的是Y和X兩個變量之間平均的數量變化關係。
在實際中,通常由於不可能把變量的全部可能取值收集齊全,總體迴歸方程中的參數
是不可能直接觀測計算而得的,是有待估計的未知參數。為此,我們需要根據樣本信息來估計。若能通過適當的方法,找到兩個樣本統計量a、b分別作為參數
的估計量,那麼用a、b分別替代總體迴歸方程中的參數
,則得到估計的迴歸方程,也稱樣本回歸方程。一元線性的樣本回歸方程也稱為樣本回歸直線,其形式如下:
式中,
是與自變量取值
相對應的因變量均值
的估計;a和b分別為總體迴歸方程參數
的估計量,a是樣本回歸方程的常數項,也就是樣本回歸直線在Y軸上的截距,表示除自變量X以外的其他因素對因變量Y的平均影響量;b是樣本回歸係數,也即樣本回歸直線的斜率,表示自變量X每增加一個單位時因變量Y的平均增加量。
一元線性迴歸方程一元線性迴歸方程參數的估計
如何確定式(3)中的兩個係數a和b呢?人們總是希望尋求一定的規則和方法,使得所估計的樣本回歸方程是總體迴歸方程的最理想的代表。最理想的迴歸直線應該儘可能從整體來看最接近各實際觀察點,即散點圖中各點到迴歸直線的垂直距離,即因變量的實際值
與相應的迴歸估計值
的離差整體來説為最小。由於離差有正有負,正負會相互抵消,通常採用觀測值與對應估計值之間的離差平方總和來衡量全部數據總的離差大小。因此,迴歸直線應滿足的條件是:全部觀測值與對應的迴歸估計值的離差平方的總和為最小,即:
根據式(4)的準則來估計迴歸方程係數a和b的方法稱為最小平方法或最小二乘法。顯然,在給定了X和Y的樣本觀察值之後,離差平方總和的大小依賴於a和b的取值,客觀上總有一對a和b的數值能夠使離差平方總和達到最小。利用微分法求函數極值的原理,即可得到滿足式(4)的兩個正規方程:
一元線性迴歸方程應用實例
【例1】為了研究某地區某行業企業廣告支出對銷售收入的影響,隨機抽取了8個企業,調查得知它們的廣告費與銷售額的數據如表1的第(1)和(2)列所示,試建立企業廣告費與銷售額之間的迴歸方程。
序號 | 廣告費x(萬元) | 銷售額y(百萬元) | xy | x2 | y2 |
(甲) | (1) | (2) | (3) | (4) | (5) |
1 | 300 | 300 | 90000 | 90000 | 90000 |
2 | 400 | 350 | 140 000 | 160 000 | 122 500 |
3 | 400 | 490 | 196 000 | 160 000 | 240 100 |
4 | 550 | 500 | 275 000 | 302 500 | 250 000 |
5 | 720 | 600 | 432 000 | 518400 | 360000 |
6 | 850 | 610 | 518 500 | 722 500 | 372 100 |
7 | 900 | 700 | 630000 | 810 000 | 490000 |
8 | 950 | 660 | 627 000 | 902 500 | 435 600 |
合計 | 5 070 | 4 210 | 2 908 500 | 3 665 900 | 2 360 300 |
解:通常企業的廣告投入越多,產品銷售額就會越多,但是具有相同廣告支出的企業,其產品銷售額並不完全相同,因為企業銷售額不僅受廣告投入的影響,同時還受許多其他因素的影響,這些影響因素存在不確定性,甚至有些是無法觀察的。所以,企業的廣告費與產品銷售額之間的關係不是函數關係而是相關關係。廣告費支出顯然是影響銷售額的一個重要因素,應該以廣告費為自變量X,以銷售額為因變量Y。觀察廣告費與銷售額的相關關係的形態需繪製散點圖(相關圖)。在Excel中,先將X、Y兩個變量的數據放在相鄰兩列或兩行(X在前,Y在後),然後用鼠標選定數據區域,再單擊菜單欄“插入”下的“圖表”,選擇標準類型中的“XY散點圖”即可(也可先選定“XY散點圖”後在空白圖形中單擊右鍵“選擇數據”再指定X和Y的數據所在區域)。在SPSS中,單擊菜單欄的“圖形(Graphs)”,選擇其下的“散點圖/點圖(Scatter)”,在隨即彈出的子圖形類型中選擇第一個圖形,即簡單散點圖,將所分析的變量分別選入Y軸和X軸即可。
由表1的第(1)和(2)列的數據繪製相關圖,如圖1所示。
由圖1可知,隨着廣告費的增加,企業銷售額也相應增加,而且樣本點的分佈僅僅圍繞在一條直線上下,表明銷售額Y與廣告費X之間存在非常密切的線性正相關關係,所以銷售額Y與廣告費X的迴歸方程應該是個一元線性迴歸方程。圖1中的直線正是所要求的樣本回歸直線,其對應的數學表達式就是我們所要估計的一元線性迴歸方程。先列表計算出估計一元線性迴歸方程參數所需數據,如表1的第(3)至(4)列所示。由式(6)可計算迴歸方程參數的估計值為
上述回方程表明,如果沒有廣告投入(x=0 時),銷售額平均只有189.75百萬元。