反饋

Tobit模型

Tobit模型(tobit model)是指因變量雖然在正值上大致連續分佈，但包含一部分以正概率取值為0的觀察值的一類模型。比如，在任一給定年份，有相當數量家庭的醫療保險費用支出為0，因此，雖然年度家庭醫療保險費用支出的總體分佈散佈於一個很大的正數範圍內，但在數字0上卻相當集中。它也被稱為截尾迴歸模型或刪失迴歸模型(censored regression model)，屬於受限因變量(limited dependent variable)迴歸的一種。受限因變量指因變量的觀測值是連續的，但是受到某種限制，得到的觀測值並不完全反映因變量的實際狀態。主要包括斷尾迴歸模型(truncated regression model)、Tobit模型(tobit model)和樣本選擇模型(sample selection model)等。

中文名: Tobit模型
外文名: Tobit Model
所屬學科: 數學（統計學）

別名: 截尾迴歸模型
刪失迴歸模型
代表: 斷尾迴歸模型、Tobit模型和樣本選擇模型
適用場景: 家庭醫療保險測算

Tobit模型基本概念

經典的Tobit 模型是James Tobin在分析家庭耐用品的支出情況時對Probit 迴歸進行的一種推廣(Tobit一詞源自Tobin’S Probit)，其後又被擴展成多種情況，Amemiya將其歸納為Ⅰ型到Ⅴ型Tobit模型。標準的Ⅰ型Tobit迴歸模型如下：

式(1)中，

是潛在應變量，潛變量大於0時被觀察到，取值為

，小於等於0時在0處截尾，

是自變量向量，

是係數向量，誤差項

獨立且服從正態分佈：

。該模型也可以作如下簡化表達：

用最小二乘法估計含有截尾數據的模型參數會產生偏差，且估計量是不一致的。在一定假設下可通過最大似然法估計其參數^[1] 。

Tobit模型最大似然

當Tobit模型的誤差項滿足正態性和方差齊性時，即式(1)中，

，潛變量

滿足經典線性模型假定，服從具有線性條件均值的等方差正態分佈。在該假設條件下，Tobit模型中對於正值即

，給定x下y的密度與給定x下

的密度一樣；對於

的觀測值，由於u/a服從標準正態分佈並獨立於丁，則

因此如果

是來自總體的一次隨機抽取，則在給定

下

的密度為：

式中，

是標準正態密度函數。從中得到每個觀測i的對數似然函數:

通過將上式對i求和,就可以得到容量為n的一個隨機樣本的對數似然函數，即

該式由兩部分組成，一部分對應於沒有限制的觀測值，是經典迴歸模型部分；一部分對應於受到限制的觀測值。這是一個非標準的似然函數，它實際上是離散分佈與連續分佈的混合。通過對上式極大化，就可以得到

和

的最大似然估計值。該對數似然函數的求解比較棘手，因為Tobit 模型的對數似然函數對原參數

和

不是全局凹的(global concavity)。對該似然函數進行再參數化，可使得估計過程更為簡單，並且再參數化後的對數似然函數是全局凹的。令

和

對數似然函數變為

對上式極大化，由於Hessian矩陣始終是負正定的，所以不管初始值是什麼，只要迭代過程有一個解，則這個解就是似然函數的全局最大化解。應用牛頓法求解時較為簡單，且收斂速度快，得到

和

的估計量後，再利用

和

求得原參數估計量。這些估計量的漸近協方差矩陣可以從估計量

中得到^[1] 。

Tobit模型半參數

Tobit模型最大似然估計的一致性依賴於其潛變量模型中誤差項的正態性和方差齊性，在誤差項存在序列相關(serial correlation)的情況下最大似然估計仍可以保持一致性，但其異方差和非正態分佈會導致

和

的不一致估計。檢驗Tobit模型中誤差項是否服從正態分佈的方法有Hausman檢驗、拉格朗日乘數檢驗和條件矩檢驗等。不滿足正態分佈時可選用替代的其他分佈，如指數分佈、對數正態分佈和威布爾分佈。但是假定一些其他的特定分佈並不能有效的解決問題而且有可能使問題更糟，此時可採用一些穩健的半參數方法。

刪失最小絕對離差估計CLAD(censored least absolute deviations)是Tobit模型的一種半參數估計方法，該方法假定

的中位數為0，即

，這也意味着

，如果額外假設誤差項有關於0為中心的對稱分佈，那麼條件中位數和均數就是一致的。對於經典線性模型，最小絕對離差估計LAD(Least Absolute Deviations)通過最小化誤差項的絕對值之和來獲得迴歸係數的估計值(最小一乘估計)。在Tobit 模型中只能觀測到截取的因變量y所以要對經典的LAD估計作一些改進。對任何連續隨機變量Z，可以通過選擇合適的b作為Z 分佈的中位數從而最小化函數,

。如果

的中位數是迴歸自變量和未知參數的已知函數

，那麼

的樣本條件中位數可以通過選擇適當的

來獲得，而這個

使得函數

在

處最小化。對於截取回歸模型來説，很容易證明

的中位數函數

，所以CLAD估計的目標函數為

由於該函數是連續的，最小值總是存在，但最小化可能產生不唯一的

值。CLAD估計具有一致性，並且有漸近的正態分佈，由於最小化的函數不是連續可微的，所以該估計量的計算較複雜。Buchinsky 建議用迭代線性規劃算法ILPA(the iterative linear programming algorithm)來獲得CLAD 的估計量。由於CLAD 估計允許誤差項可以為更廣泛的分佈，包括非對稱分佈，當Tobit模型的某些有關分佈的假設不成立時，,蒙特卡羅模擬證據表明它表現良好，對異方差也穩健。Deaton指出當有異方差性時，小樣本情況下，CLAD估計有大的標準差，而似然估計在小樣本中儘管有偏倚，但它的標準差較小。所以對於小樣本來説似然估計是比較好的，而CLAD估計隨着樣本含量的增大比較適用^[1] 。