反饋

box-cox變換

Box-Cox變換是Box和Cox在1964年提出的一種廣義冪變換方法，是統計建模中常用的一種數據變換，用於連續的響應變量不滿足正態分佈的情況。Box-Cox變換之後，可以一定程度上減小不可觀測的誤差和預測變量的相關性。Box-Cox變換的主要特點是引入一個參數，通過數據本身估計該參數進而確定應採取的數據變換形式，Box-Cox變換可以明顯地改善數據的正態性、對稱性和方差相等性，對許多實際數據都是行之有效的^[1] 。

中文名: box-cox變換
外文名: Box-Cox transformation
性質: 變換

所屬學科: 數學
屬性: 一種廣義冪變換方法
相關方法: 極大似然估計

目錄

box-cox變換簡介

Box-Cox變換的一般形式為：

式中

為經Box-Cox變換後得到的新變量，

為原始連續因變量，

為變換參數。以上變換要求原始變量

取值為正，若取值為負時，可先對所有原始數據同加一個常數

使其

為正值，然後再進行以上的變換。對不同的

所作的變換不同。在

時該變換為對數變換，

時為倒數變換，而在

時為平方根變換。Box-Cox變換中參數

的估計有兩種方法：(1)最大似然估計；(2)Bayes方法。通過求解

值，就可以確定具體採用哪種變換形式。

box-cox變換變換過程

Box-Cox變換是對迴歸因變量Y的如下變換：

在這裏

是一個待定變換參數。對於不同的

，所作的變換也不相同，所以Box-Cox變換是一族變換，它包括了平方根變換(

)，對數變換(

)和倒數變換(

)等常用變換，對因變量的n個觀測值

，應用上述變換，可得變換後的向量

我們要確定變換參數

，使得

滿足

即要求通過因變量的變換，使得變換過的向量

與迴歸自變量具有線性相依關係，誤差也服從正態分佈．誤差各分量是等方差且相互獨立，故Box-Cox變換是通過參數

的適當選擇。達到對原來數據的“綜合治理”，使其滿足一個正態線性迴歸模型的所有假設條件。

用極大似然方法來確定

，由於

，故對固定的

，

和

的似然函數為

其中，

為變換的Jacobi行列式

當

固定時，

是不依賴於參數

和

的常數因子，

的其餘部分關於

和

求導數，令其等於零，可求得

和

的極大似然估計

殘差平方和為

對應的似然最大值為

該式為

的一元函數，通過求它的最大值來確定

，因為

是x的單調函數，問題可轉化為求

的最大值，對式(3)求對數，略去與

無關的常數項，得

其中，

式(4)對Box-Cox變換在計算機上實現帶來很大的方便，因為我們只要求出殘差平方和

的最小值，就可以求出

的最大值，雖然很難找出使

達到最小值的

的解析表達式，但是對一系列的

給定值，通過最普通的求最小二乘估計的迴歸程序，很容易計算出對應的

，畫出

關於

的曲線，可在圖上近似地找出

達到最小值的

。

Box-Cox變換變換的具體步驟如下：

(1)對給定的

值，計算

，如果

，用式(6)計算，否則用式(7)；

(2)利用式(5)計算殘差平方和

；

(3)對一系列的

值，重複上述步驟，得到相應的殘差平方和

的一串值，以

為橫軸，作出相應的曲線，用直觀的方法，找出使

達到最小值的點

。

(4)利用式(2)，求出

。

box-cox變換意義

Box-Cox變換的一個顯著優點是通過求變換參數

來確定變換形式，而這個過程完全基於數據本身而無須任何先驗信息，這無疑比憑經驗或通過嘗試而選用對數、平方根等變換方式要客觀和精確。

Box-Cox變換的目的是為了讓數據滿足線性模型的基本假定，即線性、正態性及方差齊性，然而經Box-Cox變換後數據是否同時滿足了以上假定，仍需要考察驗證^[2] 。

參考資料

1. 荊慶林．線性迴歸及其應用研究：吉林大學出版社，2012.12
2. 顏虹．中華醫學統計百科全書單變量推斷統計分冊：中國統計出版社，2012.03

box-cox變換的概述圖

box-cox變換的概述圖（2張）

詞條統計

瀏覽次數：次
編輯次數：21次歷史版本
最近更新：与是非1 （2022-06-13）

1 簡介
2 變換過程
3 意義

百科協議隱私協議意見反饋

清除歷史記錄關閉