複製鏈接
請複製以下鏈接發送給好友

混淆變量

鎖定
混淆變量是指與自變量 X 和因變量 Y 都相關的變量。該變量能使 X 和 Y 之間產生虛假的相關關係。混淆變量可以出現在貝葉斯網絡多元迴歸等情形中。一個變量是否為混淆變量依賴於模型對因果關係的認定。消除混淆的方法有:在實驗中採用控制變量法、分組實驗法,或在採集完數據後藉助一定的統計模型來扣除混淆變量的影響。
中文名
混淆變量
外文名
confounding variable
學科背景
概率統計
消除混淆方法
貝葉斯公式、多元迴歸等

混淆變量認識混淆變量

混淆變量是一個基於因果關係的概念,不能完全由對統計數據的相關分析得出。相關關係是一種無向關係,而因果關係則具有方向性。例如有三個變量 X、Y、Z,如果是 Z 影響 X,Z 影響 Y,則 Z 為混淆變量。X 和 Y 之間的相關性可能部分來自於二者對 Z 的共同依賴。例如 X = 服藥,Y = 康復,Z = 年齡、性別等。某些疾病的發病率和康復率都和年齡、性別有關。檢驗藥物是否有效必須考慮到這些因素的影響,最好進行分組實驗。
又例如 X 和 Z 之間並無直接因果聯繫,但二者都對 Y 有影響。在研究 X 對 Y 的影響時,沒有控制變量 Z,則也能發生自變量混淆。例如 X = 户外活動時間,Y = 發生近視,Z = 用眼習慣、室內照明、遺傳、飲食因素等。在研究户外活動時間對近視發生率的影響時,如果眾多其它因素 Z 無法嚴格做到在 X 變化時保持恆定,則應試圖保持它們的條件分佈恆定,即與 X 的獨立性。事實上後者也非常難做到,所以需要用多元迴歸等方法,按照一定的統計模型將它們的影響扣除。
但如果是 X 影響 Z,Z 影響 Y,則 Z 為 X 到 Y 的因果鏈上的中間變量,一般認為不是混淆變量。例如 X = 總收入,Y = 恩格爾係數,Z = 總消費。伴隨着收入提高,消費升級有一定必然性,才導致相對固定的食品支出佔總消費的比例(即恩格爾係數)下降。如果收入 X 提高了,卻不允許消費 Z 增加,反而是不符合實際情況的模型。

混淆變量貝葉斯公式

混淆變量公式原理

當混淆變量 Z 離散取值時,可以用分組實驗法或貝葉斯公式來消除其影響。由於混淆變量 Z 的存在,給定 X 條件下 Y 發生的條件概率不一定能反映 X 本身對 Y 造成的影響,而可能是不同 X 取值下,混淆變量 Z 的分佈不同造成的。一般地有條件概率
可見 X 的取值對 Z 的無條件分佈 P(Z) 具有選擇性,使其變為逆概公式 P(Z|X) 的結果。為了消除這種選擇性對因變量 Y 造成的影響,而計算出 X 本身的效果,我們重新定義
上式把混淆變量 Z 的分佈固定為其無條件分佈 P(Z),可以看作是控制變量法的概率形式。

混淆變量一個案例

下面舉一個 “辛普森悖論” 的例子來比較兩個條件概率 P(Y|X) 和 P(Y|do X) 的區別。設有兩家醫院 A、B,它們的 1000 位病人的就診康復情況如下表:
人數統計Z = 1(重症)Z = 0(輕症)
Y = 1(康復)Y = 0(未康復)Y = 1(康復)Y = 0(未康復)
X = 醫院 A48032018020
Y = 醫院 B60140640160
為了簡化問題,我們將 Y 和 Z 都取成了二分類變量。可以計算條件概率
看起來醫院 B 的病人康復率 70% 要高於醫院 A 的 66%。但重新把重症 Z = 1 和輕症 Z = 0 分開計算,將得出
不論是重症還是輕症,醫院 A 的康復率都明顯更高。這一現象叫做 “辛普森悖論”。雖然分組康復率都是 A 高於 B,但正因為如此,重症病人更願意去醫院 A 就診,以尋求更高的康復率,最後把醫院 A 的總康復率降到反而要低於主要醫治輕症病人的醫院 B。如果醫院 A 和醫院 B 的就診人數之比為 2:1,且不計其它醫院病人,則可以計算出重症和輕症的無條件概率
以相同的重輕症比例來計算兩家醫院的康復率得
上面這兩個數字對於比較兩家醫院 X = A、B 的醫療水平和病人選擇醫院顯然更有指導意義。而原先的條件概率不區分重症和輕症,單純地只看總康復率,則得出了誤導的結論。

混淆變量多元迴歸

當混淆變量 Z 連續取值時,可以用多元線性迴歸方法,計算 Z 保持恆定時 X 和 Y 的偏相關係數。主要思路是雖然沒有做到 Z 保持不變,但如果 Z 對 X 和 Y 的影響都是線性的,則可以根據模型將其扣除,生成一組等效的數據點 (X', Y'),其中 X' = X – aZ,Y' = Y – bZ。扣除係數 a 和 b 以 X' 和 Y' 都同 Z 不相關為準。
設已經對變量 X、Y、Z 的方差歸一化,即 var(X) = var(Y) = var(Z) = 1。於是有
同理,扣除係數 b = rYZ。於是等效數據點 X' 和 Y' 之間的相關係數
將上式定義為 X 和 Y 的偏相關係數 rXY|Z。如果 X、Y、Z 三個變量服從多元正態分佈,則偏相關係數 rXY|Z 等於變量 Z 保持不變時,X 和 Y 的條件分佈的相關係數;而原始的相關係數 rXY 則為 X 和 Y 的邊緣分佈的相關係數。兩個分佈同為二元正態分佈,後者為前者對不同 Z 的可能值的混合分佈。
以上只討論了一個混淆變量 Z 的情況。如果有多個變量 Z1, Z2, ..., Zp-2 的影響需要消除,可以用矩陣形式重複上述推導,或在多元正態分佈概率密度函數中令要消去的變量為常數,從而直接讀出協方差矩陣的逆矩陣 Σ-1的矩陣元來計算多元偏回歸係數偏相關係數。如果因變量 Y 離散取值,例如發生或不發生,或為其它分類變量,則可以用多元 logistic迴歸方法處理。