反饋

混淆變量

混淆變量是指與自變量 X 和因變量 Y 都相關的變量。該變量能使 X 和 Y 之間產生虛假的相關關係。混淆變量可以出現在貝葉斯網絡、多元迴歸等情形中。一個變量是否為混淆變量依賴於模型對因果關係的認定。消除混淆的方法有：在實驗中採用控制變量法、分組實驗法，或在採集完數據後藉助一定的統計模型來扣除混淆變量的影響。

中文名: 混淆變量
外文名: confounding variable

學科背景: 概率統計
消除混淆方法: 貝葉斯公式、多元迴歸等

混淆變量認識混淆變量

混淆變量是一個基於因果關係的概念，不能完全由對統計數據的相關分析得出。相關關係是一種無向關係，而因果關係則具有方向性。例如有三個變量 X、Y、Z，如果是 Z 影響 X，Z 影響 Y，則 Z 為混淆變量。X 和 Y 之間的相關性可能部分來自於二者對 Z 的共同依賴。例如 X = 服藥，Y = 康復，Z = 年齡、性別等。某些疾病的發病率和康復率都和年齡、性別有關。檢驗藥物是否有效必須考慮到這些因素的影響，最好進行分組實驗。

又例如 X 和 Z 之間並無直接因果聯繫，但二者都對 Y 有影響。在研究 X 對 Y 的影響時，沒有控制變量 Z，則也能發生自變量混淆。例如 X = 户外活動時間，Y = 發生近視，Z = 用眼習慣、室內照明、遺傳、飲食因素等。在研究户外活動時間對近視發生率的影響時，如果眾多其它因素 Z 無法嚴格做到在 X 變化時保持恆定，則應試圖保持它們的條件分佈恆定，即與 X 的獨立性。事實上後者也非常難做到，所以需要用多元迴歸等方法，按照一定的統計模型將它們的影響扣除。

但如果是 X 影響 Z，Z 影響 Y，則 Z 為 X 到 Y 的因果鏈上的中間變量，一般認為不是混淆變量。例如 X = 總收入，Y = 恩格爾係數，Z = 總消費。伴隨着收入提高，消費升級有一定必然性，才導致相對固定的食品支出佔總消費的比例（即恩格爾係數）下降。如果收入 X 提高了，卻不允許消費 Z 增加，反而是不符合實際情況的模型。

混淆變量貝葉斯公式

混淆變量公式原理

當混淆變量 Z 離散取值時，可以用分組實驗法或貝葉斯公式來消除其影響。由於混淆變量 Z 的存在，給定 X 條件下 Y 發生的條件概率不一定能反映 X 本身對 Y 造成的影響，而可能是不同 X 取值下，混淆變量 Z 的分佈不同造成的。一般地有條件概率

可見 X 的取值對 Z 的無條件分佈 P(Z) 具有選擇性，使其變為逆概公式 P(Z|X) 的結果。為了消除這種選擇性對因變量 Y 造成的影響，而計算出 X 本身的效果，我們重新定義

上式把混淆變量 Z 的分佈固定為其無條件分佈 P(Z)，可以看作是控制變量法的概率形式。

混淆變量一個案例

下面舉一個 “辛普森悖論” 的例子來比較兩個條件概率 P(Y|X) 和 P(Y|do X) 的區別。設有兩家醫院 A、B，它們的 1000 位病人的就診康復情況如下表：

人數統計	Z = 1（重症）		Z = 0（輕症）
人數統計	Y = 1（康復）	Y = 0（未康復）	Y = 1（康復）	Y = 0（未康復）
X = 醫院 A	480	320	180	20
Y = 醫院 B	60	140	640	160

為了簡化問題，我們將 Y 和 Z 都取成了二分類變量。可以計算條件概率

看起來醫院 B 的病人康復率 70%要高於醫院 A 的 66%。但重新把重症 Z = 1 和輕症 Z = 0 分開計算，將得出

不論是重症還是輕症，醫院 A 的康復率都明顯更高。這一現象叫做 “辛普森悖論”。雖然分組康復率都是 A 高於 B，但正因為如此，重症病人更願意去醫院 A 就診，以尋求更高的康復率，最後把醫院 A 的總康復率降到反而要低於主要醫治輕症病人的醫院 B。如果醫院 A 和醫院 B 的就診人數之比為 2:1，且不計其它醫院病人，則可以計算出重症和輕症的無條件概率

以相同的重輕症比例來計算兩家醫院的康復率得

上面這兩個數字對於比較兩家醫院 X = A、B 的醫療水平和病人選擇醫院顯然更有指導意義。而原先的條件概率不區分重症和輕症，單純地只看總康復率，則得出了誤導的結論。

混淆變量多元迴歸

當混淆變量 Z 連續取值時，可以用多元線性迴歸方法，計算 Z 保持恆定時 X 和 Y 的偏相關係數。主要思路是雖然沒有做到 Z 保持不變，但如果 Z 對 X 和 Y 的影響都是線性的，則可以根據模型將其扣除，生成一組等效的數據點 (X', Y')，其中 X' = X – aZ，Y' = Y – bZ。扣除係數 a 和 b 以 X' 和 Y' 都同 Z 不相關為準。

設已經對變量 X、Y、Z 的方差歸一化，即 var(X) = var(Y) = var(Z) = 1。於是有

同理，扣除係數 b = r_YZ。於是等效數據點 X' 和 Y' 之間的相關係數為

將上式定義為 X 和 Y 的偏相關係數 r_XY|Z。如果 X、Y、Z 三個變量服從多元正態分佈，則偏相關係數 r_XY|Z 等於變量 Z 保持不變時，X 和 Y 的條件分佈的相關係數；而原始的相關係數 r_XY 則為 X 和 Y 的邊緣分佈的相關係數。兩個分佈同為二元正態分佈，後者為前者對不同 Z 的可能值的混合分佈。

以上只討論了一個混淆變量 Z 的情況。如果有多個變量 Z₁, Z₂, ..., Z_p-2 的影響需要消除，可以用矩陣形式重複上述推導，或在多元正態分佈的概率密度函數中令要消去的變量為常數，從而直接讀出協方差矩陣的逆矩陣 Σ^-1的矩陣元來計算多元偏回歸係數與偏相關係數。如果因變量 Y 離散取值，例如發生或不發生，或為其它分類變量，則可以用多元 logistic迴歸方法處理。

混淆變量的概述圖

詞條統計

瀏覽次數：次
編輯次數：4次歷史版本
最近更新： w_ou （2021-01-27）

1 認識混淆變量
2 貝葉斯公式: 2.1 公式原理; 2.2 一個案例
3 多元迴歸