はじめに

先日、感度分析に関する記事をあげました。

saltcooky.hatenablog.com

この内容を調べている際に、以下の論文を見つけました。

arxiv.org

この論文では、Imbens(2003)で提案されていた感度分析を一般化しています。

面白そうだったので、読んでメモにしました。

概要

Imbens(2003)の感度分析を一般化を行う
未観測共変量の影響を可視化するAustin Plotを提案
機械学習を用いた因果推論でも適用することができる
実行コードはGithubで公開

github.com

イントロ

因果推論を行う時、未観測の共変量による影響を評価するための方法として感度分析がある。 imbensは未観測共変量の影響を含む関係を次のようにモデル化している。

しかし、パラメトリックモデルであり近代的な機械学習を用いたノンパラメトリックなモデルによる因果推論では使えない。

論文の目的

感度分析と観測データのモデル化を完全に切り離すこと
Imbensの感度分析法を応用して、任意のモデルでの分析可能にすること
Imbensのアプローチを応用したAusten Plotを紹介すること

Austen Plotの例

f:id:saltcooky:20210801023227p:plain:w500

その貢献点

解釈が容易で、必要なバイアス計算が扱いやすい生成モデルを提案
影響力の尺度を標準化するリパラメタリゼーションを導入し未観測交絡因子の影響力を推定する方法を提案
AustenプロットがImbensのアプローチの重要な要素を保持し、実世界のデータにおける未観測交絡因子に対する感度についての情報を提供

Austen plotの利点

妥当性の判断は、直接解釈可能な量、すなわちYとTに対する交絡の影響の合計で行われ、未観測交絡因子の詳細な性質に依存しない
未観測交絡因子は1つでも多くてもよく、どのような分布でもよい
未観測交絡因子の強さを、観察された共変量の強さと直接比較することができる
この方法は完全に事後的なものであり、分析者は観察されたデータをモデル化する際に感度分析のことを考慮する必要はない

基本設定

平均因果効果：

$\displaystyle{ ATE = E[Y | do(T = 1)] − E[Y | do(T = 0)] }$

共変量の調整により得らた処置効果：

$\displaystyle{ \tau = E [ E [Y | X, T = 1 ] − E [Y | X, T = 0 ] ] }$

傾向スコア：

$\displaystyle{ g(x) = P(T = 1 | X = x) }$

条件付きアウトカムモデル：

$\displaystyle{ Q(t, x) = E [Y | T = t, X = x ] }$

最近だと機械学習モデルを用いる場合がある

上記のモデルを用いた処置効果:

$\displaystyle{ \hat \tau^Q = \frac{1}{n} \sum \hat Q(1, x_i) -\hat Q(0, x_i) }$

観察されていない交絡がある場合、 $\tau$ はATEと一致せず $\hat \tau$ は偏った推定値となる。 ATEに関する推論は、2つのタスクに分かれます。

統計的な作業として観測されたデータから可能な限り正確に $\tau$ を推定する
バイアス＝ATE- $\tau$ を評価する

未観測交絡によって引き起こされるバイアスを推論することも今回の課題としている。

モデル化

Sensitivity Model

仮定したSensitivity Modelは次のようになる。

傾向スコアモデル：

$\displaystyle{ \tilde{g}(X,U) | X ∼ Beta(g(X)(1/\alpha−1),(1−g(X))(1/\alpha−1)) }$

介入モデル：

$\displaystyle{ T | X,U ∼ Bern(\tilde{g}(X,U)) }$

結果変数モデル：

$\displaystyle{ E[Y | T, X,U] = Q(T, X) + \delta (\rm{logit} \tilde{g}(X,U) − E[ \rm{logit} \tilde{g}(X,U) | X, T]) }$

バイアスについて

このSensitivity ModelのATEは次のように導かれる。

$\displaystyle{ ATE = E[Q(1, X) −Q(0, X)] + \rm(bias) }$

そして、バイアスは次のようになる。

$\displaystyle{ bias = \delta (E[\rm{logit} \: \tilde{g}(X,U) | X, T = 1] − E[\rm{logit} \: \tilde{g}(X,U) | X, T = 0]) }$

仮定したSensitivity Modelの元では、次のようになる。

$\displaystyle{ bias = \delta E [ \Psi ( g(X)(1/\alpha − 1) ) + 1− \Psi ( (1 − g(X))(1/\alpha − 1) ) − \\ \Psi ( g(X)(1/\alpha − 1) ) + \Psi ( (1 − g(X))(1/\alpha − 1) + 1) }$

ここで $\Psi$ はディガンマ関数。

実際には、 $\hat Q$ と $\hat g$ のモデルを推定し、期待値を平均値に置き換えることで交絡によるバイアスを推定する。

Reparameterization

未観測変数の結果変数への影響度は次のように定義する。

$\displaystyle{ R^2_{Y ·Z|T,X \backslash Z} = \frac{E(Y − E[Y | T, X \backslash Z ])2 − E(Y − Q(T, X))^2}{E(Y − E[Y | T, X \backslash Z ])^2 } }$

割り当て変数への影響度は偏決定係数と同じような定義は行わない。なぜなら、 $\alpha$ はすでに解釈可能であり、固定された単位のない尺度であるため。

割り当て変数への影響度は次のように定義する。

$\displaystyle{ \alpha = 1- \frac{E [ \tilde{g}(X,U)(1 − \tilde{g}(X,U)) ]}{E [g(X)(1 − \tilde{g}(X)) ]} }$

オーバーフィッティングによる問題を回避するために、クロスバリデーションを用いて $Q(t_i, x_i)$ および $g(x_i)$ を推定する。

Calibration using observed

実際には観測変数を用いた未観測変数の結果変数への影響度は次のように定義する。

$\displaystyle{ R^2_{Y ·Z|T,X \backslash Z} = \frac{ \frac{1}{n} \sum_i (y_i − \hat Q_Z(t_i, x_i \backslash z_i ))^2 − \frac{1}{n} \sum_i (y_i − \hat Q(t_i, x_i ))^2} {\frac{1}{n} \sum_i (y_i − \hat Q_Z(t_i, x_i \backslash z_i ))^2} }$

観測変数を用いた未観測変数の割当変数への影響度は次のように定義する。

$\displaystyle{ \alpha = 1- \frac{\frac{1}{n} \sum_i \hat {g}(x_i)(1 − \hat {g}(x_i)) }{\frac{1}{n} \sum_i \hat {g}_{X \backslash Z}(x_i \backslash z_i)(1 − \hat {g}_{X \backslash Z}(x_i \backslash z_i)) } }$