名前はまだない

データ分析とかの備忘録か, 趣味の話か, はたまた

調査観測データの統計科学(傾向スコアのモデリングにおける共変量選択)

前書き

二年前ぐらいに前に、Qiita上で書いて公開していなかった内容を、今更ですがこちらであげます。

はじめに

岩波書店の確率と情報の科学シリーズの星野崇宏 著「調査観測データの統計科学」を読んでいき、まとめていってます。

1章 「調査観測データの統計科学(1)

2章 「調査観測データの統計科学(2)

3章A 「調査観測データの統計科学(3)

3章B 「調査観測データの統計科学(二重にロバストな推定/操作変数法)

3章C 「調査観測データの統計科学(回帰分断デザイン/DID推定)

今回は、第4章「共変量選択と無視できない欠測」についてです。

隠れた共変量によるバイアス

適切に因果効果を推定するにあたり、共変量は全て観測されている状態である必要があります。 しかし、実際の観測データでは全ての共変量は観測されていない可能性が高いです。 観測されていない共変量が存在するとき、傾向スコアを用いて推定した因果効果もバイアスがのってしまいます。

ここで、次のような線形回帰モデルの場合のバイアスの存在を確認していきます。

 \displaystyle{
y_{ij} = \alpha_j + \beta^t_j x_i +\epsilon_{ij} (j=1,0)
}

本来の因果効果は次のように表現されます。

 \displaystyle{
E(y_1-y_0) = \alpha_1 + \alpha_0
}

しかし、実際に得られる単純な群の差の期待値は次にようになります。

 \displaystyle{
E(y_1|z=1)-E(y_1|z=0) = \alpha_1 + \alpha_0 +\beta^t [ E(x|z=1)-E(x|z=0) ] +E(\epsilon_1|z=1)-E(\epsilon_1|z=0)
}

ここで、3番目の項は共変量に起因する潜在的なバイアス、4,5番目の項は隠れたバイアスをと呼びます。

前者は共変量の期待値が2群で共通であれば0です。 後者は誤差変数の期待値が2群で等しければ0です。

このようにこのような条件が満たされなければ、本来の因果効果を求めることはできません。

また、隠れた共変量\omega_iがあると仮定しることで、誤差項は次にように分解することができます。

 \displaystyle{
\epsilon_{ij}=\nu_{ij}+\gamma\omega_i
}

もし、誤差の期待値が0だったとしても、次のように観測される誤差項の期待値は0となりません。

 \displaystyle{
E(y_1|z=1, x) = \gamma^t E(\omega|z=j) \neq 0
}

共変量の選択

全ての共変量を用いない分析にはバイアスが生じてしまうことを説明してきました。

しかし、実際の分析では、観測値のうち共変量となるものはどれかはわからないことが多いです。

そのため、共変量の選択が重要になってきます。

共変量は、割り当て変数のモデリングを行う際の説明変数に用いる場合が多いです。

そのため、共変量は割り当て変数と関連の強い変数を用いられることが多いようです。

解析の目的は因果効果E(y_1-y_0)、または結果的な潜在変数y_1,y_0の周辺分布の母数推定であり、共変量を用いて結果変数を説明できることが重要です。

そのため、共変量は結果変数と関連が強い変数を選択することで、因果効果の推定の偏りが少なく、推定量の分散が小さく(=検出力が高く)することができることがシミュレーションにより確認されています。

また、割り当て変数と関連が強くても、目的変数と関連が弱い変数を共変量として選択した場合、推定の偏りはあまり変化しませんが、推定の分散が大きくなってしまい、平均二乗誤差が大きくなることも確認されています。

IPW定量や二重にロバストは推定量において、割り当て変数と関係がなく、結果変数に強い関連がある変数を共変量としてもちいることで、因果効果の推定量の漸近分散を小さくすることができるそうです。

ここで、共変量選択を行う場合に多重共線性が議論される場合あります。多重共線性が存在する場合の傾向スコア算出するためのモデリングの偏回帰係数の解釈は難しくなりますが、因果効果の推定の際には偏回帰係数の解釈には関心がないため、多重共線性はあまり問題になりません。

また、サンプルサイズが十分あれば偏回帰係数の推定の分散は小さくなることからも、あまり問題ではないとされています。

共変量選択では因果効果の推定が可能になるためには、全ての共変量が観測できている=強く無視できる割り当て条件が成立している必要があります。 しかし、この条件を直接検証することは不可能です。

妊娠中の母親の喫煙が子供の流産や低体重出産を引き起こすのかを検証した研究(Hoshino, 2008)においては次にような手順を踏んで共変量選択を行なっています。

1. 従属変数と関連のある変数を選択

共変量の候補となる変数で従属変数を説明する回帰分析モデルを作成し、偏回帰係数を基準に変数を絞り込む。

2. 割り当てと関連がある変数を選択する

ロジスティック回帰分析で1で絞り込んだ変数を1つずつでモデルを作成する。

この時の決定係数を指標として変数を絞り込み、共変量とした。

3. 共変量による割り当ての説明力のチェック

絞り込んだ共変量を全てロジスティック回帰分析の説明変数として投入する。

正答率が70%以上の適合度があることを確認する。

この適合度に関してはAUCが0.8以上あると良いとのこと。

(個人的には目安はあまり参考にしていないです。共変量が調整できるかどうかを重視してます。)

4. 共変量そのものを調整する

絞り込んだ共変量を利用して算出した傾向スコアによるIPW定量を用いて処理群と対照群で差があるかどうかの検定を行う。