名前はまだない

データ分析とかの備忘録か, 趣味の話か, はたまた

固定効果モデルに関するメモ

はじめに

こちらの共立出版の固定効果モデルを読みました。

感想としては以下のようになります。

  • 様々な固定効果モデルの気をつける場所が理解できる

  • 複数のパターンのモデルを比較解析をしてくれることで、各モデルの理解につながる

  • 細かいポイントの解説は物足りない部分あり

  • ページ数も少ないことからどちらかというと読み物の印象

固定効果モデルを利用する場合に、読んでいて損はない本だと思います。

今回は備忘録として簡単にポイントをまとめておきます。

連続変数におけるモデリング

固定効果モデルは次にように定義される

\displaystyle{
y_{it} = u_{t} + \beta x_{it} + \alpha_i+\epsilon_{it}
}

\alpha_i は時間によって変化しない観察されない全ての変数がyに及ぼす影響をまとめたものとみなすことができる。

  •  \epsilon _{it}は平均0, 分散が一定でyを除いた全ての変数と統計的に独立。

  • \alpha_i と時変予測変数のベクトル x_{it} との間にはどのような相関があっても良い

観測時点が二点の場合

一階差分をとることで\alpha_i を削除することができる。

\displaystyle{
y_{i2}-y_{i1} = (u_{2}-u_{1})+\beta (x_{i2}-x_{i1}) + (\epsilon_{i2}-\epsilon_{i1}
}

差分地に対してOLSを適用することで\betaの不偏推定量を得ることができる。

観測時点が3点以上の場合

各時刻tごとにt-1との一階差分をとることで\alpha_i を削除することができる。

各個人でt-1個の式ができることになる。

各個人内で誤差項同士が相関するためOLSでの推定では、不偏推定量が得られない。

誤差項の相関を推定し、そこからOLSを行い一般化最小二乗法(GLS)を用い推定する。

ランダム効果モデルとの比較

ランダム効果モデルは固定効果モデルと同じ方程式で定義される.

\displaystyle{
y_{it} = u_{t} + \beta x_{it} + \alpha_i+\epsilon_{it}
}

\alpha_i はある特定の確率分布に従う一連の確率変数とみなす。

個々の観測されない異質性が右辺の他の変数全てと独立であると仮定している。

ランダム効果モデルでは時定予測変数を含めた推定を行うことができる。

ハイブリットモデル

yは偏差を用いずに、変数を個人内平均との差とするモデル。

\displaystyle{y_{ij} = \beta_0 + \beta_1(x_{ij} -  \bar{x}_i) + \beta_2 \bar{x}_i+ \beta_3 z_i + \alpha_i + \epsilon_{ij}}

ハイブリッドモデルでは、固定効果モデルによって推定される個人内効果と固定効果モデルでは推定できない個人間効果を同時に推定することが可能となる。

その他の利点は次のようなものが挙げられる。

  • ランダム効果モデルと同様に,時間とともに変化しない変数の影響を分析することが可能
  • ランダム傾きモデルの類ていも可能になる
  • 3レベル構造や自己回帰構造のような複雑な誤差構造を持つモデルを推定することが可能になる

離散値におけるモデリング(ロジスティック回帰モデル)

固定効果ロジスティック回帰モデルは以下のようになる。

\displaystyle{
log \left (\frac{p_{it}}{1-p_{it}} \right )= \mu_t+\beta x_{it} +\gamma z_i + \alpha_i
}

ここでp_{it}は応答変数、x_{it}は時変予測変数、z_{i}は時定予測変数、\alpha_iは個人特性の効果を表す。

このモデルを条件付き最尤法により推定する。

固定効果ロジスティック回帰モデルでは、個人内変動のみを推定に用いるので、応答変数に変化がなかったサンプルは除外する。

観測時点が3期以上の場合

条件付き最尤法と一般化推定方程式(GEE)により推定する方法がある。

ハイブリッド法

固定効果ロジスティック回帰モデルでもハイブリッド法に拡張することができる。

条件付き最尤法とは異なり、プロビットや補対数対数といった他のリンク関数を用いることができる。

カウントデータににおけるモデリング

次のようなポアソン回帰モデルを用いる。

\displaystyle{
log \lambda_{it} = u_{t} + \beta x_{it} + \alpha_i+\epsilon_{it}
}

観測時点が二点の場合

2期間の総カウント数を用いてp_iと求める。

\displaystyle{
p_i= \frac{\lambda_{i2}}{\lambda_{i2}+\lambda_{i1}}
}

この関係を変換すると次のロジスティックモデルに帰着する。これを条件付き最尤法により推定する。

\displaystyle{
log(\frac{p_i}{1-p_i})=(\mu_2-\mu_1)+\beta (x_{i2}-x_{i1})
p_i= \frac{\lambda_{i2}}{\lambda_{i2}+\lambda_{i1}}
}

しかし、このモデルを推定したとしても過分散の状態に陥りやすく、信頼区間が過小に推定することがある。

そのため、信頼区間はジャックナイフ法やブートストラップ法により推定する。

また、負の二項回帰モデルを用いることで過分散を表現することができる。

(負の二項分布はポアソン分布の一般化であり、過分散の状態をパラメータで表現する)

3期以上のカウントデータ

条件付き尤度法や無条件尤度法の二つのアプローチがある。

条件付き尤度法では、尤度関数を各個人の全カウントの合計で条件づけることによって、固定効果(\alpha_i)を消去する。

結果として次式に比例する。

\displaystyle{
\prod_i \prod_t \left (\frac{exp(\mu_t + \beta x_{it})}{\sum_s exp(\mu_s + \beta x_{is})} \right )^{y_{it}}
}

ハイブリッド法

これまでと同様に各個人についての時変予測変数のそれぞれの平均を計算し、それらの平均値の偏差を求め回帰モデルを作成するハイブリッド法が適用できる。

書籍では負の二項回帰モデルのランダム効果モデルとGEEモデルを説明している。

生存時間モデル

ハザード関数を目的変数としてモデル化する。

h_{ik}(t)を個人iにとってk回目のイベントが発生するハザードとすると、比例ハザードモデルは次のようになる。

\displaystyle{
log h_{ik}(t) = \mu(t-t_{i(k-1)})+\beta x_{ik} 
}

t_{i(k-1)}は個人iについて(k-1)回目のイベントが発生する時間、\mu()は直前に起こったイベントから時刻tまでの時間を引数にとる不特定の関数である。

イベント発生が複数回ある場合に固定効果を組み込む

上記の比例ハザードモデルに固定効果\alpha_iを組み込むと次にようになる。

\displaystyle{
log h_{ik}(t) = \mu(t-t_{i(k-1)})+\beta x_{ik} +\alpha_i
}

しかし、\alpha_iを推定しようとするとバイアスが乗ってしまう。

そのため、時間の関数\muを個人間で変動するようにする。

\displaystyle{
\mu_i(t-t_{i(k-1)}) = \mu(t-t_{i(k-1)})+\alpha_i
}

これをもちいて比例ハザードモデルは次にようになる。

\displaystyle{
log h_{ik}(t) = \mu_i(t-t_{i(k-1)})+\beta x_{ik} 
}

これはいわば時間関数に固定効果を組み込むことが意味する。

Cox回帰モデルに固定効果を組み込むことで、同一の人物の中である時点でイベントが発生と、イベントが発生しない他の時点で状態を評価することになる。

背景情報の違う別の人物と比較するような状態を避けることができる。

欠点としては、イベントが一回しか発生していないサンプルは、除外する必要がある。

時刻T_{t=1}のタイミングでイベントは発生した場合は、比較のために同一サンプルの中でイベントが発生していない時刻T_{t=2}の情報が必要になるが、時刻Ttまで観測されていなかった場合は、比較対象がないため尤度の計算ができない。

このようにサンプルを削除することによって検定力が小さくなってしまう。

Cox回帰モデルのハイブリッド

本書では、理由はわからないが適切な推定ができないので利用を避けるようにとしている。

イベントが繰り返さない場合のモデル

イベントが死亡のような繰り返し観測できない場合は、クロスオーバー研究と呼ばれる方法を採用しないと行けない。

参考