名前はまだない

データ分析とかの備忘録か, 趣味の話か, はたまた

開発経済学におけるランダム化比較実験を覗いてみました

はじめに

今年のノーベル経済学賞は、開発経済学と呼ばれる途上国の経済問題を分析する分野の研究者三名が受賞をしていました。

www.newsweekjapan.jp

3人の研究成果には、インドの学校における個別の補習指導や、世界各国政府への予防的医薬品向け支出拡大の呼び掛けなどの取り組みなどがあります。

ミーハーなので、受賞者の二人の書籍を読みました。

ランダム化比較実験におけるバイブルのような書籍であると呼ばれているようです。

重要なエッセンスがまとまっていると感じました。 簡単にまとめたいと思います。

(誤字脱字が残ったままなので、少しづつ修正します。あと、てにおはぐちゃぐちゃ)

ランダム化比較実験

なぜランダム化が必要なのか

因果推論を考えるときに、反実仮想を考える必要がある。

反実仮想の問題を考えるときに付き纏うのが選択バイアス。 選択バイアスと、 実験や調査の対象となった集団が、母集団を正しく代表できていないときに起こる偏りである。

例えば、臨床試験などで参加者を募集すると、健康に自信のある人や疾患に関心のある人が集まり、母集団の性質から外れてしまうバイアスが挙げられる。

選択バイアスの正負や大きさは測定することは一般的に不可能である。

多くの実証研究の本質的な目的は選択バイアスがない状態を見つけるか、選択バイアスの修正方法を発見することが多い。 ランダム化比較実験以外に選択バイアスを除いて効果を推定する方法として、傾向スコアによるマッチングや回帰分断デザイン、差の差分析などが代表的。

本書では、これらの手法は紹介に留まっていました。

介入群に割り当てられて個人によって対称群の介入に関係ない(SUTVAの)場合に、ランダムに割り当てることで選択バイアスを0にすることができる。

出版バイアス

出版バイアスとは研究者や編集者、政策立案者が統計的に有意な結果や特定の指定や結果を好み、それらの結果のみが公開されることにより発生するバイアス。

詳しくはWikiで。

実験設計

パートナーの重要性

政策評価のようなプロジェクトは大規模になることが多く、1人でプロジェクトの全てを進めれることは少なく、パートナーが重要になってくる。 ここでのパートナーとは、プロジェクトを共同で進めてくNGOのような組織、対象となる地域の行政府などが挙げられる。

政府と連携する場合、大規模な実験ができ、実際の政策に反映されるようなメリットが考えられる。 NGOと連携した場合は、実験設計の細かい部分まで関われるようなメリットが考えられる。 実際は、政府と連携するような取り組みは少なく、NGOと協力することが多い。

特殊なRCT

実施のプロジェクトでは、単純な設計では難しい場合があり、次のような問題が存在し、また、対応方法が検討されている。

応募超過法

予算やキャパシティの制約から規模を限定せざるおえない場合、希望者の中からランダムに介入群に選択する この方法でランダム化した場合、実験希望者のみが分析対象とするため、効果の外的妥当性について注意しなければならない

段階的導入の順番のランダム化

予算やキャパシティ、政策をおけるグループと受けないグループで不平等の課題が起こる場合があります。 このとき政策の導入の順番をランダムに行っていく方法が用いられる。 段階的に導入するスピードが早すぎると長期間の効果の測定が難しくなることがあるのは気をつけなければならない。

グループ内ランダム化

全ての対象者をランダム化することが難しい場合や, グループ内のランダム化が受け入れられない場合が存在する。 例えば、小学3年生においてランダムに教育プログラムを実施しようとすると、不公平性が生まれ山道が得られない その場合、ある学校では小学3年生に介入を行い別の学校では4年生に介入を行うようなグループ内ランダム化を行うことが対処をして考えられます。

奨励設計

理論的な問題や実務的問題から政策をランダムに割り当てることが難しい場合、制作自体をランダムに割り当てるのではなく、政策の奨励をランダムに割り当てる。 政策への参加とアウトリーチの両方に関心がある場合は、特に有効な方法となる。

サンプルサイズと実験設計

処置の効果は次のような回帰モデルで表現できる。


Y_i = \alpha + \beta T +\epsilon_i

 \betaは、平均処置効果の推定値です。

処置は1種類のみであり、サンプルのうち比率Pにあたる対象者に処置を行うと仮定する。また観測値が分散  \sigma ^2 のi.i.dであると仮定する。

 \hat \betaの分散は次式で与えられます。


\frac{1}{P(1-P)} \frac{\sigma^2}{N}

検出力\kappaを得るためには次の式を満たさないといけません。


\beta > (t_{1-\kappa}+t_{\alpha})SE(\hat \beta)

ここでt_{1-\kappa}はt分布表により定められる値です。 そして、検出可能な最小の処置効果(Minimun Detectable Effect:MDE)は、 片側検定を考える場合は次のように与えられます。


MDE = (t_{1-\kappa}+t_{\alpha})*\sqrt{\frac{1}{P(1-P)}}\sqrt{\frac{\sigma^2}{N}}

このMDEは、グループ化した場合や不完全コンプライアンスの場合にはまた異なった内容となる。 そして、求める検出力や有意水準、MDEからサンプルサイズを推定する。

制御変数と層化

<あとで追記>

実際の調査設計における注意点

ランダム化の単位

ランダム化する単位を個人、グループ、街などのどのスケールで行うかが重要です。

  • ランダム化の対象とする集団が大きくなるほど必要な検出力を得るためには、より大きなサンプルサイズが必要になる
  • 処理群から対象群への波及効果がある。 Miguel&Kremer(2004)では、虫下し薬の効果を調べるためにある地域で個人単位でランダム化を行なった。 しかし、処理群の子供において寄生虫感染症にかかる人が減ったことで、対象群における感染症をばらまく存在が少なくなったことにより感染症にかかる子供の数が減ってしまい、適切な効果を推定することはできない。

  • 個人単位で介入するよりも集団単位で介入した方が、費用対効果が大きくなりやすい。 特に固定費用が大きな割合をしめる場合には、一部の人のみ介入する時と集団に介入するときで費用がほとんど変わらないようなことが起こる。

その他の個人単位の介入の問題点

  • 処理群に割り当てられた人が対称群の人から反感をもられる可能性がある
  • また、プログラムを実施する機関に対しても反感を持ってしまう可能性がある
  • 個人への処置状態を厳しく監視するより集団を監視する方が楽なことが多い

横断的手法について

RCTが受け入れられている要因の一つが、同時に複数の処理について評価ができると言うこと 補習教育とコンピュータ利用の支援といった介入の意味が大きくことなる=介入の効果が独立と考えられる検証における方法 補習教育の処置群においてプログラムの処置状態に応じて層化し、半数のサンプルでコンピュータ利用の支援を行なったしていた この時得られる補習教育の処理効果は「半数の学校においては、コンピュータ支援による学習プログラムも導入された」と言う条件付きの効果となる あるプログラムの実施に合わせて全く別の観点の別のプログラムの介入効果の検証も行える

データ収集

最終的な結果のばらつきを減少させることを考える場合に、制御変数を見つけておくことが重要。 そのために、事前調査を行うことが望ましい。 その他のメリットが挙げられる。

  • 初期条件とプログラムの効果との間に存在する相互作用について検討できる
  • 事前調査の後にランダムかが適切に実施されたかどうかを確認できる
  • 事前調査におけるデータ収集を通じて、本調査におけるデータ収集プロセスが妥当かどうかを検証し、場合に応じて改良できる

完全なランダム化が行われない場合/推論における問題

割り当て率が層別に異なる場合。

町ごとに割り当て人数が一定に決まっている場合、町の人数が異なると介入割合が異なることになる。

不完全コンプライアンス

処理群に割り当てられるも処理を受けない対象がいる状態。

例えば、薬が配られたが飲まなかった人がいる、定期開催されるプログラムに最初は参加していたが段々参加しなくなった人がいるような状態が挙げられる。

<あとで追記>

外部性

処理を受けない被験者にも処置効果による影響を受ける波及効果が発生すること。 波及効果がある場合は、いかなる方法を用いても処置効果を適切に推定することは難しい。

波及効果自体に関心がある場合、その規模を推定する場合には特別な設計をする必要がある。 例えば、ある大学における累税繰越口座に関する情報提供の効果を評価する実験において、学部ごとに処置群と対称群にランダムに分ける。 その後、処置群を説明会への参加インセンティブをランダムに割り当てた。 これにより実験者は、インセンティブが原因で説明会に参加したことによる直接的な効果とインセンティブが提供された学部に所属することによる波及効果の両方を測定することができす。

脱落

サンプルの一部の被験者からデータを収集できない状態。 ランダムに起こる脱落は検出力を下げるだけだが、脱落が処置と相関している場合、推定された効果にバイアスがのる可能性がある。

例えば、プログラムの恩恵を受けにくい被験者の脱落が多い場合は、処置効果を過剰に見積もってしまう。 プログラムを受け続けてもらうような働きかけや、脱落者となるような傾向のある被験者について事前調査が必要になる。 脱落により発生するバイアスを統計的に調整する方法も存在する。

複数アウトカム

アウトカムが複数考えられる場合は、多重比較を行う必要がある。 この時、ボンフェローニ補正を行う必要がある。

サブグループ化

事前に考えられるサプグループを把握しておくことが重要 サブグループではサンプルサイズが小さくなってしまい、検出力が下がる可能性があることに気を付ける データを集めた後に新しいサブグループの切り口が見つかった場合は、どうするか? 恣意的なサブグループ分割を誘発してしまう可能性が捨てきれないし、補正を行うことが不可能せあるため、標準誤差の計算を正確にすることができない。

RCTから得られた効果の一般化

部分的な効果と一般的な効果

基本的には一部の対象者のみに実験を行なっているため、全体的に効果(一般的な効果)が出るかがわかりません。 例えば、北海道札幌市で得られた効果が東京都八王子市でも同じ結果が得られるかはわからないです。 また、サンプルの選び方においても完全にランダムに行われるわけではなく、協力が得られやすい地域を選び、その中でランダムな割り当てを行なったりしているため選択バイアスが存在している 対策としては、

  • 異なる母集団で再度実験を行う
  • 何らかの行動理論を元に「AやBの場面で上手く機能したので、Cの場面でも機能するだろう」と判断する

ホーソン効果とジョンヘンリー効果

ホーソン効果とは、処置群に割り当てられたことにより発生しまう行動変化が引き起こす効果です。 ジョンヘンリー効果とは、対称群に割り当てられたことにより発生する行動変化が引き起こす効果です。 このような効果を加味するために、Duflo&Hanna(2006)ではプログラムの正式な実験期間が終わった後、1年間にわたり効果の観測をし続けました。 結果として、プログラム期間中と効果は変化しなかったためホーソン効果がないことがわかった

また、Ashraf&Karlan&Yun(2006)では、貯蓄を促すプログラムの効果を検証する実験において、処置群のプログラムの途中経過を確認する実験チームの訪問がホーソン効果に当たる可能性があると考えました。 そのため、対称群の半分に対しても実験チームの訪問を行いました。 結果としては、回帰分析により実験チームの訪問の効果には統計的優位性はなかったことがわかっています。

終わりに

どれも実際のフィールドで実験を行う際に直面する課題であり、明確な方法論がなく現象やバイアスを適切に見極め設計をしていかないといけないなと 感じました。

政策評価のような大規模なランダム化比較実験を行うことは少ないと思いますが、ランダム化比較実験を行う場合はまた、この本を開きたいと思います。

最後に、実験設計の重要性は理解できましたが、それぞれの施策をどのように思いつくのかなと思いました。

この点に関しては、その分野の有識者の知見等が重要になってくるのでしょうかね。