名前はまだない

データ分析とかの備忘録か, 趣味の話か, はたまた

書籍紹介「効果検証入門〜正しい比較のための因果推論/計量経済学の基礎」

はじめに

すでに一部の書店や電子書籍では発売されていますが、1月18日に技術評論社から「効果検証入門〜正しい比較のための因果推論/計量経済学の基礎」が発売されました。

著者はサイバーエージェント AILabの経済学チームのリーダーの安井さん、監修はホクソエムです。

効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

  • 作者:安井 翔太
  • 発売日: 2020/01/18
  • メディア: 単行本(ソフトカバー)

あるご縁でこちらの書籍の執筆時のレビューに、因果推論の初学者という立場ですこ〜〜〜しだけ参加させていただきました。

実務や研究等で実際に効果検証/分析ができることを目指しており、入門書としては内容が充実した、非常に良い本だと思います。

仕事で効果検証を行いたいと考えている人、計量経済学を学び始めた人、データ分析に興味が出てきた人など、様々な方に対しておすすめできる本です。

今回は、簡単に内容とおすすめポイントを紹介しようと思います。

が、書きたいこと多くて思ったより長めです笑 読みにくい部分も多いです...あしからず。

内容紹介

日々様々な場面で「効果」という言葉を見たり聞いたりすることがあると思います。

「このように子供と接すると成績をあげる効果がある」「ここに広告を出すとこれだけの売上効果が見込まれる」「あのダイエット法は何も効果がなかった」etc...

これらの効果とは、本当にその施策や行動による結果なのでしょうか。もしかしたら思い込みによるものかもしれません。

そのため、多くの企業や研究においてデータ分析による効果検証を行うことで、妥当な効果があるのかを確認しています。

しかし、そこには落とし穴があったり、不適切な効果検証を行われてたりしていることが多いです。

本書は、効果検証における基本的な方法論や落とし穴を理解し、実務や研究において適切な効果検証を行っていくことを目指しています。

効果検証を適切に行うには、因果推論や計量経済学の知識が非常に役に立ちます。

これらの分野の書籍の多くは、理論的な内容に偏りがちで初学者にはとっつきにくいことが多いです。

一方で、本書のコンセプトとして安井さん自身が因果推論をはじめたころの時の自分に向けた、初学者にわかりやすい内容にしようという考えがあります。

そのため、因果推論/計量経済学の理論の詳細よりも、活用を目指してバイアスを除くための考え方や各手法で行えること、気をつけるべきことの理解を重視しています。

このような内容の書籍は、なかなかなかったと思います。

本書で紹介しているのは、効果検証に必要な概念や計量経済学で代表的な手法です。

目次は以下の通りです。

  • 嘘っぱちの結果とそれを見抜けないデータ分析
  • 1章 セレクションバイアスとRCT
  • 2章 介入効果を測るための回帰分析
  • 3章 傾向スコアを用いた効果の推定
  • 4章 差分の差分法(DID)とCausalImpact
  • 5章 回帰不連続デザイン(RDD)
  • 付録 RとRstudioの基礎
  • 因果推論をビジネスにするために

紹介している各手法を利用して、実際のデータを用いたRによる分析を行っています。

  • ダイレクトメールによって売り上げは上昇したのか
  • 大規模な禁煙キャンペーンは、タバコの売り上げにどの程度影響があったのか
  • 学費の割引券の配布が就学にどのような影響があったのか

それぞれの分析では、段階を追って丁寧に分析を行い、気をつけるべき点についても解説がなされています。

そのため、実際に自分でデータ分析を行う際の参考になります。私も非常に参考にさせていただきました。

ちなみに"私はpython派なんだけど"という方はこちらのブログを参考にされると良いかもしれません。

qiita.com

次に、それぞれの章の内容とおすすめポイントを簡単に紹介しようと思います。

1章 セレクションバイアスとRCT

効果検証/因果推論を行っていく際に最も重要な現象/考えの一つに、セレクションバイアスがあります。

セレクションバイアスとは、観察する対象や介入群に割り振られる集団が、母集団の状態とは異なる偏った状態であるために発生するバイアスです。

実務においてセレクションバイアスを潜在的には気にしている人も多いですが、きちんと理解し対策を適切に考えている人は少ないのではないのでしょうか。

本書では、このセレクションバイアスはどのような時に発生し、なぜ気をつけてかないといけないのかを、メールマーケティングを例に丁寧に説明しています。

そして、理想的な効果検証の方法であるランダム化比較実験(RCT)も紹介しています。

現在RCTは、A/BテストとしてWEBサービスにおけるUI等の施策評価によく使われています。

しかし、A/Bテストでなぜ因果効果が推定できるかや気を付けるべき点については、あまりフォーカスされないような気がします。

なぜ、A/Bテストが理想的な効果検証の方法であるのかを理解するのに一助になると思います。

2章 介入効果を測るための回帰分析

回帰分析による因果推論のついて詳しく説明されています。

一番好きな章かもしれません。

最近見かける因果推論をテーマにした書籍では、回帰分析による因果推理についてわかりやすく紹介しているのは見かけないなと個人的には思っています。

その中でも、脱落変数と呼ばれている本来モデルに必要だが含まれていない変数についても紹介しています。

この脱落変数が因果効果の推定に与える影響や、どのような脱落変数をモデルに加えればより良い因果効果の推定ができるのかを詳しく説明しています。

また、実際に回帰分析を行う際に出てくる気になる点についての解説もおこなっており、この章は実務で回帰分析を行う全ての人の手助けになると思います。

3章 傾向スコアを用いた効果の推定

傾向スコアによる分析は、近年色々なところで紹介されていると思います。

この手法は介入確率である傾向スコアを用い、介入群の共変量(背景情報)を調整することで、純粋な因果効果を推定しようとする手法です。

この傾向スコアを用いた分析の基本的なアイディアから実際に用いるところまで、丁寧に説明が行われています。

特筆したいのは、傾向スコアによる重み付けが何を意味しているのかの直感的な説明があるという点です。

この直感的な説明を行っている書籍等はなかなかなかったと思います。

この直感的な意味合いを理解しておくことは、実際の傾向スコアを用いた分析の手助けになると考えています。

4章 差分の差分法(DID)とCausalImpact

差分の差分の分析とそれを応用したCausalInpactを紹介しています。

差分の差分の分析は、複数時点で観測されるデータを用いて施策の効果を測る代表的な分析方法です。

また、CausalImpactはGoogleが提供している、差分の差分の分析を応用した分析手法です。

これらは比較的簡単に適用できる手法であると思います。しかし、そこには強い条件が存在しており、実務でその条件にどのように対応していくかや気を付ける点が紹介されています。

5章 回帰不連続デザイン(RDD)

回帰不連続デザイン(RDD)は、介入が特定の閾値で決定される場合に介入の因果効果を推定する方法です。

RDDで推定できる因果効果は、閾値付近のデータで決まってしまうという特徴も紹介しています。

また、閾値付近のデータが変化した時に推定される因果効果がどのように変化するのかまで説明しています。

RDDを簡単に紹介している書籍やブログ記事等では、ここまで説明している場合は少ないと思います。

実際にある企業でRDDを用いて行った分析も紹介しており、こちらも参考になりました。

最後に

簡単に内容とおすすめポイントを紹介させてもらいました。

少しでも興味を持っていただければと思います。

本当に良い本だと思いますので、気になる方は一度書店などで中身を確認してみてください。

(あと、たくさん売れたとしても、私の懐に入るものはないです笑)