名前はまだない

データ分析とかの備忘録か, 趣味の話か, はたまた

TensorFlow Probabilityで潜在ラベルモデルの実装

はじめに 年末年始にこちらの書籍を読みました。 Pythonではじめるベイズ機械学習入門 (KS情報科学専門書)作者:森賀新,木田悠歩,須山敦志講談社Amazon 今まではベイズ推定を行う際にはRstanを用いていましたが、pythonでの実行方法を学ぶことができ…

動的トリートメントレジメンを推定するDynTxRegimeパッケージ

はじめに 動的トリートメントレジメンに興味があり、こちらの講座を受講しました。 https://seminar.no-spare.com/product/241213 そちらで動的トリートメントレジメンを推定するDynTxRegimeを習いました。 復習も兼ねて動的トリートメントレジメンについて…

geostanの実行メモ

はじめに 以下のパッケージが面白そうなので、触れてみることにした。 connordonegan.github.io こちらのパッケージは空間分析のための機能やツールを提供する。 以下のような機能を提供している。 空間分析のツール 統計処理 空間モデリング 欠損及び打ち切…

EconMLのDynamic Double Machine Learning

はじめに EconMLのドキュメントを見ているとパネルデータに対するDouble Machine Learningの手法が実装されていたのが、気になりました。 今後利用できる場面がありそうなので、まとめておきます。 Dynamic Double Machine Learning Dynamic Double Machine …

BART:Bayesian Additive Regression Treesについて

はじめに 条件付き平均処置効果を算出する因果推論コンペ等で良い成績を収めている手法としてBayesian Additive Regression Trees(BART)が有名です。 BARTについて名前以上のことを理解していないので、調べて簡単にまとめました。 arxiv.org

Double Machine LearningについてとEcomMLでの実行

はじめに 機械学習モデル等を用いた因果推論手法であるDouble Machine Learningについて、表面的には理解していましたが、詳しい部分まで知らなかったためいくつかのドキュメントを読みました。 簡単にまとめたいと思います。 ベースはMSのEconMLのページを…

生存時間分析のシェーンフィールド残差について

はじめに 前から気になっていたこちらの書籍を読みました。 イベント・ヒストリー分析 (計量分析One Point)作者:Paul D. Allison共立出版Amazon 行間が怪しい部分も多かったですが、このシリーズらしく様々な要素を解説しているので、新しく知れる視点もあり…

Surrogate indexについて調べて簡単にまとめる

はじめに こちらの記事でSurrogate indexについて初めて知りました。 developers.cyberagent.co.jp Netflixでも活用されていて、一定の成果を上げているようです。 arxiv.org 業務で扱う課題を解決してくれる可能性があったため、理解しておきたいと思いまし…

Staggered DIDの利用の感どころを簡単に確認

はじめに こちらでStaggered DIDを初めて知りました。 blog.brainpad.co.jp 介入タイミングが異なる場合のDIDということで、実務でも利用シーンがありそうな問題設計だと思いました。 簡単にまとめたいと思います。 概論 元の論文は以下になります。 arxiv.o…

カオス時系列解析の基礎 with R

はじめに 気になっていたこちらの書籍を読みました。 非線形時系列解析の基礎理論作者:平田 祥人,陳 洛南,合原 一幸東京大学出版会Amazon 元々学生の時に少し齧った内容だったので、非常に楽しかったです。 12章仕立てで様々な話題を広く薄く扱っており、読…

【RStan】FIBA W杯の日本代表って組み合わせ次第で2ndラウンド行ける可能性あったんじゃね?をデータで検証

はじめに FIBA W杯が開催されて日本代表の活躍が話題になりましたね。 私も現地までは行けませんでしたが、テレビの前で応援していました。 また強化試合は数試合に参加しました。 特にスロベニア戦は日本ベンチ裏の席がとれでテンションあがってましたね。 …

Immortal time bias(不死時間バイアス)の確認と対処を簡単に

はじめに target trial emulationについてまとめた中で不死時間バイアス:Immortal time biasを知りました。 Rのコードは以下の記事をかなりパクる参考にさせてもらっている。 moratoriamuo.hatenablog.com moratoriamuo.hatenablog.com 不死時間バイアス フ…

Target trial emulationについて簡単にまとめる

はじめに Target trial emulationという考え方を少し前に知りました。 www.krsk-phs.com 面白そうなので、メモとしてまとめておきます。 (上記を中心とした参考資料の方が適切でわかりやすいのそちらを参照されたし) Target trial emulation Target trial em…

今年読んでよかった書籍 三冊

はじめに 今年も早かったですね。 正直今年はそんなに本を読んでないです。 その中でもよかった書籍を三冊紹介しときます。 1:計量経済学 計量経済学---ミクロデータ分析へのいざない作者:末石 直也日本評論社Amazon わかりやすいと評判であったため、読ん…

【論文要約】Interpretable Personalized Experimentation @KDD2022

はじめに 以下の論文が気になったので、ざっと読んでみたのでまとめます。 arxiv.org 概要 複数の個別処置効果HTEを推定し施策の最適化を行いたいが、用いられるモデルはブラックボックスになることが多い 複数のHTEモデルを一つのマルチタスク決定木に蒸留…

Wild Bootstrapの基本について

はじめに 最近、こちらの書籍を読みました。 計量経済学---ミクロデータ分析へのいざない作者:末石 直也日本評論社Amazon わかりやすい理論の説明に合わせて、実際のデータ分析行う際の視点に立った解説が端々にあり、非常に良い本でした。 その中で、第8章…

xgboostによる多重代入法:mixgb パッケージ

はじめに twitterで以下のツイートを見かけました。 R :: mixgb https://t.co/TuD7bEU9hTmixgb は XGBoost を使用した多重代入法の R XGBoost による予測値に対して,predictive mean matching (PMM) で補完をしており,https://t.co/BYkjF6eg0Eにあるような…

Targeted Maximum Likelihood Estimation:TMLEについて

はじめに 数年前のセミナーか学会でTMLEの概要の説明を聞いたことがあります。 しかし、詳細については理解していないため、今回簡単にまとめたいと思います。 概要 このページが非常に丁寧に方法論と手順を説明していました。 www.khstats.com 特にこちらの…

MetaのMMMパッケージ Robynを試してみる

はじめに 概要 Robynを試す インストール モデルの設定 モデルの推定 パレート最適な投資内容を抽出 アロケーションの最適化 投資額を設定したアロケーションの最適化 所感 参考 はじめに Metaが開発しているMMMパッケージの存在を知りました。 github.com f…

固定効果モデルに関するメモ

はじめに こちらの共立出版の固定効果モデルを読みました。 固定効果モデル (計量分析One Point)作者:Paul D. Allison共立出版Amazon 感想としては以下のようになります。 様々な固定効果モデルの気をつける場所が理解できる 複数のパターンのモデルを比較解…

Synthetic Difference in Differencesに触れてみる

はじめに もしかしたら今の課題に使えるんじゃないかと思い調べてみました。 arxiv.org かなりのページ数なのでかいつまんでみています。 Difference in Differences 処置群に対し時間と共に処置状態に変化する場合の処置効果を推定する方法です。 置群の処…

【論文要約】FederBoost: Private Federated Learning for GBDT

はじめに Federated Learningに興味があり色々確認していたのですが、決定木ベースのモデルはないのかと思うようになりました。 探してみると以下の論文が出てきたので、読みました。 メモとしてここで簡単にまとめます。 arxiv.org はじめに 概要 イントロ …

今年で読んだ書籍

はじめに 毎年、年末にその年で読んだ本を簡単に振り返っていました。 今年はここで紹介することにしようと思います。 今年もそんなに読めてないですね。もう少しあった気もしますが、覚えていないということはそういうことです。

マーケティング・ミックス・モデリングに触れてみる

はじめに マーケティング・ミックス・モデリングに興味を持ったので、簡単に触れてみます。 メモとして残しておきます。 コードを動かした結果は少しづつ追加していきます。 基本的なモデル マーケティング・ミックス・モデリングではいくつかの効果を考える…

<論文要約> Sense and Sensitivity Analysis: Simple Post-Hoc Analysis of Bias Due to Unobserved Confounding (NeurIPS2020)

はじめに 先日、感度分析に関する記事をあげました。 saltcooky.hatenablog.com この内容を調べている際に、以下の論文を見つけました。 arxiv.org この論文では、Imbens(2003)で提案されていた感度分析を一般化しています。 面白そうだったので、読んでメモ…

因果推論における未観測の共変量の影響を考える感度分析

はじめに 数年前に岩波書店の確率と情報の科学シリーズの星野崇宏 著「調査観測データの統計科学」を読んでいきまとめていました。 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)作者:星野 崇宏岩波書店Amazon …

<論文要約> Causal Effects of Linguistic Properties (NAACL 2021)

読んだ論文 arxiv.org Twitterに流れてきた Causal Effects of Linguistic Properties (NAACL 2021) という論文を読みました。 解釈が間違っている部分はご指摘していただければと思います。 読んだ論文 概要 イントロ 因果推論の基本 言語特性の因果推論に…

データ分析の際のデータ品質担保に役立ちそうなRパッケージ【tidylog/assertr/testthat】

はじめに 先週Twitter上でデータ分析の際のテストはどうすべきかって話など、データ分析のデータの品質を確保するための話が話題に上がりました。 業務でやっているのはコードレビューを行いレビューワ環境で同じデータフレームや同じ結果が出力できるかを確…

複雑ネットワークの基本

はじめに ネットワーク分析に興味をもち過去にこちらの書籍を読み、 ネットワーク分析 第2版 (Rで学ぶデータサイエンス)作者:努, 鈴木発売日: 2017/05/24メディア: 単行本 以下のような記事を書いていました。 qiita.com qiita.com 複雑ネットワークについて…

RstanでWAICとWBICの算出

はじめに 情報量基準の復讐も兼ねて簡単にまとめます。 こちらの内容をまとめたものです。 社会科学のための ベイズ統計モデリング (統計ライブラリー )作者:浜田 宏,石田 淳,清水 裕士発売日: 2019/12/01メディア: 単行本(ソフトカバー) 事前設定 ある確…