名前はまだない

データ分析とかの備忘録か, 趣味の話か, はたまた

R

Surrogate indexについて調べて簡単にまとめる

はじめに こちらの記事でSurrogate indexについて初めて知りました。 developers.cyberagent.co.jp Netflixでも活用されていて、一定の成果を上げているようです。 arxiv.org 業務で扱う課題を解決してくれる可能性があったため、理解しておきたいと思いまし…

Staggered DIDの利用の感どころを簡単に確認

はじめに こちらでStaggered DIDを初めて知りました。 blog.brainpad.co.jp 介入タイミングが異なる場合のDIDということで、実務でも利用シーンがありそうな問題設計だと思いました。 簡単にまとめたいと思います。 概論 元の論文は以下になります。 arxiv.o…

カオス時系列解析の基礎 with R

はじめに 気になっていたこちらの書籍を読みました。 非線形時系列解析の基礎理論作者:平田 祥人,陳 洛南,合原 一幸東京大学出版会Amazon 元々学生の時に少し齧った内容だったので、非常に楽しかったです。 12章仕立てで様々な話題を広く薄く扱っており、読…

【RStan】FIBA W杯の日本代表って組み合わせ次第で2ndラウンド行ける可能性あったんじゃね?をデータで検証

はじめに FIBA W杯が開催されて日本代表の活躍が話題になりましたね。 私も現地までは行けませんでしたが、テレビの前で応援していました。 また強化試合は数試合に参加しました。 特にスロベニア戦は日本ベンチ裏の席がとれでテンションあがってましたね。 …

Immortal time bias(不死時間バイアス)の確認と対処を簡単に

はじめに target trial emulationについてまとめた中で不死時間バイアス:Immortal time biasを知りました。 Rのコードは以下の記事をかなりパクる参考にさせてもらっている。 moratoriamuo.hatenablog.com moratoriamuo.hatenablog.com 不死時間バイアス フ…

Wild Bootstrapの基本について

はじめに 最近、こちらの書籍を読みました。 計量経済学---ミクロデータ分析へのいざない作者:末石 直也日本評論社Amazon わかりやすい理論の説明に合わせて、実際のデータ分析行う際の視点に立った解説が端々にあり、非常に良い本でした。 その中で、第8章…

xgboostによる多重代入法:mixgb パッケージ

はじめに twitterで以下のツイートを見かけました。 R :: mixgb https://t.co/TuD7bEU9hTmixgb は XGBoost を使用した多重代入法の R XGBoost による予測値に対して,predictive mean matching (PMM) で補完をしており,https://t.co/BYkjF6eg0Eにあるような…

Targeted Maximum Likelihood Estimation:TMLEについて

はじめに 数年前のセミナーか学会でTMLEの概要の説明を聞いたことがあります。 しかし、詳細については理解していないため、今回簡単にまとめたいと思います。 概要 このページが非常に丁寧に方法論と手順を説明していました。 www.khstats.com 特にこちらの…

MetaのMMMパッケージ Robynを試してみる

はじめに 概要 Robynを試す インストール モデルの設定 モデルの推定 パレート最適な投資内容を抽出 アロケーションの最適化 投資額を設定したアロケーションの最適化 所感 参考 はじめに Metaが開発しているMMMパッケージの存在を知りました。 github.com f…

Synthetic Difference in Differencesに触れてみる

はじめに もしかしたら今の課題に使えるんじゃないかと思い調べてみました。 arxiv.org かなりのページ数なのでかいつまんでみています。 Difference in Differences 処置群に対し時間と共に処置状態に変化する場合の処置効果を推定する方法です。 置群の処…

マーケティング・ミックス・モデリングに触れてみる

はじめに マーケティング・ミックス・モデリングに興味を持ったので、簡単に触れてみます。 メモとして残しておきます。 コードを動かした結果は少しづつ追加していきます。 基本的なモデル マーケティング・ミックス・モデリングではいくつかの効果を考える…

因果推論における未観測の共変量の影響を考える感度分析

はじめに 数年前に岩波書店の確率と情報の科学シリーズの星野崇宏 著「調査観測データの統計科学」を読んでいきまとめていました。 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)作者:星野 崇宏岩波書店Amazon …

データ分析の際のデータ品質担保に役立ちそうなRパッケージ【tidylog/assertr/testthat】

はじめに 先週Twitter上でデータ分析の際のテストはどうすべきかって話など、データ分析のデータの品質を確保するための話が話題に上がりました。 業務でやっているのはコードレビューを行いレビューワ環境で同じデータフレームや同じ結果が出力できるかを確…

複雑ネットワークの基本

はじめに ネットワーク分析に興味をもち過去にこちらの書籍を読み、 ネットワーク分析 第2版 (Rで学ぶデータサイエンス)作者:努, 鈴木発売日: 2017/05/24メディア: 単行本 以下のような記事を書いていました。 qiita.com qiita.com 複雑ネットワークについて…

RstanでWAICとWBICの算出

はじめに 情報量基準の復讐も兼ねて簡単にまとめます。 こちらの内容をまとめたものです。 社会科学のための ベイズ統計モデリング (統計ライブラリー )作者:浜田 宏,石田 淳,清水 裕士発売日: 2019/12/01メディア: 単行本(ソフトカバー) 事前設定 ある確…

スタイン推定量と小地域推定の基本

はじめに 小地域推定とスタイン推定量について興味を持ったので、簡単にメモをまとめます。 参考になったのは、これらの資料やページです。 小地域推定についてのノート [理論編] 小地域推定のためのノート [実習編] 推定における縮小法の展開—高次元解析と…

ホークス過程の時系列分析について

はじめに こちらの本を読んでいます。 点過程の時系列解析 (統計学One Point)作者:崇宏, 近江,俊一, 野村発売日: 2019/06/08メディア: 単行本 前半としてポアソン過程と更新過程の内容をまとめていました。 saltcooky.hatenablog.com 今回はホークス過程につ…

ポアソン過程の時系列分析について

はじめに こちらの本を読んでいます。 点過程の時系列解析 (統計学One Point)作者:崇宏, 近江,俊一, 野村発売日: 2019/06/08メディア: 単行本 毎度のこと内容を簡単にまとめます。 はじめに 点過程について 各要素の定義 確率密度関数 強度関数 イベント数の…

Rstanで動的因子分析

はじめに こちらの書籍を読んでいます。 Rによるベイジアン動的線形モデル (統計ライブラリー)作者:G.ペトリス,S.ペトローネ,P.カンパニョーリ発売日: 2013/05/08メディア: 単行本 その中で、動的因子分析について一部触れていたので、packageとRstanでの実…

計量時系列分析まとめ【単位根過程と共和分過程】

はじめに 色々と発展的な時系列系の分析手法に手を付けようとすると、基本的な時系列分析についての知識が抜け抜けだったので、初心に帰って沖田先生の本に目を通しました。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)作者:竜義, 沖本発…

計量時系列分析まとめ【時系列解析の基礎とMA/AR過程】

はじめに 色々と発展的な時系列系の分析手法に手を付けようとすると、基本的な時系列分析についての知識が抜け抜けだったので、初心に帰って沖田先生の本に目を通しました。 いつも通り簡単にまとめたいと思います。 経済・ファイナンスデータの計量時系列分…

Rでベイズ最適化

はじめに ベイズ最適化の話について、興味が沸いたので簡単にまとめます。 (ただのメモです) 詳しくはこちらなどを見ると良いと思います。 cyberagent.ai ベイズ最適化 ベイズ最適化とは,未知の目的関数𝑓(𝑥)を最大化するを求める大域最適化の手法です。 こ…

粒子フィルターと粒子スムージングについて簡単に

はじめに 共立出版のOne point シリーズの野村俊一(著)「カルマンフィルタ」を読みました。 カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2)作者:野村 俊一発売日: 2016/09/08メディア: 単行本 最後に粒子フィルタに触れていま…

ベイジアンABテストと停止基準について

はじめに 仕事で、ベイジアンABテストを利用するのが良さそうだなと思い、調べてみましたのでまとめてみます。 ベイジアンABテスト 通常のABテストの懸念点 頻度論に基づく仮説検定では、帰無仮説における母数に対して得られた標本のがどの程度起こりうるか…

基本的な逐次的仮説検定について

はじめに 逐次検定を仕事で使えないかなと思って少し調べてみましたよ。 ちなみに歴史的にみると、ドイツ軍のエニグマ暗号解読の進め方の決定にも用いられていたようです。 en.wikipedia.org 逐次的に検定を行うことの問題点 通常の統計的仮説検定では、事前…

ゼロ過剰ポアソン非負値行列因子分解をRstanで

はじめに こちらの本を読みました。 機械学習スタートアップシリーズ ベイズ推論による機械学習入門作者:須山敦志発売日: 2018/12/07メディア: Kindle版 こちらには非負値行列因子分解(NMF)の話も出てきます。 前から、各要素がガウス分布やポアソン分布に従…

dplyr ver.1.0.0に追加された関数 + α

R

はじめに dplyr ver.1.0.0が公開されました。 dplyr 1.0.0 out now: https://t.co/NDMJmxwllZ. This is the culmination of months of work and we're very excited that it's now available to the world! #rstats— Hadley Wickham (@hadleywickham) 2020年…

TokyoR#85のLTで発表しました。

はじめに 今日、オンラインで開催されたTokyoR#85のLTの枠で少しお話をしました。 お話しした内容は、階層クラスタリングにおける仮説検定の方法を紹介しました。 スライドはこちらです。 speakerdeck.com (いつも通り詰め込みすぎて5分じゃ収まらんだろって…

LiNGAMで因果グラフを探索してみる with R

はじめに Pearl, Raubinときたので、LiNGAMについて知っておこうと思い以下の書籍を読みました。 統計的因果探索 (機械学習プロフェッショナルシリーズ)作者:清水 昌平発売日: 2017/05/25メディア: 単行本(ソフトカバー) いつも通り簡単にまとめて、Rで実…

パネルデータ分析についてのメモ

はじめに パネルデータ分析について興味があり少し調べてみました。 パネルデータ分析と動学的パネルデータについての基本的な部分を簡単にまとめました。 こちらの書籍も目を通してみました。パネルデータを扱うための基本的な注意点などがまとまってり、あ…