Marketing Mixed ModelとRobyn with R
この記事は
R Advent Calendar 202211日目の記事です。
10日目の記事にはしょこさんの記事ですね。
Twitterでは個人的に「動くグラフ」をたくさん作っているすごい人、という認識でいるのですが、今回は rtweet
パッケージを使ってTwitterの画像を集めて、
それをアニメーションにしているようです。すごい。
まだ読んでいない?ぜひ行ってきてください。この記事はとても長いので。
お久しぶりです
結局月1投稿すらままならなかったですが、元気にやっています。
アドカレの記事でいうこともないのですが、以下のご報告をします。
- 結婚しました
- PC買いました
- 統計検定はダメでした
- CTF始めました
- 転職します
- 来年もよろしくお願いします
内容
仕事と個人的な道楽を兼ねて一時期勉強していたMarketing Mixed Modelについて、
そのコンセプトとMeta社の実装であるRobynをWalkthroughしようと思います。
統計的検定とか有意とか考えれば考えるほど何もわからない
統計学はやはり人類には早いと思う
仕事で数理統計学を勉強していて、趣味で統計検定1級を取ろうとしているのですが、
今日は統計的検定の話をしようと思っています。
というのも、これが僕の無知によるものなのか、それとも世間一般に言われる誤解なのかはわからないんですが、
統計的検定ってそもそも一体何であるのかについて、よく理解できた形で
議論をしている場面に出会ったことがあまりないと思ったからです。
この記事ではどうにか「検定するには母集団に対する仮説を持つことが重要ですよ」とか「仮説がふんわりしたところで検定すると危ないですよ」とか話しますが、
具体的に「母集団に対する仮説を雑に決めたことで大きな損失を得た事例」をよく知らないので、
説得力に欠ける話になっています。大きな損失を得た事例持ってる方いたら教えてくだし。
どこまでを話すか?
実際、統計的検定や、その結果の判断軸などについては完成した合意があるわけではなく、ここ数年でも国内外でいろいろと議論が行われています。
代表的な例で、アメリカ統計協会では2016年に統計的有意性の指標の1つである「P値」についての懸念
を声明として上げています。
統計的検定に関する議論は、突き詰めると簡単に僕の知識や技量を越えてしまいそうなので、
議論の範疇は教科書にある範疇、つまり「そもそも統計的検定は何をしているのか」
ということの整理に努めたいと思います。
「実際に使うときにどのような誤解があり、どう回避するべきか」は、今の僕が書ける気がしないので、また記事を改めます。
「教科書にあることを書くだけじゃ意味がないのでは?」と思う方もいると思いますが、
このブログはそもそも自分本意な記事で、Rで分析してみたり
過去の自分が未来の自分に残している要素が強いので、誤解や無理解が残ったまま書き進めようと思いました。
もし「明らかにお前は分かっていない」という記述を見つけたら優しく教えてください。
前提とする理解
確率変数、及び確率分布に関する理解を前提にします。
理解の深さについては、以下に示している参考文献に記載されている範疇で十分です。
つまり測度論的な理解やマイナーな確率分布については一切出てこないのでごあんしんください*1。
参考文献
あらかじめ、参考としている文献はここに書いておきます。
記事の性質上、数式と解説のバランスが取れている方が重要だなと思い、
基本的な文献を挙げています。
- 久保川達也 2017 『現代数理統計学の基礎』 共立出版
- 竹村彰通 2020 『新装改訂版 現代数理統計学』 学術図書出版社
- 東京大学教養学部統計学教室 1991 『基礎統計学Ⅰ 統計学入門』 東京大学出版会
*1:そもそも特定の確率分布についての議論はあまりしないと思いました。
2022年になった話
あけましておめでとうございます。
2021年も似たようなことをしました。
日本人の多くは年のはじめに「今年頑張ること」を宣言します。主語が大きいですね。
そしてそのうちの多くの場合は、年中の出来事や意識の変化などに伴って、
目標の変更が必要になったり、あるいは目標そのものが達成不可能になったりするんですよね。
2021年の僕も流行に乗って……と思いましたが、昨年は精神面でまともではなかったので、
ヘタに目標を掲げると回復しないと思って、無理をしないことを目標に頑張っていたのでした。
あれから様々な人から(主にAmazonギフトで)サポートしていただき、
なんとか普通の勉強などにもリソースを割ける程度には快復できました。
今年も無理のない目標設定で、無理なくやっていこうと思います。
目標設定の哲学
哲学と言っていいのかなんともいえませんが、
怠惰な僕のことなので、年始に設定した目標をそもそも覚えていられるか、という問題があります。
仕事のようにアジャイルに目標管理をするとして、例えば3月に振り返りの機会を設けるとしても、
きっと忘れる(あるいは忘れたふりをする)ように思います。僕は自己肯定感として、僕に誇りを持つように努めますが、
未来の自分を全般的に信頼することは避けたいと思います。
とはいえ、2021年の自分より何らかの要素で、1つでもできることを増やしたいということは思っているので、
大枠では「去年の自分より1つでもできることを増やす」ということを目標にしてみようと思います。
この目標を達成するために3つの判定指標を置きます。
線形混合モデルを理解したい
この記事は
R Advent Calendar 2021の12日目の記事になるらしいです。
昨日の記事はしょこさんのLasso回帰スクラッチ実装です。
これはガチガチにすごいので正則化回帰完全理解を試みる勢は必読。
そして明日もしょこさんがロジスティック回帰をスクラッチ実装するらしいです。スクラッチ実装はいいぞ。
僕はやってませんが。
- 一般化線形混合モデルをRで実施する方法を書いています。
- ランダム効果の推定について2021年12月11日現在で僕が追いきれている部分まで記述しています。
- 混合モデルの拡張(正則化/非線形モデル)についても今後の調査・リサーチのためにメモしています。
お久しぶりです
5月以来ブログの更新をしていませんでした。
今年1年を振り返ることはまた改めて記事にしようかなと思いますが、
主に以下のようなことがありました。
- 転職活動をしていたが疲れた。
- そんなことをしていたら1年育てた後輩が引っこ抜かれた
- 採用活動をしている
- R以外を触ることが増えてきた(最近はパワーポイントとPythonとかRustとかを触っている)。
今日書くこと
2019年のアドベントカレンダーでは正規線形モデルから一般化線形混合モデルまでの変遷について、
適当に書いていました。
今年はその中でも一般化線形混合モデルを細かく書こうと思います。
なぜ?
面白いからです。
続きを読む