と。

Github: https://github.com/8-u8

TokyoR Vol.79に参加しました

難しかったり簡単だったりする回

初心者セッションで公理的確率論がでてきたので楽しかったです。

サイトはこちら。

tokyor.connpass.com

きぬいとさんもLTをしましたが、実在する社名とか普通に出しちゃっているので検閲が必要です。ごめんね。

どんなLTをしたの?

消費者行動について、一定期間での特定ブランドの購買回数について、負の二項回帰をつかってパラメータ推定をやってみました。

データ分析のフローでは業務数の1割にもみたないモデリングの部分のお話です。

ポアソン分布は基本的に「ある時間内でおきた事象の回数」の分布なので、マーケティングでは例えば「1年間でおきた『商品Aを購入』という事象の回数」などの分布を考えたりします。

ポアソン分布はパラメータλをもち、平均と分散が等しいという特徴を持ちます。ポアソン回帰は目的変数がポアソン分布に従うことを仮定し、リンク関数を使ってパラメータλを推定する回帰分析ですが*1、現実のデータではこの特徴があまり適当でない場合があります。具体的には平均よりも分散が大きい「過分散」なデータであることが多いです。

さらに、使用するデータは「時系列データを購買者別にある期間でAggregateしたデータ」となり、購買者が時系列ごとにどのような買い方をしているのかが「圧縮」され、よく分からなくなっていることを想定しています。

時系列データである場合、購買者i別に、例えば1週間での購買個数がパラメータが「期間×λ」のポアソン分布に従うような構造が想定できます。

いわゆる「λって人によって違うよね」という構造を、マーケティングでも想定できるのかなあと思います。

その結果「λが確率分布に従うポアソン分布」を作り上げたいモチベーションが生まれます。

分布の混合は下手にすると泣いちゃうので、とりいそぎすでに知識のあるガンマ分布を規定すると、負の二項分布に近似します*2

そんな事情でλが人によって違う場合、モデルの適合度は負の二項分布で回帰をするほうが改善するし、過分散構造も説明できる上、人によって違うλのスコアも推定できるのでいい感じなんじゃないか?というお話でした。

予実の精度についてはあくまで線形モデルなので、適切に適用した場合、そこまで大きく変わることはないと思います。

今回のTokyoRは初心者セッションで公理的確率論が展開されるなど、確率分布ブームが来てしまったらしいので、次回はコイントスの話をしようと思います。

LTするにあたって参考にしたサイトとか文献とか

拙い論文でしたが「ポアソン回帰が適合しない理由を論じなければならない」という都合上、ポアソン回帰がOverdispersionに対して適合しないことと、ガンマ分布との混合によって負の二項分布が導出できる過程を論じました。そこの思い出しがてら活用しました。

本来なら論文としてPublishしたかったのですが、手法以外の論理がガバガバで二度と見たくないので封印しています。

Poisson分布とGamma分布を混合すると負の二項分布を表現できることの数理的な展開です。きぬいとの修士論文で書いてたやつが概ね間違ってないようだったので安心しました(?)

みんな大好きHoxo_m親分の負の二項分布に関するあれこれです。実装面や疑似データを生成したときに参考にしています。

*1:大体リンク関数は対数関数であることが多いです

*2:正確に言えば、負の二項分布が、ポアソン分布とガンマ分布の混合分布の一つの特殊パターンと言えます